Die häufigste Evaluierungsmethode für Enterprise-KI lautet: „Die Demo sah gut aus." Das entspricht in etwa der Bewertung eines neuen ERP-Systems anhand des Vendor-Pitch-Decks.
Echte KI-Evaluierung ist kein einmaliges Gate. Sie ist eine laufende operative Praxis, die misst, ob das System in Produktion Wert liefert — nicht ob es Stakeholder in einer kontrollierten Demo beeindruckt hat.
Warum Demo-Performance in die Irre führt
Demos arbeiten mit kuratierten Eingaben. Produktion empfängt alles — fehlerhafte Anfragen, Grenzfälle, adversariale Eingaben, Daten, die das Modell noch nie gesehen hat. Eine 2026er-Studie von Galileo AI ergab, dass Modelle, die auf Evaluierungssets 95 Prozent Genauigkeit erreichten, im Produktionsverkehr regelmässig auf 80 bis 85 Prozent abfielen — und zwar schon im ersten Monat. Die Lücke vergrössert sich über die Zeit, wenn sich die Eingabeverteilung verschiebt.
Das zweite Problem ist die Metrikauswahl. Demo-Evaluierungen messen typischerweise eines: „Sah die Ausgabe korrekt aus?" Produktionssysteme müssen sechs Dinge gleichzeitig messen.
Das Sechs-Metriken-Evaluierungsframework
1. Aufgabenspezifische Genauigkeit. Generische Genauigkeit ist bedeutungslos. Ein Dokumentenklassifikationssystem braucht Precision und Recall je Klasse — nicht die Gesamtgenauigkeit. Ein System, das 95 Prozent der Rechnungen korrekt klassifiziert, aber 40 Prozent der Gutschriften übersieht, hat 95 Prozent Genauigkeit und ein ernstes Geschäftsproblem. Definieren Sie Genauigkeitsmetriken, die auf Geschäftsergebnisse abbilden, nicht auf statistische Durchschnitte.
2. Halluzinationsrate. Wie in der Halluzinationsforschung dokumentiert, variieren die Raten je nach Domäne von unter 1 Prozent (gestützte Zusammenfassung) bis über 6 Prozent (juristische Analyse). Messen Sie die Halluzinationsrate auf Ihren spezifischen Eingaben, mit Ihren spezifischen Grounding-Dokumenten. Tracken Sie sie monatlich — sie driftet.
3. Latenzverteilung. Durchschnittliche Latenz ist die falsche Metrik. Messen Sie p50, p95 und p99. Ein System mit 200ms Durchschnittslatenz, aber 5 Sekunden p99, frustriert 1 Prozent der Nutzer — und in einer kundenorientierten Anwendung mit 10.000 Anfragen täglich sind das 100 frustrierte Interaktionen. Definieren Sie Latenz-SLAs nach Use Case: Echtzeit-Interaktionen brauchen p95 unter einer Sekunde. Batch-Verarbeitung verträgt Minuten.
4. Kosten pro Aufgabe. Nicht Kosten pro Token — Kosten pro abgeschlossener Geschäftsaufgabe. Eine Vertragsprüfung, die drei Modellaufrufe, zwei Retrieval-Abfragen und einen Verifikationsschritt erfordert, kostet mehr, als der reine Token-Count vermuten lässt. Messen Sie die vollständigen Pipeline-Kosten, einschliesslich Retrieval, Re-Ranking, Verifikation und etwaiger Human-Review-Trigger. Das ist die Metrik, die KI-Performance mit Unternehmensökonomie verbindet.
5. Konsistenz. Dieselbe Eingabe sollte über mehrere Durchläufe hinweg semantisch äquivalente Ausgaben erzeugen. Hohe Varianz signalisiert unzuverlässiges Verhalten — problematisch für jeden Prozess, der Audit Trails oder Reproduzierbarkeit erfordert. Messen Sie Output-Konsistenz mittels semantischer Ähnlichkeitsscores über wiederholte Durchläufe derselben Eingaben.
6. Drift-Indikatoren. Modell-Performance verschlechtert sich über die Zeit, wenn sich Eingabeverteilungen verschieben, Geschäftsprozesse sich ändern und Quelldokumente aktualisiert werden. Tracken Sie Genauigkeitsmetriken wöchentlich. Vergleichen Sie aktuelle Performance mit der bei Deployment festgelegten Baseline. Definieren Sie Retraining-Trigger — die Schwellenwerte, ab denen Performance-Degradation ein Eingreifen erfordert.
Eine Evaluierungs-Pipeline aufbauen
Eine Evaluierungs-Pipeline ist keine Tabelle. Sie ist ein automatisiertes System, das kontinuierlich gegen Produktions-Traffic läuft.
Golden Test Sets. Kuratieren Sie 200 bis 500 Beispiele aus Ihren tatsächlichen Produktions-Eingaben mit verifizierten korrekten Ausgaben. Das ist Ihre Ground Truth. Lassen Sie das System wöchentlich dagegen laufen. Jeder Genauigkeitsabfall signalisiert ein Problem, bevor es bei den Nutzern ankommt.
Shadow Evaluation. Samplen Sie 1 bis 5 Prozent des Produktions-Traffics. Routen Sie ihn sowohl an das Produktionsmodell als auch an eine Evaluierungs-Pipeline. Vergleichen Sie Ausgaben rotierend gegen menschliches Urteil. Das fängt Grenzfälle ab, die Golden Test Sets übersehen.
A/B-Testing-Infrastruktur. Beim Update von Modellen, Prompts oder Retrieval-Strategien lassen Sie die neue Version parallel zur alten auf gesplittetem Traffic laufen. Messen Sie alle sechs Metriken auf beiden. Promoten Sie die neue Version erst, wenn sie die alte über alle relevanten Metriken nachweislich übertrifft.
Automatisiertes Alerting. Definieren Sie Schwellenwerte für jede Metrik. Wenn Genauigkeit unter 90 Prozent fällt, wenn Latenz p95 über 2 Sekunden steigt, wenn Kosten pro Aufgabe um 20 Prozent steigen — alarmieren Sie das Team automatisch. Verlassen Sie sich nicht darauf, dass Nutzer Probleme melden.
Was die meisten Unternehmen falsch machen
Einmal evaluieren, für immer deployen. Das Modell, das im März 95 Prozent erzielte, erzielt im Juni vielleicht 85 Prozent, weil sich die Eingabeverteilung verschoben hat. Evaluierung ist kein Gate — sie ist eine kontinuierliche Monitoring-Funktion.
Das Modell messen statt das System. Das Modell ist eine Komponente. Die Retrieval-Pipeline, der Prompt, die Nachverarbeitungslogik, die Konfidenzschwellen — all das beeinflusst die Ausgabe. Evaluieren Sie das Gesamtsystem, nicht das Modell isoliert.
Für die falsche Metrik optimieren. Ein Compliance-Prüfsystem, das für Geschwindigkeit auf Kosten der Genauigkeit optimiert ist, erzeugt mehr Risiko als es reduziert. Bilden Sie jede Evaluierungsmetrik auf das Geschäftsergebnis ab, das sie schützt, und gewichten Sie entsprechend.
Keine Baseline. Ohne Messung der aktuellen menschlichen Performance bei denselben Aufgaben können Sie nicht wissen, ob das KI-System eine Verbesserung darstellt. Messen Sie menschliche Genauigkeit, Latenz und Kosten an einer repräsentativen Stichprobe vor dem KI-Deployment — das ist Ihr Vergleichspunkt.
Starten Sie eine Diagnostik, um Ihre KI-Evaluierungsreife zu bewerten. Wir prüfen Ihre aktuellen Messpraktiken und bauen ein Evaluierungsframework, das auf Ihre Geschäftsanforderungen zugeschnitten ist. Diagnostik starten →
References: Galileo AI, "The MLOps Guide to Transform Model Failures Into Production Success," 2026; Pranava Kailash, "How to Evaluate LLM Performance: 6 Proven Methods," 2026; PatSnap, "How to Evaluate LLM Hallucination Rates in Engineering," 2026; Evidently AI, "Model Monitoring for ML in Production: A Comprehensive Guide," 2026.