KI-Evaluierung jenseits der Genauigkeit: Wie Sie Enterprise-KI-Systeme benchmarken

Die häufigste Evaluierungsmethode für Enterprise-KI lautet: „Die Demo sah gut aus." Das entspricht in etwa der Abnahme eines neuen ERP-Systems anhand des Pitch-Decks vom Vendor — bevor ein einziger echter Buchungssatz durchgelaufen ist.

Echte KI-Evaluierung ist kein einmaliges Gate. Sie ist eine laufende operative Praxis, die misst, ob das System im Produktionsbetrieb tatsächlich Wert liefert. Und sie ist seit August 2025 keine Best Practice mehr, sondern für Unternehmen, die den EU AI Act ernst nehmen, eine regulatorische Notwendigkeit.

Warum Demo-Performance in die Irre führt

Demos arbeiten mit kuratierten Eingaben. Produktion empfängt alles: fehlerhafte Anfragen, Grenzfälle, adversariale Eingaben, Daten, die das Modell noch nie gesehen hat. Was in der kontrollierten Vorführung flüssig wirkt, degradiert im Betrieb — nicht weil das Modell schlechter wird, sondern weil sich die Eingabeverteilung verschiebt, Geschäftsprozesse sich ändern und die Quelldokumente, auf die das System retrieval-mäßig zugreift, aktualisiert werden.

Das zweite Problem ist die Metrikwahl. Demo-Evaluierungen messen typischerweise genau eine Dimension: „Sah die Ausgabe korrekt aus?" Wer damit in die Produktion geht, misst das Falsche. Sechs Dimensionen müssen gleichzeitig im Blick sein — und alle sechs müssen mit konkreten Geschäftsergebnissen verknüpft sein, nicht mit statistischen Durchschnittswerten.

Das Sechs-Metriken-Framework

Aufgabenspezifische Genauigkeit. Generische Gesamtgenauigkeit ist bedeutungslos. Ein Dokumentenklassifikationssystem braucht Precision und Recall je Klasse. Ein System, das 95 Prozent der Eingangsrechnungen korrekt klassifiziert, aber 40 Prozent der Gutschriften übersieht, hat statistisch hohe Genauigkeit und operativ ein ernstes Geschäftsproblem. Definieren Sie Ihre Genauigkeitsmetriken so, dass sie direkt auf Geschäftsergebnisse abbilden — nicht auf das, was die Evaluierungsbibliothek standardmäßig berechnet.

Halluzinationsrate. Die Rate variiert stark nach Aufgabentyp und Grounding-Qualität. RAG-gestützte Zusammenfassungen mit gut gepflegten Quelldokumenten können unter einem Prozent bleiben; offene juristische oder regulatorische Analyse liegt deutlich höher. Entscheidend ist: Messen Sie die Rate auf Ihren spezifischen Eingaben, mit Ihren Grounding-Dokumenten. Eine allgemeine Benchmark sagt Ihnen nichts über Ihr System. Und tracken Sie die Rate monatlich — sie driftet, auch wenn Sie das Modell nicht anfassen.

Latenzverteilung. Durchschnittslatenz ist eine Lügenzahl. Sie brauchen p50, p95 und p99. Ein System mit 200 Millisekunden Durchschnitt und 5 Sekunden p99 frustriert bei 10.000 täglichen Anfragen hundert Interaktionen pro Tag — die, die genau dann scheitern, wenn ein Sachbearbeiter auf eine dringende Entscheidung wartet. Definieren Sie Latenz-SLAs nach Use Case: Echtzeit-Interaktionen verlangen p95 unter einer Sekunde. Batch-Verarbeitung verträgt Minuten.

Kosten pro Aufgabe. Nicht Kosten pro Token — Kosten pro abgeschlossener Geschäftsaufgabe. Eine Vertragsprüfung, die drei Modellaufrufe, zwei Retrieval-Abfragen und einen Verifikationsschritt erfordert, kostet mehr, als der reine Token-Count vermuten lässt. Rechnen Sie die vollständige Pipeline-Kosten ein: Retrieval, Re-Ranking, Verifikation, etwaige Human-Review-Trigger. Das ist die Metrik, die KI-Performance mit der Unternehmensökonomie verbindet und einen echten ROI-Vergleich mit manuellen Prozessen ermöglicht.

Konsistenz. Dieselbe Eingabe sollte über mehrere Durchläufe semantisch äquivalente Ausgaben erzeugen. Hohe Varianz signalisiert unzuverlässiges Verhalten — ein Problem für jeden Prozess, der Audit Trails, Reproduzierbarkeit oder regulatorische Nachvollziehbarkeit erfordert. Messen Sie Output-Konsistenz über wiederholte Durchläufe mit semantischen Ähnlichkeitsscores, nicht mit String-Matching.

Drift-Indikatoren. Performance verschlechtert sich über die Zeit — und zwar leise. Tracken Sie Ihre Genauigkeitsmetriken wöchentlich. Vergleichen Sie die aktuelle Performance mit der Baseline, die Sie beim Deployment festgelegt haben. Definieren Sie Retraining-Trigger: die konkreten Schwellenwerte, ab denen Degradation einen Eingriff erfordert, bevor Nutzer das Problem melden.

Eine Evaluierungs-Pipeline aufbauen

Eine Evaluierungs-Pipeline ist keine Tabelle und kein monatliches Review-Meeting. Sie ist ein automatisiertes System, das kontinuierlich gegen Produktions-Traffic läuft und Probleme sichtbar macht, bevor sie eskalieren.

Golden Test Sets sind das Fundament. Kuratieren Sie 200 bis 500 Beispiele aus Ihren tatsächlichen Produktionseingaben mit verifizierten korrekten Ausgaben. Das ist Ihre Ground Truth. Lassen Sie das System wöchentlich dagegen laufen. Jeder Genauigkeitsabfall signalisiert ein Problem, bevor es bei den Nutzern ankommt. Die Kuratierung ist aufwändig — aber es ist der einzige Weg, eine Baseline zu haben, die Ihr Geschäft widerspiegelt und nicht einen generischen Benchmark, der nichts über Ihren Anwendungsfall aussagt.

Shadow Evaluation fängt, was Golden Test Sets übersehen. Samplen Sie ein bis fünf Prozent des Produktions-Traffics, routen Sie ihn parallel durch eine Evaluierungs-Pipeline, und vergleichen Sie Ausgaben rotierend gegen menschliches Urteil. Grenzfälle und verteilungsverschobene Eingaben — beides taucht in kuratierten Sets selten auf, im echten Traffic ständig.

A/B-Testing-Infrastruktur ist Pflicht, bevor Sie ein Modell, einen Prompt oder eine Retrieval-Strategie updaten. Die neue Version läuft parallel zur alten auf gesplittetem Traffic. Messen Sie alle sechs Metriken auf beiden. Promoten Sie erst, wenn die neue Version die alte über alle relevanten Dimensionen nachweislich übertrifft — nicht nur auf der Metrik, die Ihnen gerade wichtig erscheint.

Automatisiertes Alerting schließt das System. Definieren Sie Schwellenwerte für jede Metrik: Wenn Genauigkeit unter einen definierten Wert fällt, wenn Latenz-p95 eine Grenze überschreitet, wenn Kosten pro Aufgabe um zwanzig Prozent steigen — alarmieren Sie das Team automatisch. Verlassen Sie sich nicht darauf, dass Nutzer Probleme melden. Sie melden sie nicht, bis das System ernsthaft unbrauchbar ist.

Was der EU AI Act dazu sagt

Ab dem 2. August 2026 gelten für Hochrisiko-KI-Systeme nach EU AI Act die Pflichten aus Artikel 9 (Risikomanagementsystem) und Artikel 17 (Qualitätsmanagementsystem) in vollem Umfang. Beide Artikel verlangen explizit, was gutes Evaluierungs-Engineering seit Jahren fordert: ein kontinuierlicher, dokumentierter Prozess über den gesamten Lebenszyklus des Systems, mit vorab definierten Metriken und probabilistischen Schwellenwerten, Post-Market-Monitoring und systematischer Incident-Dokumentation.

Artikel 9 verlangt, dass Risiken nicht einmalig beim Launch bewertet werden, sondern „während des gesamten Lebenszyklus" laufend identifiziert, geschätzt und mitigiert werden. Artikel 17 verlangt ein dokumentiertes QMS, das Testverfahren vor, während und nach der Entwicklung sowie ein Post-Market-Monitoring-System umfasst. Für Mittelständler, die KI in regulierten Bereichen einsetzen — Personalentscheidungen, Kreditwürdigkeitsprüfungen, kritische Infrastruktur — sind das keine abstrakten Anforderungen. Sie sind konkret durchsetzbar, und die Durchsetzung beginnt in neun Monaten.

Unternehmen, die jetzt eine robuste Evaluierungs-Pipeline aufbauen, erfüllen damit gleichzeitig die regulatorischen Anforderungen. Wer das auf später verschiebt, baut zweimal.

Die häufigsten Fehler

Einmal evaluieren, für immer deployen. Das Modell, das im März 95 Prozent erzielte, erzielt im Juni womöglich 85 Prozent, weil sich die Eingabeverteilung verschoben hat. Evaluierung ist kein Gate — sie ist eine dauerhafte Monitoring-Funktion.

Das Modell messen statt das System. Das Modell ist eine Komponente. Retrieval-Pipeline, Prompt-Logik, Nachverarbeitung, Konfidenzschwellen — all das beeinflusst die Ausgabe. Evaluieren Sie das Gesamtsystem, nicht das Modell isoliert.

Für die falsche Metrik optimieren. Ein Compliance-Prüfsystem, das für Geschwindigkeit auf Kosten der Genauigkeit optimiert ist, erzeugt mehr Risiko, als es reduziert. Jede Evaluierungsmetrik muss auf das Geschäftsergebnis abgebildet sein, das sie schützt.

Keine Baseline aus dem manuellen Prozess. Ohne Messung der aktuellen menschlichen Performance bei denselben Aufgaben — Genauigkeit, Latenz, Kosten — haben Sie keinen Vergleichspunkt. Messen Sie menschliche Performance an einer repräsentativen Stichprobe, bevor das KI-System live geht. Das ist der Beweis, ob sich die Investition rechnet.

Ein durchdachtes Evaluierungsframework ist keine akademische Übung. Es ist die operative Voraussetzung dafür, dass KI-Systeme im Mittelstand das halten, was in der Demo versprochen wurde — und die regulatorische Grundlage, ohne die Sie ab August 2026 in einem Hochrisiko-Use-Case nicht operieren können.

Eine Diagnostik prüft, welche Ihrer laufenden KI-Systeme eine tragfähige Evaluierungs-Baseline haben — und wo Sie regulatorisch und operativ auf dünnem Eis stehen.

Diagnostik starten →

Quellen: EU AI Act, Artikel 9 (Risikomanagementsystem) und Artikel 17 (Qualitätsmanagementsystem), in Kraft seit August 2024, Hochrisiko-Pflichten ab 2. August 2026 — artificialintelligenceact.eu/article/9/, artificialintelligenceact.eu/article/17/; BSI-Leitlinien zum Einsatz von KI sowie Guidance zu LLM-Evasionsangriffen — bsi.bund.de.

KI-Evaluierung jenseits der Genauigkeit: Wie Sie Enterprise-KI-Systeme benchmarken

Warum Demo-Performance in die Irre führt

Das Sechs-Metriken-Framework

Eine Evaluierungs-Pipeline aufbauen

Was der EU AI Act dazu sagt

Die häufigsten Fehler

Related articles

Von Ambition zu Aktivierung: Was Deloittes Befragung von 3.235 Führungskräften über die Skalierung von KI verrät

88 % führen ein, 6 % gewinnen: McKinseys Daten zeigen, warum KI im Unternehmen nicht skaliert

Check your AI operating maturity