Operativen KI-Impact messen: Jenseits von Accuracy zu Business Outcomes

Ihr KI-Modell hat 94 % Accuracy. Ihre Geschäftsführung interessiert das nicht — und sie hat recht.

Das liegt nicht an mangelnder Sachkenntnis. Es liegt daran, dass Accuracy eine technische Metrik ist, die eine technische Frage beantwortet: Wie oft trifft das Modell die richtige Antwort? Die Geschäftsführung stellt geschäftliche Fragen. Haben wir dieses Quartal mehr Schäden bearbeitet? Sind die Kosten pro Vorgang gesunken? Ist die Fehlerquote zurückgegangen? Haben wir Kapazität für höherwertige Arbeit freigesetzt? Auf keine dieser Fragen gibt eine Accuracy-Zahl eine Antwort.

Genau hier scheitern die meisten KI-Messungen. Das Team berichtet Modell-Performance, die Geschäftsführung will operative Performance, und das Gespräch stockt, weil beide Seiten Unterschiedliches messen. Der Pilot gilt technisch als Erfolg und betriebswirtschaftlich als ungeklärt — und versandet auf genau diesem Widerspruch.

Wer die Lücke schließen will, baut das Messframework von oben nach unten: Es beginnt bei den Business Outcomes und arbeitet rückwärts zu den technischen Metriken, die sie stützen. Nicht umgekehrt. Das ist nicht nur sauberes Reporting — es ist seit Inkrafttreten des EU AI Act auch eine Compliance-Frage. Wer Accuracy ohnehin über den gesamten Lebenszyklus belegen muss, sollte diese Pflicht so anlegen, dass sie zugleich den Business Case trägt.

Die Messhierarchie

Verstehen Sie KI-Messung als dreistufige Hierarchie. Jede Stufe dient einem anderen Publikum und beantwortet eine andere Frage. Der häufigste Fehler ist, allen drei Publika dieselben Zahlen vorzulegen — der Geschäftsführung Recall-Kurven, dem Engineering nackte Euro-Beträge. Beide Seiten schalten ab.

Stufe 1 — Business Outcomes, für Geschäftsführung und C-Level. Das sind die Metriken, die das Investment rechtfertigen. Sie müssen in Euro, Zeit oder Stückzahlen ausdrückbar sein — Zahlen, die jede Führungskraft ohne technischen Kontext liest. Fünf reichen. Der Durchsatz: Wie viele Vorgänge — Schäden, Rechnungen, Tickets, Aufträge — werden pro Woche verarbeitet, und ist das seit dem Deployment gestiegen? Die Kosten pro Vorgang: Was kostet die End-to-End-Bearbeitung eines Falls, vollbelastet gerechnet, und sind diese Kosten gesunken? Die Zykluszeit von Eingang bis Abschluss, Wartezeiten eingeschlossen. Die Fehlerquote, also der Anteil der Ergebnisse, der Korrektur oder Nacharbeit erfordert. Und die Kapazitätsverlagerung: wie viele Stunden oder Vollzeitäquivalente von repetitiver Arbeit befreit und auf höherwertige Aufgaben umgelenkt wurden. Diese fünf Größen decken den Business Case für die große Mehrheit operativer KI-Workflows ab. Zeigen Sie bei zweien davon eine belastbare Verbesserung, ist die Investition gerechtfertigt. Zeigen Sie bei keiner eine, liefert der Workflow keinen Wert — egal, wie gut das Modell ist.

Stufe 2 — Operative Metriken, für das Operations-Team. Diese Kennzahlen zeigen, ob der Workflow im Tagesgeschäft sauber läuft. Sie sind Frühindikatoren: Sie kündigen Veränderungen der Business Outcomes an, bevor diese im Quartalsabschluss auftauchen. Dazu gehören die Automatisierungsrate — der Anteil der Fälle, die vollständig ohne menschliches Eingreifen durchlaufen — und die Fallback-Rate, also der Anteil, der an Prüfer eskaliert wird, weil die Modellkonfidenz unter dem Schwellenwert liegt; ein schleichender Anstieg deutet auf Drift hin. Hinzu kommen Queue-Tiefe und Latenz (wie viele Fälle warten, wie lange?), das Grenzfall-Volumen samt der Frage, ob neue Falltypen auftauchen, die im Training nicht vorkamen, und die Übereinstimmungsrate der Prüfer: Wie oft folgen Menschen der Modellempfehlung, wenn sie sie kontrollieren? Eine sinkende Übereinstimmung ist das früheste verlässliche Signal für Modelldegradation. Diese Stufe gehört auf ein Dashboard, das der Workflow-Verantwortliche wöchentlich prüft — kein Reporting nach oben, aber unverzichtbar, um Probleme früh zu fangen.

Stufe 3 — Technische Metriken, für das Engineering-Team. Modell-Accuracy, Precision und Recall, die Konfidenzverteilung über die Fallpopulation, die Latenz pro Inferenz und die Drift der Eingabeverteilung gegenüber den Trainingsdaten. Diese Größen sind für sich genommen nicht geschäftsrelevant, aber sie sind die Diagnosewerkzeuge, die erklären, warum sich operative Metriken verändern. Eine Verschiebung der Konfidenzverteilung geht einem Accuracy-Verfall oft voraus; eine Verteilungsdrift im Input ist die technische Wurzel vieler operativer Auffälligkeiten. Diese Metriken gehören in Engineering-Reviews — nicht in die Vorstandspräsentation.

Eine Bemerkung zu Stufe 3, die Sie nicht als Pflichtübung abtun sollten: Wer ein hochriskantes KI-System im Sinne des EU AI Act betreibt, muss die deklarierten Accuracy-Metriken laut Artikel 15 ohnehin dokumentieren und über den gesamten Lebenszyklus stabil halten — das System soll „consistently in those respects throughout their lifecycle" performen. Stufe 3 ist also keine optionale Kür, sondern die regulatorische Pflichtschicht. Der elegante Zug besteht darin, dieselbe Datenerhebung so zu strukturieren, dass sie nach oben in Stufe 2 und Stufe 1 durchschlägt. Dann zahlt ein einziges Monitoring-Setup gleichzeitig auf Compliance, Betriebssteuerung und Business Case ein.

Die Baseline aufbauen

Ohne Baseline lässt sich keine Verbesserung messen. Das klingt banal, wird aber mit erstaunlicher Verlässlichkeit übersehen. Das typische Muster: Ein Unternehmen deployt einen KI-Workflow, ohne den Vor-Zustand zu erfassen, und steht drei Monate später vor der Frage des CFO nach dem Impact — ohne Vergleichswert, mit dem es ihn beziffern könnte. Der Pilot mag funktioniert haben; beweisen lässt es sich nicht mehr.

Erheben Sie die Baseline zwei bis vier Wochen vor dem Deployment, und messen Sie exakt die fünf Business Outcomes, die Sie danach tracken: den aktuellen Durchsatz in Einheiten pro Woche, die vollbelasteten Kosten pro Vorgang inklusive Personal, Systemen und Fehlerkorrekturen, die Zykluszeit von Eingang bis Abschluss mit Wartezeiten, die Fehlerquote als Anteil der Vorgänge mit Nacharbeit und die aktuelle Kapazitätsverteilung — also wie viele Vollzeitkräfte an diesem Workflow arbeiten und welchen Anteil ihrer Zeit er bindet. Diese Zahlen sind nicht Bürokratie, sondern die Grundlage jeder ROI-Rechnung über die gesamte Lebensdauer des Workflows. Dokumentieren Sie sie sauber und an einem Ort, an dem sie in einem Jahr noch auffindbar sind.

Wenn Sie noch dabei sind, den richtigen Workflow zu identifizieren, hilft das Drei-Filter-Framework aus dem Process Mining bei der Vorauswahl. Und wenn Sie gerade Kandidaten für ein Deployment evaluieren, strukturiert unsere KI-Betriebsdiagnostik genau diese Baseline-Erhebung.

Die ROI-Rechnung, die tatsächlich funktioniert

KI-ROI-Rechnungen kippen fast immer in eines von zwei Extremen. Entweder grob vereinfacht — „Wir sparen drei FTE, also ROI gleich drei Gehälter minus Implementierung" — oder grotesk überkonstruiert, ein 20-Variablen-Modell mit Sensitivitätsanalyse und Monte-Carlo-Simulation, das niemand im Aufsichtsrat nachvollzieht. Die Version, die im Mittelstand trägt, hat vier Komponenten, und jede folgt einer eisernen Regel: Zählen Sie nur, was Sie auch belegen können.

Die direkte Kostenersparnis ist der nüchternste Posten — die reduzierten Personalkosten für den automatisierten Teil des Workflows, gerechnet als tatsächlich eingesparte Stunden pro Woche mal vollbelastetem Stundensatz mal 52. Entscheidend ist das Wort „tatsächlich": Verwenden Sie die real freigewordenen Stunden, nicht das theoretische Maximum, das eine 100-prozentige Automatisierung verspricht, aber nie eintritt. Der Durchsatzwert zählt nur dann, wenn höherer Durchsatz nachweisbar Umsatz schafft oder Verluste verhindert — der Versicherer, der Schäden schneller reguliert und dadurch messbar weniger Kunden verliert, der Fertiger, der mehr Aufträge ohne zusätzliche Schicht abwickelt. Hat eine Durchsatzsteigerung keinen Umsatzbezug, erzwingen Sie keine Zahl. Die vermiedenen Fehlerkosten sind oft das überzeugendste Argument für risikobewusste Entscheider: Nacharbeitszeit, verärgerte Kunden, im regulierten Umfeld auch Haftungs- und Compliance-Risiko. Sinkt die Fehlerquote belastbar, beziffern Sie, was dieser Rückgang vermeidet. Der Kapazitätsverlagerungswert schließlich ist der gefährlichste Posten, weil er am leichtesten geschönt wird. Wird freigesetzte Kapazität tatsächlich in messbaren Output umgelenkt — Akquise, komplexe Fallbearbeitung, Prozessverbesserung —, schätzen Sie ihn. Versickert sie ohne sichtbares Ergebnis, zählt sie nicht. Das ist dann ein Führungsproblem, kein KI-Nutzen, und es als Letzteren auszuweisen untergräbt die Glaubwürdigkeit der gesamten Rechnung.

Summieren Sie die vier Komponenten, ziehen Sie die Gesamtkosten des Workflows ab — Implementierung, Betrieb, Lizenzen, und im AI-Act-relevanten Fall die laufenden Monitoring- und Dokumentationsaufwände — und Sie haben einen ROI, den eine Geschäftsführung bewerten kann, ohne ihn glauben zu müssen.

Wann messen, wann berichten

Messung und Reporting sind nicht dasselbe, und sie laufen in unterschiedlichen Takten. Wöchentlich prüft der Workflow-Verantwortliche die operativen Metriken der Stufe 2 — kein Bericht, nur ein Dashboard-Blick, mit Handlungsbedarf erst, wenn eine Größe aus der erwarteten Bandbreite läuft. Monatlich, in den ersten sechs Monaten nach dem Deployment, werden die Business Outcomes der Stufe 1 verdichtet und gegen die Baseline gestellt; dieser engere Takt fängt Probleme in der heiklen Stabilisierungsphase ab, bevor sie sich in einem Quartalsergebnis festsetzen. Vierteljährlich gehen die Business Outcomes an Sponsor und Führungsteam — mit Baseline-Vergleich, Trendverlauf und den ergriffenen oder anstehenden Maßnahmen. Das ist der Governance-Review, beschrieben in KI-Governance für den Mittelstand, und im AI-Act-Kontext zugleich die Stelle, an der sich die Pflicht zur kontinuierlichen Post-Market-Beobachtung aus Artikel 72 erfüllen lässt, ohne ein zweites Reporting-Gerüst daneben aufzubauen. Jährlich schließlich wird der Ganzjahres-ROI gerechnet und gegen den Business Case gehalten, der die Investition ursprünglich begründet hat. Diese Zahl entscheidet, ob der Workflow ausgebaut, umgebaut oder stillgelegt wird — und sie liefert die Beweislast für die nächste KI-Initiative gleich mit.

Metriken, die in die Irre führen

Manche Kennzahlen klingen aussagekräftig und sind im Kontext operativer KI aktiv irreführend. Vier davon begegnen uns immer wieder. Accuracy isoliert ist die gefährlichste: Ein Modell mit 95 % Accuracy wirkt solide — aber wenn sich die übrigen 5 % auf die hochwertigen, folgenreichen Fälle konzentrieren, ist der geschäftliche Schaden überproportional. Koppeln Sie Accuracy deshalb immer an eine Analyse, wo die Fehler liegen, nicht nur wie viele. Zeitersparnis ohne Wiedereinsatz ist die zweite: „KI spart dem Team 20 Stunden pro Woche" bedeutet nichts, solange diese 20 Stunden nicht in messbaren Output an anderer Stelle umschlagen — sonst ist es freie Zeit, kein eingesparter Aufwand. Die Automatisierungsrate ohne Qualitätskontrolle ist die dritte: „80 % der Fälle laufen vollautomatisch" beeindruckt nur, wenn diese 80 % auch korrekt bearbeitet werden; ohne gekoppelte Fehlerquote ist es eine reine Eitelkeitskennzahl. Und der Vergleich mit dem theoretischen Maximum ist die vierte: „Wir erreichen 60 % der theoretisch möglichen Durchsatzsteigerung" sagt der Geschäftsführung nichts darüber, ob sich die Investition lohnt. Gemessen wird immer gegen die Baseline, nie gegen ein Ideal, das es im Betrieb nie gegeben hat.

Messung mit der Methodik verbinden

In der KI-Betriebssystem-Methodik ist Messung kein nachträglicher Reporting-Gedanke, sondern in jede Phase eingebaut. Discovery etabliert die Baseline, bevor irgendetwas deployt wird. Die Accelerator-Phase bringt den ersten Workflow live und beginnt sofort mit der Messung gegen diese Baseline. Der OS-Build-Phase verfeinert das Messframework, während das System reift und neue Falltypen sichtbar werden. Und Managed Operations hält die laufende Messung als festen Teil des operativen Rhythmus aufrecht — nicht als jährliche Pflichtübung, die an Relevanz verliert, sondern als Instrument, das mit dem Workflow mitwächst. Genau diese Durchgängigkeit unterscheidet ein Messframework, das Entscheidungen trägt, von einem Reporting-Ritual, das niemand mehr liest.

Anfangen, das Richtige zu messen

Wenn Sie ein KI-Deployment planen und seinen Impact später belegen wollen, beginnen Sie nicht beim Modell, sondern bei der Baseline. Messen Sie Durchsatz, Kosten pro Vorgang, Zykluszeit, Fehlerquote und Kapazitätsverteilung für den Ziel-Workflow — bevor die KI live geht. Die zehn Minuten, die das kostet, entscheiden darüber, ob Sie in einem Jahr eine ROI-Zahl vorlegen können oder nur eine Vermutung.

Eine Diagnostic erfasst in rund zehn Minuten die Baseline Ihres Ziel-Workflows — Durchsatz, Kosten, Zykluszeit, Fehlerquote — und definiert die Metriken, die Geschäftsführung, Operations und Engineering gleichzeitig überzeugen, bevor Sie deployen und den Vergleichswert für immer verlieren.

Diagnostic starten →

Quellen: EU AI Act, Art. 15 „Accuracy, Robustness and Cybersecurity", artificialintelligenceact.eu/article/15; EU AI Act, Art. 72 „Post-Market Monitoring by Providers", artificialintelligenceact.eu/article/72.

Operativen KI-Impact messen: Jenseits von Accuracy zu Business Outcomes

Die Messhierarchie

Die Baseline aufbauen

Die ROI-Rechnung, die tatsächlich funktioniert

Wann messen, wann berichten

Metriken, die in die Irre führen

Messung mit der Methodik verbinden

Anfangen, das Richtige zu messen

Related articles

KI im Betrieb: Vom Process Mining zum produktiven Workflow

Das KI-Betriebssystem: Eine Methodik, um KI-Piloten in operativen Hebel zu verwandeln

Process Mining für KI: Wie Sie die Workflows finden, die wirklich von KI profitieren

Check your AI operating maturity