Warum KI auf Level 1 stagniert: Die Tool-Falle und wie Sie sie durchbrechen

Ihre Teams nutzen ChatGPT. Einige haben Copilot-Lizenzen. Ein paar Power User haben Custom GPTs für ihre täglichen Aufgaben gebaut. Ihr Geschäftsführer ist zufrieden — das Unternehmen „macht KI."

Das ist Level 1. KI als Werkzeug. Individuelle Produktivitätssteigerung. Und es ist eine Falle.

Nicht weil Level 1 schlecht ist. Es ist wirklich nützlich. Menschen entwerfen E-Mails schneller, fassen Dokumente in Minuten statt Stunden zusammen, generieren erste Versionen von Berichten, übersetzen technische Spezifikationen und recherchieren Wettbewerber effizienter. Die Produktivitätsgewinne sind real und unmittelbar. Die Falle ist, dass sie sich wie Fortschritt anfühlen, während sie keinen der aufaddierenden Effekte produzieren, die dauerhaften Wettbewerbsvorteil schaffen.

Die Zahlen machen die Lücke unübersehbar. McKinseys „State of AI 2025" findet, dass rund 88 % der befragten Organisationen KI in mindestens einer Funktion einsetzen — aber über 80 % berichten keinen messbaren Effekt auf das Ergebnis auf Unternehmensebene. Eine vielzitierte MIT-Studie aus dem Sommer 2025, „The GenAI Divide", kommt zum noch schärferen Befund, dass rund 95 % der untersuchten GenAI-Pilotprojekte keinen messbaren Effekt auf die Gewinn- und Verlustrechnung erzielen. Das ist kein Technologieproblem. Es ist ein Integrationsproblem: Jeder Einzelne gewinnt Produktivität, die Organisation gewinnt nichts Strukturelles. Keine Workflow-Verbesserung, keine Prozesstransformation, keine operative Hebelwirkung. Wenn jemand das Unternehmen verlässt, gehen seine KI-Produktivitätsgewinne mit ihm.

Dieser Artikel behandelt das Kern-Framework dahinter — warum sich die meiste KI-Aktivität nicht aufaddiert und was der Übergang von Tool-Nutzung zu operativer Hebelwirkung tatsächlich erfordert.

Die drei Level

Das Drei-Level-Framework unterscheidet zwischen fundamental verschiedenen Modi der KI-Integration. Jedes Level beschreibt eine andere Beziehung zwischen KI und Organisation — nicht nur eine andere Adoptionsskala. Das ist die Verwechslung, die McKinsey messbar macht: Adoption ist breit, Wertschöpfung selten. Wer mehr Lizenzen verteilt, klettert nicht auf das nächste Level. Er vertieft nur Level 1.

Level 1: KI als Werkzeug

Auf Level 1 ist KI ein persönliches Produktivitätswerkzeug. Individuen nutzen KI-Anwendungen, um ihre eigene Arbeit zu verbessern, während die Prozesse, Workflows und das Betriebsmodell der Organisation unverändert bleiben. Die Nutzung ist individuell und ad hoc — jede Person entscheidet selbst, wann und wie sie KI einsetzt. Es gibt keine Integration mit den Business-Systemen, in denen das Geschäft tatsächlich läuft (ERP, CRM, DMS), keine definierten Workflows jenseits des Kopierens zwischen Arbeitstool und Chat-Fenster, keine KPIs, die den Impact auf Geschäftsergebnisse messen, und keine Governance, die regelt, wofür KI eingesetzt werden soll und wofür nicht. Vor allem aber sind die Gewinne linear: Zehn Nutzer ergeben zehn individuelle Verbesserungen, hundert Nutzer hundert. Es gibt keinen Multiplikatoreffekt.

In der Praxis sieht das so aus: Das Marketing entwirft Social-Media-Posts mit KI, die Rechtsabteilung prüft Verträge damit, das Finanzteam fasst Quartalsberichte zusammen. Jeder Anwendungsfall ist für das Individuum wertvoll. Keiner verändert, wie die Abteilung operiert.

Level 2: KI als Spezialist

Auf Level 2 ist KI in spezifische Business-Workflows integriert. Sie ist kein Allzweckwerkzeug mehr, das Individuen nach eigenem Ermessen nutzen, sondern ein Spezialistensystem, das definierte Aufgaben innerhalb definierter Prozesse ausführt — gemessen an definierten KPIs. Die KI ist in einen Workflow eingebettet, in dem sie Inputs verarbeitet, Outputs produziert und sich mit den Quellsystemen verbindet. Es gibt klare Delegationsregeln: Die KI weiß, was sie selbst bearbeitet, was sie eskaliert und wer ihre Arbeit prüft. Die Performance wird gemessen — Durchsatz, Genauigkeit, Zykluszeit, Kosten pro Einheit — und ein Review-Zyklus überwacht die Qualität, erkennt Drift und setzt Verbesserungen um. Das Betriebsmodell selbst hat sich verschoben: Teamrollen spiegeln den Mensch-KI-Workflow wider, nicht den Vor-KI-Prozess. Und entscheidend — die Gewinne addieren sich auf, weil jeder Zyklus aus Review und Verbesserung den nächsten effizienter macht.

In der Praxis kann das ein Triage-System in der Schadenbearbeitung sein: Es klassifiziert eingehende Schäden, routet sie an den zuständigen Bearbeiter und entwirft eine erste Bewertung — automatisch, für jeden Vorgang, mit definierten Konfidenz-Schwellenwerten, Eskalationsregeln und einem wöchentlichen Qualitätsreview. Die Rolle des Teams verschiebt sich von „jeden Schaden bearbeiten" zu „KI-klassifizierte Schäden prüfen und die komplexen Fälle entscheiden, die menschliches Urteilsvermögen erfordern". Genau diese Art von domänenspezifischer, in den Workflow eingebetteter Lösung ist es, die in der MIT-Untersuchung deutlich häufiger Ergebnisse liefert als das generische Tool im Chat-Fenster.

Level 3: KI als Operator

Auf Level 3 operiert KI über mehrere Workflows und Funktionen hinweg. Sie ist kein Spezialist in einem Prozess mehr, sondern ein Operator auf Systemebene, der mehrere Prozesse koordiniert, funktionsübergreifende Muster erkennt und seine eigenen Verbesserungskandidaten generiert. Mehrere Workflows laufen abteilungsübergreifend in Produktion, funktionsübergreifende Datenflüsse lassen die KI Muster erkennen, die Abteilungsgrenzen überspannen, und die Lernkomponente ist aktiv — jeder Workflow produziert Intelligenz, die andere Workflows verbessert und neue Automatisierungskandidaten identifiziert. Die Governance ist unternehmensweit konsistent, mit klaren Richtlinien für Datenverarbeitung, Entscheidungsautorität und Compliance. Das KI-Betriebssystem identifiziert seine eigenen nächsten Opportunities.

In der Praxis bedeutet das: KI-Workflows laufen über Schaden, Underwriting und Kundenkommunikation hinweg. Schadendaten informieren die Risikomodelle im Underwriting, Kommunikationsmuster informieren die Produktentwicklung. Das System erkennt, dass ein bestimmter Schadentyp in einer bestimmten Region überproportional auftritt, und flaggt das für die Preisgestaltung — ohne dass ein Mensch danach gefragt hat. Die Lernschleifen über Workflows hinweg haben es aufgedeckt. Das ist das Niveau, auf dem der von McKinsey beschriebene Vorsprung der wenigen High Performer entsteht.

Warum Unternehmen auf Level 1 hängenbleiben

Der Übergang von Level 1 zu Level 2 ist kein Technologie-Upgrade. Es ist ein organisatorischer Shift. Und es gibt spezifische, strukturelle Gründe, warum die meisten Unternehmen ihn nie schaffen.

Grund 1: Level 1 ist einfach

KI als Werkzeug zu deployen erfordert keinen organisatorischen Wandel. Sie kaufen Lizenzen. Sie verteilen sie. Menschen nutzen sie oder nicht. Es gibt keine Integrationsarbeit, kein Prozessredesign, kein Change Management. Die Einstiegshürde ist null.

Level 2 erfordert, einen spezifischen Workflow zu definieren, eine Datenpipeline zu bauen, Delegationsregeln zu implementieren, Review-Zyklen zu etablieren und zu verändern, wie ein Team operiert. Die Einstiegshürde ist substanziell — nicht weil es technisch schwierig ist, sondern weil es Entscheidungen erfordert, die jemand verantworten muss.

Der Weg des geringsten Widerstands führt immer zurück zu Level 1.

Grund 2: Level 1 fühlt sich wie Fortschritt an

Wenn 200 Mitarbeitende berichten, dass sie regelmäßig KI-Tools nutzen, fühlt sich das wie Fortschritt an. Umfragen zeigen Zufriedenheit. Anekdotische Produktivitätsgewinne werden zitiert. Das Quartals-Update an den Vorstand enthält Metriken über KI-Adoptionsraten und Tool-Nutzung.

Aber Adoption ist nicht Impact — und genau diese Verwechslung erklärt die Lücke zwischen den 88 % adoptierenden Organisationen und den über 80 %, die laut McKinsey keinen Ergebniseffekt sehen. ChatGPT zum schnelleren E-Mail-Entwurf zu nutzen, verändert keine operative Hebelwirkung. Es reduziert nicht die Kosten pro Transaktion, verbessert nicht den Durchsatz, schafft keinen Wettbewerbsvorteil. Es macht Individuen etwas schneller bei Aufgaben, die ohnehin keine Engpässe waren. Der größte Hebel für tatsächlichen Ergebniseffekt ist laut McKinsey nicht mehr Adoption, sondern das Neugestalten von Workflows — genau der Schritt, den Level 1 per Definition überspringt.

Die gefährlichste Position ist eine, in der die Organisation glaubt, KI bereits adoptiert zu haben, obwohl sie nur KI-Tools adoptiert hat.

Grund 3: Niemand verantwortet den Übergang

Level 1 wird von allen und niemandem verantwortet. Jeder Einzelne entscheidet sich, KI-Tools zu nutzen. Keine einzelne Person ist für den Übergang zu Level 2 verantwortlich.

Level 2 erfordert eine spezifische Person — typischerweise einen Bereichsleiter oder Geschäftsführer — die sagt: „Dieser spezifische Workflow wird KI-gestützt. Das sind die KPIs. Diese Person ist verantwortlich. Das ist das Budget. Das ist die Deadline." Ohne diese Person beginnt der Übergang nie.

Grund 4: Die Organisation verwechselt KI-Literacy mit KI-Capability

Viele Unternehmen investieren in KI-Trainingsprogramme. Workshops. Kurse. Zertifizierungen. Mitarbeitende lernen, was KI kann, wie man Prompts schreibt, welche Tools es gibt. Das ist wertvoll — es baut Literacy auf.

Aber Literacy ist nicht Capability. Capability ist die Fähigkeit, einen Workflow zu identifizieren, eine Datenpipeline zu bauen, einen KI-gestützten Prozess zu deployen, ihn zu steuern und zu verbessern. Capability ist organisational, nicht individuell. Sie können sich nicht zu Level 2 trainieren. Sie müssen sich dorthin bauen — beginnend mit einem Workflow.

Die Tabellenkalkulations-Falle

Das Muster ist nicht neu. Die Tabellenkalkulation wurde in den 1980ern und 1990ern weitgehend so adoptiert, wie KI-Tools heute adoptiert werden.

Einzelne Mitarbeitende entdeckten das Werkzeug. Sie nutzten es für persönliche Berechnungen, Budgets und Listen. Abteilungen sahen die Adoptionsraten steigen, die IT verteilte Lizenzen, alle fühlten sich produktiv.

Aber der echte Wert von Tabellenkalkulationen lag nicht in individueller Produktivität. Er lag in den strukturierten Prozessen, die Organisationen darauf aufbauten: Finanzberichtssysteme, Bestandsmanagement-Workflows, Planungs- und Forecasting-Modelle. Diese brauchten Jahre und erforderten organisatorische Entscheidungen darüber, was standardisiert wird, wer welche Prozesse verantwortet und wie Daten zwischen Abteilungen fließen.

Die Unternehmen, die den vollen Wert von Tabellenkalkulationen erfassten, waren nicht diejenigen mit den höchsten Adoptionsraten. Es waren diejenigen, die organisatorische Prozesse auf dem Werkzeug aufbauten.

KI folgt derselben Entwicklung. Die Unternehmen, die den vollen Wert erfassen werden, sind nicht diejenigen mit den meisten ChatGPT-Lizenzen. Es sind diejenigen, die operative Workflows — Level 2 — auf den Fähigkeiten aufbauen, die Level 1 demonstriert.

Was es braucht, um von Level 1 zu Level 2 zu kommen

Der Übergang erfordert vier spezifische Aktionen. Nicht zufällig entsprechen sie direkt den ersten vier Komponenten des KI-Betriebssystems.

1. Den Workflow identifizieren und definieren

Aufhören, über „KI im Kundenservice einsetzen" nachzudenken, und anfangen, einen spezifischen, messbaren Prozess zu definieren. Keine Abteilung. Keine Funktion. Einen Workflow mit klaren Inputs, klaren Outputs und einer messbaren Erfolgsdefinition.

Der Process-Mining-Ansatz bietet eine strukturierte Methode zur Identifikation des Workflow-Kandidaten mit der höchsten Hebelwirkung. Die Schlüsselkriterien: hohes Volumen, hohe Struktur, ausreichende Datenzugänglichkeit und eine messbare Baseline.

2. Den Kontext-Layer aufbauen

Level 1 arbeitet mit den Daten, die der Nutzer per Copy-Paste ins Chat-Fenster gibt. Level 2 erfordert einen Kontext-Layer — eine automatisierte Datenpipeline, die die richtigen Daten, im richtigen Format, zur richtigen Zeit, mit dem richtigen Domänenkontext liefert.

Hier stocken die meisten Übergänge von Level 1 zu Level 2. Nicht weil der Bau einer Datenpipeline unmöglich ist, sondern weil es erfordert, dass jemand entscheidet, welche Daten, aus welchen Systemen, mit welchen Aktualitätsanforderungen. Es erfordert Koordination mit der IT, Zugang zu Quellsystemen und den Bau von etwas Zuverlässigem.

3. Die Entscheidungsarchitektur definieren

Level 1 hat keine Entscheidungsarchitektur. Der Mensch nutzt den KI-Output nach eigenem Ermessen. Level 2 erfordert explizite Regeln darüber, wer was entscheidet — was die KI autonom handhabt, was sie für menschliche Entscheidung empfiehlt und was rein menschlich bleibt.

Hier verändert sich das Betriebsmodell. Die Arbeit des Teams ist nicht mehr „alles machen, aber KI zur Hilfe nehmen." Sie wird zu „die KI bearbeitet diese spezifischen Aufgaben; das Team bearbeitet diese spezifischen Aufgaben; so hängen sie zusammen."

4. Delegationsregeln und Review-Zyklen etablieren

Level 1 hat keine Governance. Level 2 erfordert Delegation und Review — definierten Autoritätsumfang, Eskalationsregeln, Ausnahmebehandlung, tägliche Stichproben, wöchentliche Qualitätsreviews. Das ist die Management-Ebene, die den Workflow rechenschaftspflichtig macht.

Ohne Delegation und Review fällt ein Level-02-Workflow innerhalb von 60 Tagen auf Level 1 zurück. Das Team verliert das Vertrauen in die KI-Outputs, beginnt das System zu umgehen und hört schließlich auf, es zu nutzen. Review-Zyklen sind kein Overhead — sie sind der Mechanismus, der Vertrauen aufbaut und erhält.

Warum Level 3 das Ziel ist, aber Level 2 der Schritt

Level 3 — KI als Operator — ist dort, wo der transformative Geschäftswert liegt. Mehrere Workflows, funktionsübergreifende Intelligenz, selbstidentifizierende Verbesserungskandidaten. Das ist das Betriebsmodell, das nachhaltigen Wettbewerbsvorteil schafft.

Aber Level 3 erfordert Infrastruktur, die nur Level 2 aufbaut: governed Workflows, bewährte Datenpipelines, etablierte Review-Zyklen, funktionierende Lernschleifen, ein Team mit operativer KI-Erfahrung. Direkt von Level 1 auf Level 3 springen zu wollen, ist das klassische Fehlermuster — die „unternehmensweite KI-Transformation", die Strategiepapiere produziert, aber keine produktiven Workflows.

Level 2 ist kein Kompromiss. Es ist das Fundament. Ein governed, gemessener, sich verbessernder Workflow ist mehr wert als eine 50-seitige KI-Strategie, weil er echte operative Hebelwirkung produziert und die organisationale Fähigkeit aufbaut, die für alles Weitere nötig ist.

Ihr Level diagnostizieren

Seien Sie ehrlich, wo Sie stehen. Die meisten Organisationen überschätzen ihr Level, weil sie Tool-Adoption mit Workflow-Integration verwechseln. Ein einziger Test entlarvt den Selbstbetrug: Was passiert, wenn Sie morgen alle KI-Tools abschalten?

Sie sind auf Level 1, wenn die KI-Nutzung individuell und nach eigenem Ermessen erfolgt, kein KI-gestützter Workflow in Produktion läuft, keine KPIs den Impact auf Geschäftsergebnisse messen und niemand eine definierte Rolle für das Management von KI-Workflows hat. Der Lackmustest: Alle KI-Tools morgen abzuschalten würde die individuelle Bequemlichkeit reduzieren, aber keinen Geschäftsprozess verändern.

Sie sind auf Level 2, wenn mindestens ein Workflow täglich echte Business-Inputs mit KI verarbeitet, dieser Workflow definierte KPIs, Delegationsregeln und einen Review-Zyklus hat und das Betriebsmodell des Teams den Mensch-KI-Workflow widerspiegelt. Der Lackmustest: Den KI-Workflow zu entfernen würde erfordern, die Arbeit an Menschen umzuverteilen — er ist tragend.

Sie sind auf Level 3, wenn mehrere Workflows funktionsübergreifend in Produktion laufen, funktionsübergreifende Datenflüsse Mustererkennung über Abteilungsgrenzen hinweg ermöglichen, Lernschleifen aktiv neue Workflow-Kandidaten identifizieren und die KI-Governance unternehmensweit und operativ verankert ist.

Die Diagnostik bietet ein strukturiertes Self-Assessment über alle sechs Dimensionen und hilft Ihnen, Ihr aktuelles Level zu bestimmen und die spezifischen Blocker zwischen Ihnen und Level 2 zu identifizieren.

Ein Fit Call ordnet Ihre KI-Aktivität ehrlich auf den drei Leveln ein und benennt den einen Workflow, mit dem Ihr Sprung auf Level 2 beginnt — bevor ein weiteres Jahr in Lizenzen ohne Ergebniseffekt verstreicht.

Fit Call vereinbaren →

Quellen: McKinsey & Company, „The State of AI" (State of AI 2025), https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai; MIT NANDA / Fortune, „The GenAI Divide: State of AI in Business 2025," 2025, https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/.