Die Agentic-AI-Governance-Lücke: Warum 97 % der Unternehmen KI-Agents erforschen, aber nur 11 % sie in Produktion betreiben

Zwei Prognosen von Gartner gehören nebeneinander gelesen, denn zusammen beschreiben sie die unbequemste Wette, die die Geschäftsführung im DACH-Mittelstand gerade eingeht. Die eine: Bis 2028 wird ein Drittel aller Enterprise-Software-Anwendungen Agentic AI enthalten — gegenüber weniger als einem Prozent im Jahr 2024. Die andere: Über 40 Prozent der heute laufenden Agentic-AI-Projekte werden bis Ende 2027 eingestellt. Nicht weil die Technologie versagt, sondern, in Gartners eigener Begründung, an eskalierenden Kosten, unklarem Nutzen und unzureichenden Risikokontrollen.

Das ist keine Technologielücke. Die Modelle funktionieren. Die Frameworks funktionieren. Der Agent Development Lifecycle ist gut verstanden. Die Lücke ist Governance — die Richtlinien, Guardrails, Messsysteme und Verantwortlichkeitsstrukturen, die bestimmen, ob ein Agent als gesteuertes Unternehmens-Asset operiert oder als unüberwachte Haftungsquelle, die auf Produktivsystemen läuft, mit Zugriff auf echte Daten, echte Kunden und echtes Geld.

Wer in dieser Auslese auf der richtigen Seite landen will, steuert Agents ebenso rigoros wie die Menschen und Systeme, mit denen sie interagieren. Das ist keine Frage der Vorsicht, sondern der Ökonomie: Ein Agent ohne Ownership, ohne Audit-Trail und ohne enge Tool-Berechtigungen ist kein Pilotprojekt, sondern eine Verbindlichkeit, die in der Bilanz noch nicht auftaucht. Governance beginnt dabei schon bei der Auswahl — Gartner schätzt, nur rund 130 der Tausenden von Anbietern, die mit „Agentic AI" werben, lieferten tatsächlich agentische Fähigkeiten; der Rest betreibt „Agent Washing", die Umetikettierung bestehender Assistenten, RPA und Chatbots.

Warum Agent-Governance sich grundlegend von Modell-Governance unterscheidet

Die meisten Unternehmen, die über ein KI-Governance-Framework verfügen, haben es für Modell-Governance gebaut — Aufsicht über Inputs und Outputs, Bias-Erkennung, Datenschutz und Modell-Performance-Monitoring. Dieses Framework lässt sich nicht auf Agents übertragen. Der Unterschied ist nicht graduell, sondern strukturell — und er beruht auf drei Eigenschaften, die Agents besitzen und Modelle nicht.

Autonomie verändert das Risikoprofil. Ein Modell produziert einen Output; ein Agent handelt auf dessen Basis — ruft APIs auf, schreibt in Datenbanken, versendet E-Mails, ändert Datensätze. Die Governance-Frage verschiebt sich von „War dieser Output angemessen?" zu „War diese Handlung angemessen, und wer hat sie autorisiert?". Sobald ein Agent eigenständig eine Bestellung erzeugt oder einen Kundendatensatz ändert, weitet sich die Governance-Fläche von der Inhaltsqualität auf die operative Entscheidungsbefugnis. Das Delegationsframework für menschliche Mitarbeitende greift hier unverändert: Was darf der Agent allein entscheiden, was muss er eskalieren, was ist ihm untersagt?

Tool Use erzeugt eine Angriffsfläche, die Modell-Governance nie adressiert hat. Anthropics Model Context Protocol (MCP), seit Ende 2024 ein offener Standard und inzwischen auch von OpenAI und Google DeepMind übernommen, hat sich als gemeinsame Schnittstelle für die Agent-zu-Tool-Integration durchgesetzt. Aber eine Schnittstelle ist keine Governance-Schicht. MCP definiert, wie ein Agent sich mit einem Tool verbindet — nicht, ob er es nutzen darf, unter welchen Bedingungen und mit welchem Audit-Trail. Genau hier öffnet sich die Lücke: Die Protokollschicht ist standardisiert, die Policy-Schicht darüber fehlt in den meisten Deployments. Das OWASP GenAI Security Project führt diese Risikoklasse in seiner Top-10-Liste für agentische Anwendungen als „Excessive Agency" — Agents, die ohne menschliche Prüfung handeln, ihren Berechtigungsumfang zur Laufzeit ausweiten oder unbegrenzt rekursieren. Der kanonische Fehlermodus ist kein Modellfehler, sondern ein Governance-Defizit.

Chain-of-Thought-Opazität macht Auditing schwieriger. Beim Modell inspiziert die Governance Input und Output. Beim Agent fallen die kritischen Entscheidungen in der Reasoning-Kette dazwischen — über mehrere Tool-Aufrufe, Retrieval-Schritte und Zwischenschlüsse hinweg. Warum ein Agent eine Beschwerde eskaliert, eine Risikobewertung umklassifiziert oder einen Prüfschritt überspringt, lässt sich nur durch Nachverfolgung der gesamten Kette auditieren, nicht am Endergebnis. Die dafür nötige Observability-Infrastruktur muss Entscheidungsspuren und Zwischenzustände erfassen, nicht nur Latenz und Accuracy.

Die Governance-Lücke ist längst reguliert — die meisten merken es nur noch nicht

Während die Branche über Agent-Governance als Best Practice diskutiert, ist sie für einen wachsenden Teil des DACH-Mittelstands bereits geltendes Recht. Wer Agents in regulierten Prozessen einsetzt, bewegt sich nicht im rechtsfreien Raum, sondern in zwei sich überlappenden Regelwerken, die genau die Strukturen verlangen, die in den meisten Deployments fehlen.

Der EU AI Act ist das erste. Für Systeme, die er als hochriskant einstuft, gelten ab August 2026 Pflichten, die sich wie eine Governance-Checkliste für Agents lesen. Artikel 14 verlangt, dass solche Systeme so gestaltet sind, dass natürliche Personen sie wirksam überwachen, Anomalien erkennen, Outputs richtig interpretieren und das System notfalls übersteuern oder sicher stoppen können; Betreiber müssen kompetente, geschulte und befugte Aufsicht stellen und die System-Logs aufbewahren. Ein Agent, der eigenständig Datensätze ändert, ohne dass jemand seinen Entscheidungspfad rekonstruieren kann, erfüllt das nicht — gleich wie gut sein Modell ist.

Das zweite ist NIS2. Die deutsche Umsetzung ist Anfang Dezember 2025 in Kraft getreten und erweitert den Kreis der betroffenen Unternehmen von rund 4.500 auf etwa 30.000. Entscheidend für die Geschäftsführung: Das neue BSIG verankert eine persönliche Haftung der Leitungsorgane — Geschäftsführung und Vorstand müssen die Cybersicherheits-Risikomaßnahmen billigen, ihre Umsetzung überwachen und sich verpflichtend schulen lassen. Ein überprivilegierter Agent mit unkontrolliertem Netzwerk- und Datenzugriff ist in diesem Rahmen kein IT-Detail, sondern ein Risiko, für das namentlich jemand auf Leitungsebene geradesteht.

Die gemeinsame Botschaft beider Regelwerke ist dieselbe wie die der Gartner-Prognose: Die Governance-Infrastruktur für Agents liegt eine Generation hinter der Deployment-Infrastruktur. Unternehmen können Agents weit schneller bauen und produktiv setzen, als sie sie steuern, dokumentieren und auditieren können. Und die Konsequenzen dieser Lücke materialisieren sich jetzt — als Projekteinstellung, als Audit-Befund, als Haftungsfrage —, nicht in einer hypothetischen Zukunft.

Die dreistufige Guardrail-Architektur

Die Steuerung von Agents in Produktion erfordert Guardrails auf drei verschiedenen Ebenen, die jeweils unterschiedliche Arten von Einschränkungen über unterschiedliche Mechanismen durchsetzen. Organisationen, die nur eine oder zwei Ebenen implementieren, entdecken die Lücken durch Produktionsvorfälle — die teuerste Form des Lernens.

Ebene 1 — Modell-Level: beschränkt, worüber der Agent schlussfolgert. System-Prompts, die den Scope definieren, verhaltensformende Prinzipien und Content-Filter gegen schädliche Outputs. Notwendig, aber für Agent-Governance unzureichend: Sie begrenzen das Reasoning, nicht die Handlungen. Ein Agent mit perfektem System-Prompt kann trotzdem ein Tool aufrufen, auf das er keinen Zugriff haben sollte, einen Datensatz ändern, den er nicht anfassen darf, oder eine Zusage machen, die das Unternehmen nicht einlösen kann. Diese Ebene ist das Äquivalent einer Stellenbeschreibung — kein Ersatz für Zugriffskontrollen und Genehmigungsworkflows.

Ebene 2 — Orchestrierungs-Level: beschränkt, was der Agent tun kann. Tool-Zugriffsrichtlinien, Ausführungsbudgets (Schritte oder Kosten pro Aufgabe), Human-in-the-Loop-Checkpoints vor kritischen Aktionen und Eskalationstrigger. Hier treffen Multi-Agent-Architekturentscheidungen direkt auf Governance: In einer Hub-and-Spoke-Architektur setzt der Orchestrator Delegationsregeln durch; in einer Peer-to-Peer-Architektur muss jeder Agent seine Grenzen selbst durchsetzen — Governance gehört dann in die Agent-Definition, nicht extern aufgesetzt. Auch die Entscheidung zwischen No-Code und Pro-Code wirkt hier: Low-Code-Plattformen liefern eingebaute Guardrails bei geringer Anpassbarkeit, Pro-Code-Frameworks verlangen eigene, erlauben aber feingranulare Kontrolle.

Ebene 3 — Infrastruktur-Level: beschränkt, worauf der Agent zugreift. Netzwerk-Policies, Identity- und Access-Management mit Least-Privilege über Agent-Identitäten, Data-Governance-Regeln und Rate-Limiting. Die Sicherheitspraxis bewegt sich hier von langlebigen Service-Account-Credentials weg hin zu just-in-time vergebenen Rechten — genau die Berechtigung für die konkrete Handlung, keine stehenden Privilegien, wie es OWASP gegen den Missbrauch delegierter Agent-Identitäten empfiehlt. Es ist die am häufigsten übersehene Ebene, weil sie Zusammenarbeit zwischen KI- und Infrastruktur-Teams verlangt, die viele Organisationen noch nicht etabliert haben. Ein Agent mit sauberen Ebene-1- und -2-Guardrails richtet trotzdem Schaden an, wenn er über zu breiten Netzwerkzugriff oder uneingeschränkten Zugriff auf einen Data Lake verfügt, den sein Use Case gar nicht braucht.

Die drei Ebenen verstärken sich gegenseitig. Ein ordentlich gesteuerter Agent hat einen definierten System-Prompt (Ebene 1), festgelegte Tool-Zugriffsrichtlinien und Eskalationstrigger (Ebene 2) sowie Least-Privilege-Infrastrukturzugriff mit Audit-Logging (Ebene 3). Entfernt man eine Ebene, entstehen Lücken, die die anderen beiden nicht abdecken können.

Messen, was zählt: vier Governance-Metriken

Accuracy, Latenz und Throughput messen das Modell, nicht den Agent. Vier zusätzliche Dimensionen entscheiden, ob ein Agent gesteuert ist — und die meisten Organisationen erfassen keine davon. Die Task-Erfolgsrate misst das geschäftliche Ergebnis, nicht den Modell-Output: Bei einem Beschaffungs-Agent zählt der „Anteil erfolgreich erstellter und genehmigter Bestellungen", nicht der „Anteil korrekt formatierter Entwürfe" — denn ein präziser Output nützt nichts, wenn der Tool-Aufruf in einen Timeout läuft oder der Genehmigungsworkflow steckenbleibt. Die Policy-Compliance-Rate misst, wie zuverlässig der Agent in seinen Grenzen bleibt — eskaliert, wenn er soll, nur autorisierte Tools aufruft, nur erlaubte Daten anfasst —, automatisch aus Audit-Logs gemessen, nicht per Stichprobe; ein Agent mit hoher Erfolgsrate, der regelmäßig Policy-Grenzen verletzt, ist ein Governance-Versagen. Die Eskalationsqualität zeigt sich im Verhältnis falscher Eskalationen (er hätte selbst entscheiden können) zu verpassten (er hätte abgeben müssen) — genau die Override- und Stopp-Fähigkeit, die Artikel 14 des EU AI Act fordert. Und die Kosten pro Ergebnis — Inferenz, Tool-Aufrufe, Overhead und vor allem menschliche Prüfung — verbinden Governance mit Ökonomie: Wenn jede dritte Aufgabe eine Freigabe braucht, schmelzen die Einsparungen. Kalibrierung heißt, Guardrails eng genug für akzeptables Risiko und locker genug für einen tragfähigen Business Case zu setzen.

Die Governance-Checkliste vor der Produktion

Die Übersetzung von Architektur und Metriken in operative Praxis lässt sich auf wenige Bedingungen verdichten, die jeder Agent vor der Produktion erfüllen und im Betrieb halten muss — das Minimum, sobald er Produktivsysteme, Kundendaten oder Finanzprozesse berührt.

Es beginnt bei Ownership: Jeder Agent hat einen namentlich benannten Business Owner — kein Team, kein Gremium, eine Person —, der für Geschäfts-KPI, Compliance und Eskalations-Performance geradesteht und nicht nur weiß, was der Agent tut, sondern auch, was er tun darf und was ihm untersagt ist. Daran hängt eine versionierte Scope-Dokumentation: welche Aufgaben, welche Daten, welche Tools, welche Entscheidungen eigenständig, was eine Eskalation auslöst — fortgeschrieben, sobald sich Fähigkeiten oder Kontext ändern. Die Guardrails aller drei Ebenen sind implementiert, getestet und überwacht; keine ist optional. Jede Ausführung hinterlässt einen abfragbaren Audit-Trail — zugewiesene Aufgabe, Reasoning-Kette, Tool-Aufrufe, Datenzugriffe, Entscheidungen, Ergebnis —, der nicht nur gespeichert, sondern durchsuchbar ist, sodass sich der Entscheidungspfad nach einem Vorfall in Minuten rekonstruieren lässt, nicht in Tagen. Genau diese Nachvollziehbarkeit und die mindestens sechsmonatige Aufbewahrung der System-Logs verlangt der EU AI Act von Betreibern hochriskanter Systeme.

Darüber liegt der laufende Betrieb. Die vier Governance-Metriken werden in Echtzeit erfasst, mit automatisierten Alerts, sobald eine den definierten Bereich verlässt — die Observability-Infrastruktur, erweitert um Governance-Dimensionen. Ein Produktiv-Agent, der nicht mehr überwacht wird, wird nicht mehr gesteuert, und ein ungesteuerter Agent ist eine Haftungsquelle, gleich wie gut er beim Deployment aufgesetzt war. Mindestens quartalsweise prüfen Owner, Compliance-Ansprechpartner und technischer Lead gemeinsam, ob Scope, Guardrails und Eskalationstrigger zum aktuellen Kontext noch passen — das Quartals-Review-Framework für die Mittelstands-Governance, ergänzt um die agentspezifischen Dimensionen.

Warum das jetzt zählt, nicht später

Das Zeitfenster für die Einrichtung von Agent-Governance schließt sich. Unternehmen, die heute Agents ohne Governance deployen, werden dieselbe schmerzhafte retroaktive Compliance durchlaufen, die Organisationen 2018 mit der DSGVO erlebt haben und jetzt mit dem EU AI Act und NIS2 erleben. Der Unterschied ist die Geschwindigkeit: Die DSGVO betraf Datenverarbeitungspraktiken, die sich über Jahre entwickelt hatten. Agentic-AI-Governance-Lücken entstehen innerhalb von Monaten, weil Agents schneller deployt werden, schneller skalieren und mit mehr Systemen interagieren als jede vorherige Enterprise-Technologie — und weil mit den Hochrisiko-Pflichten des AI Act ab August 2026 und der NIS2-Haftung der Leitungsorgane seit Dezember 2025 die regulatorischen Fristen bereits laufen.

Die Projekteinstellungsrate von über 40 Prozent, die Gartner prognostiziert, ist nicht unvermeidlich — sie ist die Konsequenz davon, Governance als optional zu behandeln, genau wie die drei Treiber, die Gartner nennt: eskalierende Kosten, unklarer Nutzen, unzureichende Risikokontrollen. Der Unterschied zwischen einem Agent, der überlebt, und einem, der eingestellt wird, liegt nicht in besseren Modellen, besseren Frameworks oder besseren Prompts. Er liegt in der Governance-Infrastruktur, die bestimmt, ob Agents als gesteuerte Assets operieren, die Wert kumulieren, oder als unüberwachte Experimente, die Risiko kumulieren.

Der Agent Development Lifecycle liefert die Methodik, um Agents systematisch zu bauen, die Multi-Agent-Architektur die Muster, um sie zu koordinieren. Governance liefert die fehlende operative Schicht — die Richtlinien, Guardrails, Metriken und Verantwortlichkeiten, die darüber entscheiden, ob gut gebaute Agents im Produktivbetrieb skalieren oder sich der Mehrheit anschließen, die laut Gartner eingestellt wird, bevor sie liefert.

Ein Fit Call bildet Ihr aktuelles Agent-Portfolio auf die dreistufige Governance-Architektur ab — identifiziert, wo Guardrails fehlen, welche Agents ohne Ownership und Audit-Trails operieren, und welche Governance-Infrastruktur stehen muss, bevor Ihr nächster Agent die Produktion erreicht.

Fit Call buchen →

Quellen: Gartner, „Over 40% of Agentic AI Projects Will Be Canceled by End of 2027", 25.06.2025 (gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027); Gartner, „40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026", 26.08.2025 (gartner.com/en/newsroom/press-releases/2025-08-26-gartner-predicts-40-percent-of-enterprise-apps-will-feature-task-specific-ai-agents-by-2026-up-from-less-than-5-percent-in-2025); EU AI Act, Artikel 14 (Human Oversight) und Artikel 26 (Obligations of Deployers), artificialintelligenceact.eu; Anthropic, „Introducing the Model Context Protocol", 2024 (anthropic.com/news/model-context-protocol); BSI, NIS2-Umsetzung in Deutschland / BSIG, in Kraft seit Dezember 2025 (digital-strategy.ec.europa.eu/en/policies/nis2-directive); OWASP GenAI Security Project, „Top 10 for Agentic Applications" (cheatsheetseries.owasp.org/cheatsheets/AI_Agent_Security_Cheat_Sheet.html).

Die Agentic-AI-Governance-Lücke: Warum 97 % der Unternehmen KI-Agents erforschen, aber nur 11 % sie in Produktion betreiben

Warum Agent-Governance sich grundlegend von Modell-Governance unterscheidet

Die Governance-Lücke ist längst reguliert — die meisten merken es nur noch nicht

Die dreistufige Guardrail-Architektur

Messen, was zählt: vier Governance-Metriken

Die Governance-Checkliste vor der Produktion

Warum das jetzt zählt, nicht später

Related articles

Der Agent Development Lifecycle: Warum Ihr SDLC für KI-Agents nicht funktioniert

Multi-Agent-Architektur: Was wichtiger ist als die Framework-Wahl

No-Code vs. Pro-Code KI-Agenten: Die Architekturentscheidung, die Ihren KI-ROI bestimmt

Ready for the next step?