Die Zahlen erzählen eine Geschichte, die Enterprise-Entscheider unbequem finden sollten. Siebenundneunzig Prozent der Organisationen erforschen Agentic-AI-Strategien. Neunundsiebzig Prozent berichten über irgendeine Form der Agent-Einführung. Neunundvierzig Prozent bezeichnen sich selbst als „fortgeschritten" in ihrer Agentic-AI-Reife. Doch nur elf Prozent betreiben Agents in Produktion. Der Agentic-AI-Markt liegt heute bei 7,8 Milliarden Dollar und soll bis 2030 auf 52 Milliarden Dollar wachsen — ein Markt, der siebenmal schneller wächst als die Governance-Strukturen, die für seinen sicheren Betrieb nötig sind.

Das ist keine Technologielücke. Die Modelle funktionieren. Die Frameworks funktionieren. Der Agent Development Lifecycle ist gut verstanden. Die Lücke ist Governance — die Richtlinien, Guardrails, Messsysteme und organisatorischen Strukturen, die bestimmen, ob ein Agent als gesteuertes Unternehmens-Asset operiert oder als unüberwachte Haftungsquelle, die auf Produktivsystemen läuft, mit Zugriff auf echte Daten, echte Kunden und echtes Geld.

Gartner prognostiziert, dass bis Ende 2026 vierzig Prozent der Enterprise-Anwendungen KI-Agents einbetten werden — gegenüber weniger als fünf Prozent im Jahr 2025. Im selben Atemzug warnt die Firma, dass bis Ende 2027 vierzig Prozent der Agentic-AI-Projekte eingestellt werden — nicht weil die Technologie versagt, sondern weil die Kosten eskalieren, der Nutzen unklar bleibt und die Risiko-Governance sich als unzureichend erweist. Die Unternehmen, die diese Auslese überleben, werden diejenigen sein, die Agents ebenso rigoros steuern wie die Menschen und Systeme, mit denen diese Agents interagieren.

Warum Agent-Governance sich grundlegend von Modell-Governance unterscheidet

Die meisten Unternehmen, die über ein KI-Governance-Framework verfügen, haben es für Modell-Governance gebaut — Aufsicht über Inputs und Outputs, Bias-Erkennung, Datenschutz und Modell-Performance-Monitoring. Dieses Framework lässt sich nicht auf Agents übertragen. Der Unterschied ist nicht graduell, sondern strukturell — und er beruht auf drei Eigenschaften, die Agents besitzen und Modelle nicht.

Autonomie verändert das Risikoprofil grundlegend. Ein Sprachmodell produziert einen Output, wenn es einen Prompt erhält. Ein Agent handelt auf Basis dieses Outputs — er ruft APIs auf, schreibt in Datenbanken, versendet E-Mails, modifiziert Datensätze und löst nachgelagerte Prozesse aus. Die Governance-Frage bei einem Modell lautet: „War dieser Output angemessen?" Die Governance-Frage bei einem Agent lautet: „War diese Handlung angemessen, und wer hat den Agent dazu autorisiert?" Wenn ein Agent eigenständig eine Bestellung generiert, eine Compliance-Meldung einreicht oder einen Kundendatensatz ändert, erweitert sich die Governance-Fläche von der Inhaltsqualität auf die operative Entscheidungsbefugnis. Das Delegationsframework, das für menschliche Mitarbeitende gilt, greift mit gleicher Kraft bei Agents: Welche Entscheidungen kann dieser Agent eigenständig treffen, welche erfordern eine Eskalation, und welche sind explizit untersagt?

Tool Use erzeugt eine Angriffsfläche, die Modell-Governance nie adressiert hat. Ein Agent produziert nicht lediglich Text — er ruft Werkzeuge auf. Er führt Datenbankabfragen aus, löst API-Endpoints aus, liest und schreibt Dateien und interagiert mit Produktivsystemen, die Umsatz, Compliance und Kundenerfahrung beeinflussen. Anthropics Model Context Protocol (MCP) hat sich als De-facto-Standard für die Agent-zu-Tool-Integration etabliert und stellt eine strukturierte Schnittstelle zwischen Agents und externen Systemen bereit. Aber eine strukturierte Schnittstelle ist keine Governance-Schicht. MCP definiert, wie ein Agent sich mit einem Tool verbindet. Es definiert nicht, ob der Agent dieses Tool nutzen darf, unter welchen Bedingungen, mit welchen Einschränkungen und mit welchem Audit-Trail. Das ist die Governance-Lücke — die Protokollschicht existiert, aber die Policy-Schicht darüber fehlt in den meisten Deployments.

Chain-of-Thought-Opazität macht Auditing grundlegend schwieriger. Bei einem traditionellen Modell kann die Governance den Input und den Output inspizieren. Bei einem Agent passieren die kritischen Entscheidungen in der Reasoning-Kette zwischen Input und Aktion — und diese Kette ist weit schwieriger zu auditieren als ein einfaches Input-Output-Paar. Ein Agent, der entscheidet, eine Kundenbeschwerde zu eskalieren, eine Risikobewertung umzuklassifizieren oder einen Verifizierungsschritt zu überspringen, tut dies innerhalb eines mehrstufigen Reasoning-Prozesses, der mehrere Tool-Aufrufe, Retrieval-Operationen und Zwischenschlüsse umfassen kann. Zu auditieren, warum der Agent diese Entscheidung getroffen hat, erfordert die Nachverfolgung der gesamten Reasoning-Kette, nicht nur die Inspektion des finalen Outputs. Die dafür nötige Observability-Infrastruktur unterscheidet sich architektonisch von traditionellem Modell-Monitoring — sie muss Entscheidungsspuren, Tool-Aufrufe und Zwischenzustände erfassen, nicht nur Latenz und Accuracy-Metriken.

Die Governance-Lücke in Zahlen

Die Datenlage zeichnet ein konsistentes Bild über alle Quellen hinweg. OutSystems berichtet, dass 97 Prozent der Organisationen Agentic-AI-Strategien erforschen, aber nur 36 Prozent einen zentralisierten Ansatz für Agentic-AI-Governance etabliert haben. Lediglich 12 Prozent betreiben eine zentrale Plattform zur Verwaltung ihres Agent-Portfolios. Der Rest steuert Agents so, wie er vor zehn Jahren Schatten-IT gesteuert hat — uneinheitlich, reaktiv und mit alarmierenden Sichtbarkeitslücken.

BCGs AI Radar 2026 segmentiert CEOs in Trailblazer, Pragmatisten und Follower. Trailblazer-CEOs allokieren rund 60 Prozent ihrer KI-Budgets für Agentic AI. Sie tun das nicht vorsichtig. Sie bewegen sich schnell, weil der ökonomische Case überzeugend ist: Ordentlich gesteuerte Agent-Deployments zeigen einen durchschnittlichen ROI von 171 Prozent innerhalb von achtzehn Monaten. Der Zusatz „ordentlich gesteuert" leistet in diesem Satz die gesamte Arbeit. Ohne Governance produzieren dieselben Deployments die Kostenspiralen und den unklaren Nutzen, die Gartner als Grund für die Einstellung von 40 Prozent der Projekte bis 2027 prognostiziert.

Das CNCF Agent Orchestration Framework (AOF) — ein herstellerneutraler Control Plane für das Agent-Lifecycle-Management — repräsentiert die Antwort der Infrastruktur-Community auf diese Lücke. Forresters AEGIS-Framework (Agentic AI Enterprise Guardrails for Information Security) repräsentiert die Antwort der Analysten-Community. Beide Frameworks erkennen dieselbe Realität an: Die Governance-Infrastruktur für Agents liegt eine Generation hinter der Deployment-Infrastruktur. Unternehmen können Agents weit schneller bauen und deployen, als sie sie steuern können. Und die Konsequenzen dieser Lücke materialisieren sich jetzt, nicht in einer hypothetischen Zukunft.

Die dreistufige Guardrail-Architektur

Die Steuerung von Agents in Produktion erfordert Guardrails auf drei verschiedenen Ebenen, die jeweils unterschiedliche Arten von Einschränkungen über unterschiedliche Mechanismen durchsetzen. Organisationen, die nur eine oder zwei Ebenen implementieren, entdecken die Lücken durch Produktionsvorfälle — die teuerste Form des Lernens.

Ebene 1: Modell-Level-Guardrails beschränken, worüber der Agent schlussfolgern kann. Das sind die Einschränkungen auf der Sprachmodellebene — System-Prompts, die den Scope definieren, Constitutional-AI-Prinzipien, die das Verhalten formen, und Content-Filter, die schädliche Outputs verhindern. Modell-Level-Guardrails sind notwendig, aber völlig unzureichend für Agent-Governance. Sie beschränken das Reasoning, aber nicht die Handlungen. Ein Agent mit einem perfekt abgestimmten System-Prompt und robusten Content-Filtern kann trotzdem ein Tool aufrufen, auf das er keinen Zugriff haben sollte, einen Datensatz modifizieren, den er nicht anfassen sollte, oder eine Zusage machen, die das Unternehmen nicht einlösen kann. Modell-Level-Guardrails sind das Äquivalent einer Stellenbeschreibung — notwendig, aber kein Ersatz für Zugriffskontrollen, Genehmigungsworkflows und Audit-Trails.

Ebene 2: Orchestrierungs-Level-Guardrails beschränken, was der Agent tun kann. Das sind die Einschränkungen auf der Framework- und Plattformebene — Tool-Zugriffsrichtlinien, die definieren, welche Tools ein Agent aufrufen darf, Ausführungsbudgets, die die Anzahl der Schritte oder die Kosten pro Aufgabe begrenzen, Human-in-the-Loop-Checkpoints, die vor kritischen Aktionen eine Freigabe erfordern, und Eskalationstrigger, die Grenzfälle an menschliche Operatoren weiterleiten. Orchestrierungs-Level-Guardrails sind der Punkt, an dem die Multi-Agent-Architekturentscheidungen direkt auf Governance treffen. In einer Hub-and-Spoke-Architektur setzt der Orchestrator Delegationsregeln durch. In einer Peer-to-Peer-Architektur muss jeder Agent seine eigenen Einschränkungen durchsetzen — was bedeutet, dass Governance in die Agent-Definition eingebettet sein muss, nicht extern aufgesetzt werden kann. Die Entscheidung zwischen No-Code und Pro-Code beeinflusst diese Ebene direkt: Low-Code-Plattformen bieten typischerweise eingebaute Guardrails bei begrenzter Anpassbarkeit, während Pro-Code-Frameworks maßgeschneiderte Guardrails erfordern, aber feingranulare Kontrolle erlauben.

Ebene 3: Infrastruktur-Level-Guardrails beschränken, worauf der Agent zugreifen kann. Das sind die Einschränkungen auf der Plattform- und Infrastrukturebene — Netzwerk-Policies, die eingrenzen, welche APIs und Dienste ein Agent erreichen kann, Identity- und Access-Management, das Least-Privilege über Agent-Identitäten hinweg durchsetzt, Data-Governance-Regeln, die kontrollieren, welche Daten ein Agent lesen und schreiben darf, und Rate-Limiting, das unkontrollierte Ausführung verhindert. Infrastruktur-Level-Guardrails sind die am meisten übersehene Ebene, weil sie Zusammenarbeit zwischen KI-Teams und Infrastruktur-Teams erfordern — eine Zusammenarbeit, die viele Organisationen noch nicht etabliert haben. Ein Agent mit angemessenen Modell- und Orchestrierungs-Level-Guardrails kann trotzdem Schaden anrichten, wenn er über zu breiten Netzwerkzugriff, überprivilegierte Service-Account-Credentials oder uneingeschränkten Zugriff auf einen Data Lake mit sensiblen Informationen verfügt, die sein Use Case gar nicht benötigt.

Die drei Ebenen verstärken sich gegenseitig. Ein ordentlich gesteuerter Agent hat einen definierten System-Prompt (Ebene 1), festgelegte Tool-Zugriffsrichtlinien und Eskalationstrigger (Ebene 2) sowie Least-Privilege-Infrastrukturzugriff mit Audit-Logging (Ebene 3). Entfernt man eine Ebene, entstehen Lücken, die die anderen beiden nicht abdecken können.

Messen, was zählt: die Agent-Governance-Scorecard

Traditionelle KI-Metriken — Accuracy, Latenz, Throughput — sind notwendig, aber unzureichend für die Steuerung von Agents in Produktion. Agent-Governance erfordert vier zusätzliche Messdimensionen, die die meisten Organisationen nicht erfassen.

Task-Erfolgsrate misst, ob der Agent sein zugewiesenes Ziel von Anfang bis Ende erreicht. Das ist nicht dasselbe wie Modell-Accuracy. Ein Modell kann präzise Outputs produzieren, auf denen der Agent dann fehlerhaft handelt — der Tool-Aufruf läuft in einen Timeout, das nachgelagerte System weist den Input zurück, der Genehmigungsworkflow steckt fest. Die Task-Erfolgsrate misst das geschäftliche Ergebnis, nicht den Modell-Output. Bei einem Beschaffungs-Agent lautet die Metrik „Anteil der Bestellungen, die erfolgreich erstellt und genehmigt wurden", nicht „Anteil der korrekt formatierten Bestellungsentwürfe". Die Unterscheidung zählt, weil sie Fehlermodi über die gesamte Agent-Ausführungskette hinweg erfasst, nicht nur den Modellinferenzschritt.

Policy-Compliance-Rate misst, wie häufig der Agent innerhalb seiner definierten Governance-Grenzen operiert. Das umfasst die Einhaltung von Delegationsregeln (Hat der Agent eskaliert, wenn er hätte eskalieren sollen?), Tool-Zugriffsrichtlinien (Hat der Agent nur autorisierte Tools aufgerufen?), Datenzugriffskontrollen (Hat der Agent nur auf die Daten zugegriffen, die er durfte?) und Output-Beschränkungen (Hat der Agent autorisierte Zusagen bei Preisen, Zeitplänen oder Scope eingehalten?). Die Policy-Compliance sollte automatisch über Audit-Logs gemessen werden, nicht durch manuelle Überprüfung. Ein Agent, der 99,5 Prozent Task-Erfolgsrate erzielt, aber in 3 Prozent der Ausführungen Policy-Grenzen verletzt, ist ein Governance-Versagen — unabhängig von seiner Accuracy.

Eskalationsqualität misst, ob der Agent angemessen eskaliert — weder zu aggressiv noch zu konservativ. Ein Agent, der jeden uneindeutigen Fall an einen menschlichen Operator eskaliert, ist nicht autonom — er ist ein Chatbot mit Extra-Schritten. Ein Agent, der nie eskaliert, wird nicht gesteuert — er ist ein autonomes System, das ohne Aufsicht operiert. Das Ziel ist Präzision bei der Eskalation: Der Agent eskaliert Fälle, die tatsächlich menschliches Urteil erfordern, und bearbeitet Fälle, die in seine definierte Entscheidungsbefugnis fallen. Die Messung der Eskalationsqualität erfordert das Tracking sowohl falscher Eskalationen (Fälle, die der Agent eskaliert hat, obwohl er sie hätte bearbeiten können) als auch verpasster Eskalationen (Fälle, die der Agent bearbeitet hat, obwohl er sie hätte eskalieren sollen). Das Verhältnis dieser beiden Fehlertypen definiert die operative Reife des Agents.

Kosten pro Ergebnis messen die Gesamtkosten, die ein Agent für den Abschluss seiner zugewiesenen Aufgabe verursacht — einschließlich Inferenzkosten, Tool-Aufrufkosten, Orchestrierungs-Overhead und Kosten für menschliche Überprüfung. Diese Metrik verbindet Governance direkt mit Ökonomie. Ein Agent mit engen Guardrails und häufigen Human-Checkpoints hat möglicherweise eine hohe Policy-Compliance, aber auch hohe Kosten pro Ergebnis — wenn jede dritte Aufgabe eine menschliche Freigabe erfordert, schmelzen die Automatisierungseinsparungen erheblich. Ein Agent mit lockeren Guardrails hat möglicherweise niedrige Kosten pro Ergebnis, aber ein inakzeptables Risikoprofil. Die Governance-Kalibrierung besteht darin, den Punkt zu finden, an dem die Guardrails eng genug sind, um akzeptables Risiko aufrechtzuerhalten, und locker genug, um den ökonomischen Case für Automatisierung zu erhalten. Die KI-Business-Case-Methodik greift direkt — jedes Agent-Deployment ist eine Investition, die messbare Renditen erzielen muss, und die Kosten pro Ergebnis sind die Metrik, die nachverfolgt, ob sie das tut.

Die Enterprise-Governance-Checkliste

Die Übersetzung der dreistufigen Architektur und der vier Metriken in operative Praxis erfordert eine Governance-Checkliste, die jeder Agent vor dem Erreichen der Produktion erfüllen und während seiner gesamten Betriebszeit aufrechterhalten muss. Diese Checkliste ist kein Wunschkatalog — sie ist das Minimum Viable Governance für Agents, die mit Produktivsystemen, Kundendaten oder Finanzprozessen interagieren.

Ownership und Verantwortlichkeit. Jeder Agent hat einen namentlich benannten Business Owner — kein Team, kein Gremium, eine Person. Der Owner ist verantwortlich für den Geschäfts-KPI des Agents, seine Governance-Compliance und seine Eskalations-Performance. Das spiegelt die Rolle des KI-Workflow-Owners, aber mit einer zusätzlichen Dimension: Der Owner muss nicht nur verstehen, was der Agent tut, sondern auch, was er tun darf und was ihm explizit untersagt ist.

Scope-Dokumentation. Der operative Scope des Agents ist dokumentiert und versioniert: welche Aufgaben er ausführt, auf welche Daten er zugreift, welche Tools er aufruft, welche Entscheidungen er eigenständig trifft und was eine Eskalation auslöst. Scope-Dokumentation ist kein einmaliges Artefakt — sie wird aktualisiert, sobald sich die Fähigkeiten, Datenquellen oder der geschäftliche Kontext des Agents ändern.

Guardrail-Implementierung über alle drei Ebenen. Modell-Level-Einschränkungen (System-Prompt, Content-Filter), Orchestrierungs-Level-Einschränkungen (Tool-Zugriffsrichtlinien, Ausführungsbudgets, Human-in-the-Loop-Checkpoints) und Infrastruktur-Level-Einschränkungen (Netzwerk-Policies, IAM, Datenzugriffskontrollen) sind implementiert, getestet und überwacht. Keine Ebene ist optional.

Audit-Trail und Entscheidungsnachverfolgung. Jede Agent-Ausführung erzeugt einen nachverfolgbaren Datensatz: welche Aufgabe zugewiesen wurde, welche Reasoning-Kette durchlaufen wurde, welche Tools aufgerufen wurden, auf welche Daten zugegriffen wurde, welche Entscheidungen getroffen und welches Ergebnis produziert wurde. Der Audit-Trail muss abfragbar sein — nicht nur gespeichert, sondern durchsuchbar und analysierbar. Wenn ein Governance-Vorfall eintritt, muss das Reaktionsteam den Entscheidungspfad des Agents innerhalb von Minuten rekonstruieren können, nicht innerhalb von Tagen.

Kontinuierliches Monitoring mit automatisierten Alerts. Die vier Governance-Metriken — Task-Erfolgsrate, Policy-Compliance-Rate, Eskalationsqualität und Kosten pro Ergebnis — werden in Echtzeit erfasst, mit automatisierten Alerts, sobald eine Metrik ihren definierten Betriebsbereich verlässt. Das ist die Observability-Infrastruktur, erweitert um Governance-spezifische Dimensionen. Ein Produktiv-Agent, der nicht mehr überwacht wird, wird nicht mehr gesteuert — und ein ungesteuerter Agent ist eine Haftungsquelle, unabhängig davon, wie gut er beim Deployment gesteuert war.

Geplante Governance-Reviews. Mindestens quartalsweise überprüfen Agent Owner, Compliance-Ansprechpartner und technischer Lead die Governance-Metriken des Agents, auditieren etwaige Vorfälle und bewerten, ob Scope, Guardrails und Eskalationstrigger des Agents für den aktuellen geschäftlichen Kontext noch angemessen sind. Das Quartals-Review-Framework greift, ergänzt um die agentspezifischen Governance-Dimensionen.

Warum das jetzt zählt, nicht später

Das Zeitfenster für die Einrichtung von Agent-Governance schließt sich. Unternehmen, die heute Agents ohne Governance deployen, werden dieselbe schmerzhafte retroaktive Compliance durchlaufen, die Organisationen 2018 mit der DSGVO erlebt haben und jetzt mit dem EU AI Act erleben. Der Unterschied ist die Geschwindigkeit: Die DSGVO betraf Datenverarbeitungspraktiken, die sich über Jahre entwickelt hatten. Agentic-AI-Governance-Lücken entstehen innerhalb von Monaten, weil Agents schneller deployt werden, schneller skalieren und mit mehr Systemen interagieren als jede vorherige Enterprise-Technologie.

Der durchschnittliche ROI von 171 Prozent für ordentlich gesteuerte Deployments ist keine Wunschzahl — es ist ein gemessenes Ergebnis von Organisationen, die Governance als Voraussetzung behandelt haben, nicht als Nachgedanken. Die Projekteinstellungsrate von 40 Prozent, die Gartner prognostiziert, ist nicht unvermeidlich — sie ist die Konsequenz davon, Governance als optional zu behandeln. Der Unterschied zwischen diesen beiden Ergebnissen liegt nicht in besseren Modellen, besseren Frameworks oder besseren Prompts. Er liegt in der Governance-Infrastruktur, die bestimmt, ob Agents als gesteuerte Assets operieren, die Wert kumulieren, oder als unüberwachte Experimente, die Risiko kumulieren.

Der Agent Development Lifecycle liefert die Methodik, um Agents systematisch zu bauen. Die Multi-Agent-Architektur liefert die Designmuster, um sie zu koordinieren. Dieses Governance-Framework liefert die fehlende operative Schicht — die Richtlinien, Guardrails, Metriken und Verantwortlichkeitsstrukturen, die bestimmen, ob diese gut gebauten, gut designten Agents tatsächlich im Produktivbetrieb skalieren oder sich den 40 Prozent anschließen, die eingestellt werden, bevor sie liefern.

Ein Fit Call bildet Ihr aktuelles Agent-Portfolio auf die dreistufige Governance-Architektur ab — identifiziert, wo Guardrails fehlen, welche Agents ohne Ownership und Audit-Trails operieren, und welche Governance-Infrastruktur stehen muss, bevor Ihr nächster Agent die Produktion erreicht.

Fit Call buchen →


Quellen: Gartner, „40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026", August 2025; Gartner, „Over 40% of Agentic AI Projects Will Be Canceled by End of 2027", Juni 2025; OutSystems, „State of AI Development 2026", April 2026 (97 % Agentic-AI-Strategien, 49 % fortgeschritten, 36 % zentralisierte Governance, 12 % zentralisierte Plattform); Capgemini, „Rise of Agentic AI", Juli 2025 (2 % im Vollbetrieb); Deloitte, „Emerging Technology Trends 2025", 2025 (11 % in Produktion); Forrester, „AEGIS: Agentic AI Enterprise Guardrails for Information Security", 2026; CNCF, „Agent Orchestration Framework (AOF)", 2026; Anthropic, „Model Context Protocol (MCP)", 2025; MarketsandMarkets, „AI Agents Market: $7,84B to $52,62B by 2030", 2026; BCG, „AI Radar 2026", Januar 2026 (Trailblazer-CEO-Allokation, 60 % Agentic-AI-Budget, 171 % ROI für gesteuerte Deployments).