KI-Entscheidungsarchitektur: Wer entscheidet was — Mensch, Maschine oder beide

Jeder KI-Workflow trifft Entscheidungen. Das ist der Sinn der Sache. Die Frage ist nicht, ob KI entscheiden soll — sondern welche Entscheidungen, unter welchen Bedingungen, mit welcher Autorität, und mit welchem Fallback, wenn sie falsch liegt.

Die meisten Unternehmen machen es in eine von zwei Richtungen falsch. Sie über-automatisieren — lassen KI Entscheidungen treffen, die menschliches Urteilsvermögen erfordern, schaffen Compliance-Exposition und erodieren Vertrauen. Oder sie unter-delegieren — fordern menschliche Freigabe für jeden Output, was den größten Teil der operativen Hebelwirkung eliminiert, die die Investition rechtfertigte. Beides ist teuer, auf unterschiedliche Weise.

Entscheidungsarchitektur ist die dritte Komponente des KI-Betriebssystems. Sie sitzt zwischen dem Kontext-Layer (der definiert, was die KI weiß) und dem Workflow-Design (das definiert, was die KI tut). Ihre Aufgabe: festlegen, wer was entscheidet — und unter welchen Bedingungen diese Zuweisung kippt.

Das Entscheidungsspektrum

Entscheidungen in einem KI-Workflow existieren auf einem Spektrum. Der Fehler ist, sie als binär zu behandeln — entweder der Mensch entscheidet oder die KI entscheidet. In der Praxis gibt es fünf unterschiedliche Konfigurationen, die je nach Konsequenzschwere, Regelstruktur und regulatorischer Lage zum Einsatz kommen.

Vollautomatisiert. Die KI entscheidet und handelt ohne menschliche Beteiligung. Der Output wird geliefert, die Aktion ausgeführt, der Vorgang protokolliert. Menschen überwachen aggregierte Performance-Metriken, nicht einzelne Entscheidungen. Das funktioniert zuverlässig dort, wo die Entscheidungslogik exhaustiv definierbar ist und Fehler keine schwerwiegenden Konsequenzen haben — etwa bei der Klassifizierung eingehender Support-E-Mails in Queues.

KI handelt, Mensch wird benachrichtigt. Die KI entscheidet und handelt, aber ein Mensch erhält eine Benachrichtigung über jede Entscheidung. Der Mensch kann retroaktiv eingreifen, wenn etwas falsch aussieht, muss aber keine Freigabe vorab erteilen. Das klassische Einsatzgebiet: Spesenabrechnungen unterhalb eines definierten Schwellenwerts auto-genehmigen, Finanzteam benachrichtigen.

KI empfiehlt, Mensch entscheidet. Die KI analysiert die Inputs und präsentiert eine Empfehlung mit unterstützender Evidenz. Der Mensch trifft die finale Entscheidung. Diese Konfiguration ist in regulierten Entscheidungskategorien oft nicht optional — dazu gleich mehr.

KI bereitet vor, Mensch entscheidet. Die KI strukturiert und fasst Informationen zusammen, gibt aber keine Empfehlung ab. Der Mensch erhält ein organisiertes Briefing statt Rohdaten. Typisch bei Entscheidungen, bei denen die Empfehlung selbst haftungsrelevant wäre — etwa bei M&A-Due-Diligence, wo die KI Daten kompiliert, das Gremium aber die Beurteilung vornimmt.

Nur Mensch. Die KI ist an der Entscheidung nicht beteiligt. Nicht weil die KI die Inputs nicht verarbeiten könnte, sondern weil die Konsequenzen eines Fehlers, die Notwendigkeit von Empathie oder explizite gesetzliche Anforderungen menschliches Urteilsvermögen unverhandelbar machen. Kündigungsentscheidungen gehören hierher — unabhängig davon, was technisch möglich wäre.

Drei Faktoren bestimmen die richtige Konfiguration

Die richtige Position auf dem Spektrum ergibt sich aus dem Zusammenspiel dreier Faktoren: Konsequenzschwere, Entscheidungsstruktur und regulatorische Anforderungen. Wer nur einen davon bewertet, entwirft falsch.

Konsequenzschwere fragt: Was passiert, wenn die Entscheidung falsch ist? Eine falsch klassifizierte E-Mail in der falschen Support-Queue kostet Minuten. Ein betrügerischer Schaden, der auto-genehmigt wird, kostet Geld und eröffnet regulatorisches Exposure. Entscheidungen mit niedrigen Konsequenzen können Richtung Vollautomatisierung geschoben werden. Entscheidungen mit hohen Konsequenzen brauchen menschliche Beteiligung — aber das bedeutet nicht „nur Mensch". Oft ist „KI empfiehlt, Mensch entscheidet" der richtige Kompromiss.

Entscheidungsstruktur fragt: Wie regelbasiert ist die Entscheidung? Wenn sie vollständig als Entscheidungsbaum ausgedrückt werden kann — wenn Bedingung A und Bedingung B und nicht Bedingung C, dann genehmigen — ist sie ein Kandidat für Vollautomatisierung, weil die Logik erschöpfend validiert werden kann. Sobald die Entscheidung das Abwägen mehrdeutiger Evidenz erfordert, Kontext berücksichtigen muss, der schwer zu formalisieren ist, oder das Urteilsvermögen erfahrener Fachleute verlangt — bleibt die Beurteilung menschlich, auch wenn die KI die Aufbereitung übernimmt.

Regulatorische Anforderungen bilden die harte Grenze. Der EU AI Act (Verordnung 2024/1689) listet in Anhang III Entscheidungskategorien, die als Hochrisiko-KI-Systeme eingestuft werden und gesetzlich vorgeschriebene menschliche Aufsicht erfordern. Dazu gehören KI-Systeme zur Kreditwürdigkeitsprüfung und Bonitätsbewertung natürlicher Personen (Anhang III, Kategorie 5b), Risikobeurteilung und Preisgestaltung in der Lebens- und Krankenversicherung (Kategorie 5c) sowie Entscheidungen über Einstellung, Beförderung und Kündigung (Kategorien 4a und 4b). Für diese Kategorien ist menschliche Aufsicht keine Designentscheidung — sie ist Pflicht. Die Compliance-Frist für Anhang-III-Systeme wurde durch das Digital Omnibus-Paket (vorläufige Einigung vom 7. Mai 2026) auf Dezember 2027 verschoben, aber die Architekturentscheidungen werden heute getroffen.

Was Artikel 14 konkret verlangt

Artikel 14 des EU AI Acts beschreibt die menschliche Aufsicht nicht als abstraktes Prinzip, sondern als fünf konkrete operative Fähigkeiten, die der Deployer sicherstellen muss. Aufsichtspersonen müssen die Kapazitäten und Grenzen des Systems verstehen und in der Lage sein, Anomalien zu erkennen. Sie müssen sich des Risikos der Automation Bias bewusst sein — der Tendenz, sich automatisch auf KI-Outputs zu verlassen, auch wenn Zweifel angebracht wären. Sie müssen die Outputs korrekt interpretieren können, einschließlich der verfügbaren Erklärungswerkzeuge. Sie müssen in jeder Einzelsituation entscheiden können, das System nicht zu nutzen oder seinen Output zu ignorieren und zu überschreiben. Und sie müssen in der Lage sein, in den Systembetrieb einzugreifen oder es vollständig zu stoppen.

Das ist keine abstrakte Anforderung. Sie bedeutet konkret: Jeder KI-gestützte Entscheidungsprozess in einer der Hochrisiko-Kategorien muss so gebaut sein, dass der zuständige Sachbearbeiter den KI-Output und den Konfidenzwert sieht, ihn überschreiben kann, und das System jederzeit aus dem Loop nehmen kann. Wer das als nachträgliche Compliance-Schicht baut, baut es zweimal.

Das Confidence-Threshold-Modell

Eines der effektivsten Muster für die praktische Umsetzung ist das Confidence-Threshold-Modell: Statt jede Instanz eines Entscheidungstyps pauschal derselben Position auf dem Spektrum zuzuordnen, routet das System individuelle Entscheidungen dynamisch — basierend auf der Konfidenz des Modells und dem Entscheidungswert.

Ein Beispiel aus der Schadenbearbeitung: Liegt die Konfidenz des Modells über einem definierten oberen Schwellenwert und der Schadenwert unter einer definierten Grenze, wird vollautomatisiert verarbeitet — der Sachbearbeiter sieht einen vorklassifizierten, vorgerouten Schaden. Liegt die Konfidenz in einem mittleren Band oder der Schadenwert in einem erhöhten Bereich, wechselt das System in „KI empfiehlt, Mensch entscheidet" — mit sichtbarem Konfidenzwert und der genutzten Evidenz. Liegt die Konfidenz unter dem unteren Schwellenwert oder der Schadenwert hoch, bereitet die KI nur vor, ohne Empfehlung. Sobald Betrugsindikatoren angeschlagen haben, übernimmt ausschließlich der Spezialist — keine KI-Empfehlung, nur markierte Rohdaten.

Dieses Modell erfasst die Effizienzgewinne der Automatisierung für unkomplizierte Fälle, die typischerweise die Mehrheit darstellen. Und es bewahrt menschliches Urteilsvermögen für Fälle, die es brauchen — ohne Menschen mit der Prüfung jeder Routineentscheidung zu belasten. Entscheidend: Es erfüllt die Anforderungen von Artikel 14 strukturell, weil Überschreibung und Stopp-Fähigkeit in jeder Konfigurationsstufe erhalten bleiben.

Die Schwellenwerte selbst sind keine festen Größen. Sie werden initial kalibriert und auf Basis von Ergebnisdaten quartalsweise verfeinert. Wenn die automatisch verarbeiteten Fälle nach 90 Tagen eine akzeptable Fehlerquote zeigen, kann der Schwellenwert angehoben werden. Wenn das mittlere Band zu viele Überschreibungen produziert, deutet das auf ein Kalibrierungsproblem im Modell hin — nicht auf ein Architekturproblem.

Drei Fehler, die die meisten Teams machen

Der erste Fehler ist pauschale Aufsicht. Dasselbe Level an menschlicher Prüfung auf jede Entscheidung in einem Workflow anwenden. Wenn ein Mensch jede klassifizierte E-Mail prüfen muss, ist der Zeitgewinn eliminiert. Wenn kein Mensch irgendeine Schadenentscheidung prüft, ist das regulatorische Exposure real. Die Lösung ist granulare Autoritätszuweisung: Verschiedene Entscheidungen innerhalb desselben Workflows sitzen an verschiedenen Positionen auf dem Spektrum — das ist keine Ausnahme, das ist das Design.

Der zweite Fehler ist, Transparenz mit Autorität zu verwechseln. Manche Organisationen reagieren auf Governance-Bedenken, indem sie die Argumentation der KI sichtbar machen — ohne zu ändern, wer die Entscheidung trifft. Transparenz ist wichtig, ändert aber nichts an der Konfigurationsklasse. Wenn vom Menschen erwartet wird, den KI-Output zu prüfen und jede Entscheidung freizugeben, ist das „KI empfiehlt, Mensch entscheidet" — mit den entsprechenden Kapazitätsanforderungen. Wenn der Mensch die Argumentation sieht, aber nicht eingreifen soll, ist das „KI handelt, Mensch wird benachrichtigt." Das sind verschiedene Architekturen mit verschiedenen Ressourcenimplikationen, und sie sollten explizit als solche entworfen werden.

Der dritte Fehler ist, die Kosten menschlicher Prüfung nicht zu rechnen. Jeder menschliche Prüfschritt hat Zeitkosten. Wenn ein Workflow 500 Items pro Tag verarbeitet und jede menschliche Prüfung drei Minuten dauert, sind das 25 Personenstunden täglich — eine Vollzeitstelle, die von der KI-Investition direkt aufgefressen wird. Bevor menschliche Prüfung vorgeschrieben wird, sollten die Kosten quantifiziert und mit dem erwarteten Risikowert der Fehler verglichen werden, die die Prüfung verhindern würde. Manchmal ist das Ergebnis, weniger zu prüfen. Manchmal ist es, gezielter zu prüfen. Selten ist es, alles zu prüfen.

Von der Architektur zur Implementierung

Der Einstieg in die Entscheidungsarchitektur beginnt nicht mit dem Framework — er beginnt mit einem einzigen Workflow. Listen Sie jeden Entscheidungspunkt in diesem Workflow auf. Bewerten Sie für jeden Punkt Konsequenzschwere, Entscheidungsstruktur und regulatorische Zuordnung. Weisen Sie eine initiale Position auf dem Spektrum zu. Definieren Sie die Konfidenz-Schwellenwerte, soweit zutreffend. Dokumentieren Sie den Eskalationspfad für Fälle außerhalb der definierten Parameter.

Dann deployen, messen, kalibrieren. Die initiale Architektur ist eine begründete Hypothese. Die Produktionsarchitektur entsteht aus 90 Tagen Ergebnisdaten. Dieser Kalibrierungszyklus ist nicht optional — er ist der Mechanismus, durch den das System lernt, wo Automation trägt und wo sie versagt.

Entscheidungsarchitektur, die mit den Anforderungen von Artikel 14 im Blick entworfen wird, ist nicht komplizierter als eine, die Compliance ignoriert. Sie ist strukturierter — und das zahlt sich doppelt aus: in operativer Effizienz und in regulatorischer Belastbarkeit.

Das vollständige Framework, inklusive Konsequenz-Struktur-Matrix und Kalibrierungsmethodik, behandelt Kapitel 05 von The AI Operating System. Zur verwandten Frage der Grenzziehung zwischen Automatisierung und Augmentierung siehe Automatisierung vs. Augmentierung.

Ein Fit Call klärt in 30 Minuten, welche Entscheidungen in Ihren KI-Workflows heute falsch zugeordnet sind — bevor ein Audit das für Sie feststellt.

Erstgespräch vereinbaren →

Quellen: EU AI Act (Verordnung 2024/1689), Artikel 14 und Anhang III, https://artificialintelligenceact.eu/article/14/ und https://artificialintelligenceact.eu/annex/3/; Europäische Kommission, Digital Omnibus — vorläufige Einigung vom 7. Mai 2026, https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai; EU AI Act Timeline & Compliance Deadlines, https://www.dataguard.com/eu-ai-act/timeline.

KI-Entscheidungsarchitektur: Wer entscheidet was — Mensch, Maschine oder beide

Das Entscheidungsspektrum

Drei Faktoren bestimmen die richtige Konfiguration

Was Artikel 14 konkret verlangt

Das Confidence-Threshold-Modell

Drei Fehler, die die meisten Teams machen

Von der Architektur zur Implementierung

Related articles

Das KI-Betriebssystem: Eine Methodik, um KI-Piloten in operativen Hebel zu verwandeln

Die sechs Dimensionen, die vorhersagen, ob Ihre KI-Initiative Produktion erreicht

KI-Governance für den Mittelstand: Schlanke Frameworks, die wirklich funktionieren

Ready for the next step?