Sprachmodelle halluzinieren. Jedes Modell, jeder Anbieter, jede Parameterzahl. Ein LLM ist keine Wissensdatenbank, die nachschlägt — es ist ein statistischer Generator, der das wahrscheinlichste nächste Wort vorhersagt. „Plausibel" und „wahr" fallen dabei oft zusammen, aber eben nicht immer. Die Frage für Ihr Unternehmen lautet deshalb nicht, ob Ihr KI-System falsche Ausgaben produziert, sondern wie oft, in welchen Kontexten — und ob Ihre Organisation es bemerkt, bevor Schaden entsteht.

Genau das wird in der öffentlichen Debatte unterschätzt. Die Demo überzeugt, das Modell wirkt souverän, die Geschäftsführung gibt grünes Licht — und niemand hat die Frage gestellt, was passiert, wenn das System mit derselben Souveränität danebenliegt.

Was die Benchmarks tatsächlich messen — und was nicht

Es kursieren zwei sehr unterschiedliche Arten von Halluzinationszahlen, und sie werden ständig verwechselt. Frei aus dem Gedächtnis generierte Antworten — ohne hinterlegtes Quellmaterial — produzieren erschreckend hohe Fehlerquoten. Das ist aber nicht der Modus, in dem ein seriöses Enterprise-System arbeitet. Relevant ist die gestützte Generierung: Das Modell bekommt ein Dokument und fasst es zusammen oder beantwortet Fragen ausschließlich daraus.

Das Vectara Hallucination Leaderboard misst genau diesen Fall. Es prüft, wie häufig ein Modell beim Zusammenfassen eines vorgelegten Dokuments Aussagen erfindet, die im Text nicht gedeckt sind — bewertet durch Vectaras eigenes Halluzinations-Erkennungsmodell (HHEM) über mehrere tausend Artikel aus Domänen wie Recht, Medizin, Finanzen und Technik. Selbst in diesem günstigen, dokumentengestützten Modus klafft die Spanne weit auseinander: Googles Gemini-2.0-Flash liegt mit rund 0,7 Prozent an der Spitze, GPT-4o bei etwa 1,5 Prozent, während Modelle derselben Generation auf 4 bis über 10 Prozent kommen. Die Modellwahl ist also keine Nebensache — zwischen Top und Mittelfeld liegt ein Faktor von mehr als zehn.

Zwei Lehren ziehen wir daraus. Erstens: Auch das beste Modell halluziniert. „Unter ein Prozent" ist nicht „null", und es ist ein Durchschnitt über gutartige Eingaben. Zweitens: Diese Bestwerte verschlechtern sich systematisch dort, wo es für den Mittelstand interessant wird — bei langen Kontexten, bei Grenzfällen und bei Anfragen, die eine Synthese über mehrere Quellen erfordern. Ein Benchmark sagt Ihnen, wie ein Modell auf saubere Standardtexte reagiert. Er sagt Ihnen nichts darüber, wie es auf Ihren Verträgen, Ihren Schadensmeldungen oder Ihren Wartungsprotokollen abschneidet.

Die Risikokalkulation fürs Unternehmen

Eine Halluzinationsrate von zwei oder drei Prozent klingt in einer Demo beherrschbar. Im Produktivbetrieb sieht die Rechnung anders aus, weil sich kleine Prozentsätze mit dem Volumen multiplizieren.

Ein Vertragsanalyse-Workflow, der 500 Dokumente im Monat verarbeitet, produziert bei drei Prozent rund 15 Dokumente mit materiell falscher Analyse — Monat für Monat, und keiner davon trägt ein Warnschild. Ein kundengerichteter Assistent mit 10.000 Anfragen am Tag liefert bei zwei Prozent rechnerisch 200 falsche Antworten täglich, jede einzelne im selbstsicheren Ton der 9.800 richtigen. Ein Reporting-Assistent, der Zahlen aus Quellsystemen aggregiert, schleust bei vier Prozent Fehler in Auswertungen ein, die bis in die Geschäftsführung getragen werden — und die dort niemand mehr gegen das Rohmaterial prüft, weil „die KI das ja gemacht hat".

Das eigentliche Risiko ist nicht, dass KI Fehler macht. Menschen tun das auch. Das Risiko ist, dass KI Fehler selbstsicher, konsistent und im Maßstab macht — und dass Organisationen ihre Prozesse rund um KI-Ergebnisse umbauen, ohne parallel die Prozesse zu bauen, die diese Fehler abfangen. Ein Sachbearbeiter, der unsicher ist, zögert, fragt nach, hängt einen Vorbehalt an. Ein Modell formuliert die erfundene Klausel im selben ruhigen Ton wie die korrekte.

Die dreischichtige Mitigationsarchitektur

Es gibt keinen Schalter, der Halluzinationen abstellt. Es gibt aber eine Architektur, die das Risiko von einem unkalkulierbaren auf ein gemanagtes herunterbringt — in drei Schichten, die aufeinander aufbauen.

Schicht 1: Retrieval-Grounding. Die wirksamste einzelne Maßnahme ist, dem Modell den Zugriff auf autoritative Quelldokumente zu geben und es zu verpflichten, seine Aussagen daraus zu belegen — RAG mit Zitationspflicht. Statt aus dem Gedächtnis zu fabulieren, antwortet das System aus einem definierten Korpus und verweist auf die Fundstelle. Genau dieser Wechsel vom freien zum gestützten Modus ist der Unterschied zwischen den zweistelligen Fehlerquoten und den niedrigen einstelligen aus den Benchmarks. Für ein Enterprise-Deployment ist das kein Komfortmerkmal, sondern die minimale tragfähige Architektur. Wer ein nacktes Modell ohne Grounding in einen Geschäftsprozess hängt, hat die Hausaufgabe nicht gemacht.

Schicht 2: Automatisierte Verifikation. Auf der ersten Schicht setzt eine maschinelle Kontrolle auf. Ein zweites Modell prüft die Ausgabe des ersten gegen das Quellmaterial — das LLM-as-Judge-Muster — oder ein spezialisierter Faktencheck wie Vectaras HHEM bewertet, ob jede Aussage tatsächlich gedeckt ist. Das kostet zusätzliche Latenz und Inferenz, fängt aber einen erheblichen Teil dessen ab, was Schicht 1 durchrutschen lässt. Für weniger kritische Anwendungen genügt eine leichtere Variante: Confidence Scoring, das unsichere Passagen markiert, statt sie unkommentiert auszuliefern.

Schicht 3: Menschliche Prüfschleifen. Bei Entscheidungen mit echtem Geschäftsimpact — Rechtsfragen, Finanzanalysen, medizinische Empfehlungen, Compliance-Bewertungen — bleibt der Mensch im Loop, und das ist kein Übergangszustand bis zum nächsten Modell. Entscheidend ist das Prozessdesign: Der Mensch soll Ergebnisse effizient prüfen, nicht die Arbeit wiederholen, die die KI abnehmen sollte. Das gelingt, wenn das System Passagen niedriger Konfidenz hervorhebt, das Quelldokument neben die generierte Analyse stellt und die Prüfung schnell statt redundant macht. Schlecht gebaute Human-in-the-Loop-Prozesse erzeugen Alibi-Kontrollen, bei denen Menschen routiniert abnicken — das ist schlimmer als keine Kontrolle, weil es Sicherheit vortäuscht.

Keine dieser Schichten ist für sich ausreichend, und keine ist umsonst zu haben. Aber sie sind kumulativ: Grounding senkt die Grundrate, Verifikation fängt einen Teil des Rests, der Mensch sichert die teuren Entscheidungen. Wer nur eine Schicht baut, hat ein Demo-System. Wer alle drei baut, hat ein Produktivsystem.

Die operativen Konsequenzen

Halluzinations-Mitigation ist kein Feature, das man einem Modell hinzufügt. Es ist ein Betriebssystem, das man um das Modell herum baut — und das hat drei praktische Konsequenzen.

Messen Sie in Produktion, nicht nur im Test. Echte Eingaben sind unordentlicher, vielfältiger und gelegentlich adversarialer als jedes Testset. Ein Modell, das in der Evaluation bei einem Prozent lag, kann auf realen Anfragen deutlich höher liegen — und Sie erfahren es ausschließlich durch fortlaufende Messung. Observability für KI-Ausgaben ist kein nettes Extra, sondern die Voraussetzung dafür, überhaupt zu wissen, ob Ihr System driftet.

Evaluieren Sie domänenspezifisch. Generische Benchmarks sagen nichts über Ihre Daten. Bauen Sie ein Evaluierungsset aus Ihren tatsächlichen Fällen — echte Kundenanfragen, echte Dokumente, echte Grenzfälle aus Ihrem Haus — und messen Sie regelmäßig dagegen. Das ist die einzige Zahl, die für Ihre Geschäftsführung zählt.

Versagen Sie kontrolliert. Gestalten Sie Systeme so, dass sie bei niedriger Konfidenz an einen Menschen eskalieren, statt eine plausibel klingende Antwort zu erfinden. Das schlechteste Ergebnis ist nicht „Die KI konnte nicht antworten" — das lässt sich auffangen. Das schlechteste Ergebnis ist „Die KI hat falsch geantwortet, und niemand hat es bemerkt."

Was das für regulierte Branchen bedeutet

Für DACH-Unternehmen in Finanzdienstleistungen, Gesundheitswesen und Fertigung trifft das Halluzinationsrisiko auf harte Regulatorik — und der Zeitdruck ist real. Mit dem EU AI Act greifen die zentralen Pflichten für Hochrisiko-KI-Systeme ab dem 2. August 2026. Die Artikel 13 bis 15 verlangen ausdrücklich Transparenz und Informationspflichten gegenüber dem Betreiber, wirksame menschliche Aufsicht sowie ein angemessenes Maß an Genauigkeit und Robustheit über den gesamten Lebenszyklus. Ein System, das selbstsicher Falsches ausgibt und keine Mechanismen für Aufsicht und Genauigkeit nachweist, lässt sich gegen diese Anforderungen nicht sauber dokumentieren.

Parallel gilt das Genauigkeitsprinzip der DSGVO (Art. 5 Abs. 1 lit. d): Personenbezogene Daten müssen sachlich richtig sein, und unrichtige Daten sind zu berichtigen oder zu löschen. Dass das auf KI-Halluzinationen anwendbar ist, ist keine Theorie — die Datenschutzorganisation noyb hat genau auf dieser Grundlage Beschwerden gegen OpenAI eingereicht, weil ChatGPT erfundene Angaben über reale Personen ausgab und diese nicht korrigieren wollte. Wer ein halluzinationsanfälliges System auf personenbezogene Daten loslässt, ohne Korrekturwege vorzusehen, baut ein Compliance-Risiko in den Prozess ein.

All das heißt nicht, KI zu meiden. Es heißt, KI-Systeme von Anfang an mit der Verifikations- und Aufsichtsinfrastruktur zu bauen, die regulierte Branchen ohnehin verlangen. Genau das ist die gute Nachricht: Die Architektur, die das Halluzinationsrisiko senkt, ist dieselbe, die den EU AI Act und die DSGVO bedient. Die Organisationen, die jetzt investieren, werden KI am Ende breiter und selbstbewusster einsetzen als die, die das Thema als Problem für später wegschieben — und sie werden es tun, ohne den nächsten Audit zu fürchten.

Eine Diagnostic bewertet Ihr Halluzinationsrisikoprofil und Ihre Mitigationsbereitschaft — bevor ein selbstsicherer Modellfehler in einem regulierten Prozess landet. Wir prüfen Ihre KI-Workflows gegen das Dreischichten-Framework und zeigen, wo Ihre Organisation exponiert ist.

Diagnostic starten →


Referenzen: Vectara, „Hallucination Leaderboard / HHEM" (vectara.com/blog/introducing-the-next-generation-of-vectaras-hallucination-leaderboard); Europäische Kommission, „Regulatory framework on AI" zu Hochrisiko-Pflichten und Geltung ab 2. August 2026 (digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai); noyb, „AI hallucinations: ChatGPT created a fake child murderer" (noyb.eu/en/ai-hallucinations-chatgpt-created-fake-child-murderer).