Datenqualität für KI: Was die Forschung über Garbage In, Garbage Out zeigt

Jeder KI-Anbieter sagt „Daten sind das neue Öl." Keiner sagt Ihnen, dass die meisten Unternehmensdaten eher Rohschlamm als raffinierter Treibstoff sind — und dass KI auf minderwertigen Daten nicht einfach schlechte Ergebnisse liefert. Sie liefert selbstsicher falsche Ergebnisse, in großem Maßstab, mit überzeugender Formulierung. Ein Mensch, der unsicher ist, zögert. Ein Modell auf schlechten Daten antwortet im gleichen souveränen Ton wie auf guten — und genau das macht den Fehler teuer.

Der Zusammenhang zwischen Datenqualität und KI-Performance ist nicht linear und nicht graduell. Es gibt Schwellen, ab denen ein System von „brauchbar" zu „unzuverlässig" kippt, ohne Vorwarnung. Wer das ignoriert, kauft ein KI-Projekt, das im Pilot glänzt und im Betrieb still degradiert.

Warum saubere Daten kein Datenthema mehr sind, sondern ein Compliance-Thema

Bislang war Datenqualität eine Frage der internen Hygiene. Mit dem EU AI Act wird sie zur Rechtspflicht. Artikel 10 verlangt für Hochrisiko-KI-Systeme, dass Trainings-, Validierungs- und Testdatensätze „relevant, hinreichend repräsentativ und so weit wie möglich fehlerfrei und vollständig im Hinblick auf die Zweckbestimmung" sind. Das ist kein Best-Practice-Hinweis, sondern Gesetzestext — flankiert von der Pflicht, Design-Entscheidungen, Datenherkunft, Annotations- und Bereinigungsprozesse sowie mögliche Verzerrungen zu dokumentieren.

Die zugehörigen Hochrisiko-Pflichten greifen nicht sofort: Nach dem Digital-Omnibus-Vorschlag der EU-Kommission vom November 2025 sind die Fristen für eigenständige Annex-III-Systeme auf den 2. Dezember 2027 verschoben, für in regulierte Produkte eingebettete KI auf den 2. August 2028. Das klingt nach viel Zeit. Es ist es nicht. Entity Resolution über gewachsene Systemlandschaften, das Aufräumen von Dokumentenbeständen und der Aufbau eines Daten-Monitorings sind Mehrquartalsvorhaben. Wer 2027 prüffähige Datensätze braucht, beginnt jetzt.

Was die Forschung über Label Noise zeigt

Der härteste empirische Befund kommt nicht aus einer Vendor-Broschüre, sondern aus der Benchmark-Forschung selbst. Northcutt, Athalye und Mueller fanden 2021, dass die zehn meistgenutzten Standard-Testdatensätze im Maschinellen Lernen — darunter ImageNet — im Schnitt mindestens 3,3 Prozent fehlerhaft gelabelte Beispiele enthalten; im ImageNet-Validierungsset waren es mindestens 6 Prozent. Das sind die kuratierten, vielfach geprüften Goldstandard-Datensätze der Forschungsgemeinde.

Die Pointe für die Praxis: Wenn die sorgfältigsten öffentlichen Datensätze der Welt mehrere Prozent Fehlerquote tragen, was bedeutet das für Ihre intern, nebenbei, von wechselnden Fachkräften gelabelten Enterprise-Daten? Northcutts zentraler Befund war zudem, dass Label-Fehler die Modellauswahl destabilisieren: Bei höherem Rauschanteil können kleinere, einfachere Modelle die größeren auf dem bereinigten Testset überholen — die Rangfolge dreht sich. Übersetzt heißt das: Auf verrauschten Daten wählen Sie womöglich das falsche Modell aus, weil Ihr Benchmark selbst lügt. Mehr Rechenleistung repariert das nicht.

Data Drift: das Problem, das niemand bemerkt

Label Noise ist statisch — Drift ist das Problem, das sich nach dem Go-live einschleicht. Ein produktives Modell sieht die Welt durch die Verteilung seiner Eingabedaten. Verschiebt sich diese Verteilung, sinkt die Genauigkeit, ohne dass im Code etwas kaputtgeht. Transaktionsmuster verschieben sich mit Konjunktur und Zinslage. Maschinendaten verschieben sich mit Verschleiß und Saison. Kundenservice-Daten verschieben sich mit jedem Produktrelease und jeder Kampagne.

Das Tückische ist die Stille des Versagens. Ein im Januar deployedes Modell kann im Frühjahr spürbar unter seiner Anfangsgenauigkeit liegen — und es fällt erst auf, wenn eine Geschäftskennzahl einbricht und jemand rückwärts sucht, warum. Ohne Drift-Monitoring betreiben Sie ein System, dessen Qualität Sie schlicht nicht kennen. Das ist kein KI-Risiko im engeren Sinn, sondern ein Betriebsrisiko: Sie haben eine Entscheidungsmaschine in Produktion, deren Kalibrierung niemand misst.

RAG lebt von Dokumenten, nicht von Modellen

Bei Retrieval-Augmented-Generation-Systemen liegt der größte Hebel fast nie beim Modell. Ob ein RAG-System die richtige Antwort findet, hängt vorrangig davon ab, ob die richtige Information in den Quelldokumenten sauber, eindeutig und auffindbar vorliegt. Ein Modell-Upgrade hebt die Antwortgüte meist um wenige Prozentpunkte. Das Bereinigen, Deduplizieren und sinnvolle Strukturieren der Quelldokumente hebt sie spürbar stärker.

Der praktische Schluss ist unbequem, weil er unglamourös ist: Wer die RAG-Genauigkeit verbessern will, investiert in Dokumente, nicht in das nächstgrößere Modell. Schlecht gechunkte PDFs, drei widersprüchliche Versionen derselben Richtlinie, OCR-Müll aus eingescannten Verträgen — das sind die wahren Genauigkeitskiller. Kein Frontier-Modell rettet ein System, das auf widersprüchlichen Quellen aufsetzt. Es formuliert den Widerspruch nur eloquenter. Welche Architektur überhaupt zu Ihrem Datenbestand passt, behandeln wir in RAG vs. Fine-Tuning im Enterprise.

Die fünf Dimensionen, die wirklich zählen

Nicht jedes Datenqualitätsproblem wiegt gleich schwer. Fünf Dimensionen entscheiden über KI-Readiness.

Vollständigkeit ist die offensichtlichste und am häufigsten unterschätzte. Ein Abwanderungsmodell, das auf Datensätzen trainiert, in denen ein erheblicher Anteil der Kunden keine Interaktionshistorie hat, lernt nicht, Abwanderung vorherzusagen — es lernt, sie aus den falschen, weil zufällig vorhandenen Merkmalen zu raten. Wo zu viele Felder fehlen, kompensieren Modelle auf Weisen, die im Pilot unsichtbar bleiben und im Betrieb teuer werden.

Konsistenz ist das DACH-spezifische Problem. Dieselbe Entität, in jedem System anders geschrieben: „Siemens AG" im CRM, „Siemens" im ERP, „SIEMENS AKTIENGESELLSCHAFT" in der Vertragsdatenbank. Entity Resolution — die Zusammenführung in eine kanonische Form — ist Voraussetzung für jede systemübergreifende KI-Anwendung. Unternehmen, die durch Übernahmen gewachsen sind, schleppen oft ein halbes Dutzend nie konsolidierter Stammdatensysteme mit, und genau dort scheitert die KI vor dem ersten Modell.

Aktualität entscheidet darüber, welche Realität die KI abbildet. Ein Empfehlungsmodell auf Vorjahresdaten empfiehlt Vorjahresprodukte. Ein Compliance-Assistent auf Datenständen von vor 2024 übersieht genau die Anforderungen, die der EU AI Act neu eingeführt hat. Definieren Sie pro Use Case ein maximal akzeptables Datenalter und messen Sie dagegen — statt zu hoffen, dass „aktuell genug" schon stimmt.

Genauigkeit fragt, ob die Daten die Wirklichkeit treffen. CRM-Kontaktdaten veralten notorisch schnell, Sensordaten leiden unter Kalibrierungsdrift, Finanzdaten tragen Abstimmungslücken. Die KI erbt jede Ungenauigkeit der Quelle und propagiert sie in Entscheidungen — nur schneller und in größerer Zahl als jeder Sachbearbeiter es je könnte.

Struktur ist der Bereich, in den am meisten zu wenig investiert wird. Freitextfelder, gescannte Dokumente, E-Mail-Verläufe — all das braucht Vorverarbeitung, bevor KI es nutzen kann, und die Qualität dieser Vorverarbeitung deckelt die Qualität des Ergebnisses. Struktur ist unsichtbare Arbeit, die im Budget gern als Erstes gestrichen wird und sich später als Erstes rächt.

Die Readiness-Schwelle

Aus diesen Dimensionen lässt sich eine praxistaugliche Schwelle ableiten — keine theoretische Perfektion, sondern der Punkt, ab dem ein Vorhaben tragfähig wird.

Für Fine-Tuning brauchen Sie eine ausreichende Zahl hochwertiger, konsistent gelabelter Beispiele mit niedrigem Label Noise — und realistischerweise mehrere Wochen Datenaufbereitung, bevor das Training überhaupt sinnvoll startet. Wer diese Phase überspringt, trainiert das Rauschen mit ein.

Für RAG müssen die Quelldokumente aktuell, strukturell konsistent und dedupliziert sein. Planen Sie den Großteil des Projektaufwands für die Dokumentenvorbereitung ein, nicht für das Modell-Tuning. Das fühlt sich falsch an und ist trotzdem richtig.

Für Analytics und Prediction gelten ausreichende Vollständigkeit, Entity-Konsistenz über die Quellsysteme hinweg und Datenaktualität innerhalb des Entscheidungszyklus. Für eine Monatsprognose genügt ein monatlicher Datenstand; eine Echtzeit-Preissteuerung verlangt Echtzeitdaten. Die Schwelle richtet sich nach dem Takt der Entscheidung, nicht nach dem technisch Machbaren.

Der praktische Weg

Die Unternehmen, die mit KI vorankommen, warten nicht auf perfekte Daten. Sie tun drei Dinge konsequent. Sie prüfen die Datenqualität, bevor sie Use Cases auswählen — denn die verfolgbaren Use Cases ergeben sich aus den Daten, die Sie haben, nicht aus denen, die Sie sich wünschen. Sie behandeln Datenqualität als KI-Voraussetzung, nicht als Nachgedanke: Bereinigung, Entity Resolution und Dokumentenstrukturierung sind das Fundament, nicht das Beiwerk. Und sie bauen Monitoring von Anfang an ein — Drift-Erkennung, Vollständigkeits-Tracking, Aktualitäts-Alerts — damit Degradation auffällt, bevor sie das Geschäft erreicht.

Der häufigste Fehlermodus im Mittelstand ist nicht das falsche Modell. Es ist die KI-Initiative, die eine Datenlage voraussetzt, die das Unternehmen nicht hat. Ein ehrliches Readiness-Assessment, das Datenqualität gegen mögliche Use Cases abbildet, verhindert diesen Fehler — und ist dieselbe Disziplin, die der EU AI Act ab 2027 ohnehin verlangt.

Eine Diagnostik bewertet Ihre Daten über alle fünf Qualitätsdimensionen und zeigt, welche KI-Use-Cases Ihre aktuelle Datenlage trägt — und welche Vorbereitung der Rest braucht — bevor Sie ein Budget binden, das auf Rohschlamm aufsetzt.

Diagnostik starten →

Referenzen: Northcutt, Athalye, Mueller, „Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks", NeurIPS 2021 (arxiv.org/abs/2103.14749); EU AI Act, Artikel 10 „Daten und Daten-Governance" (artificialintelligenceact.eu/article/10); Europäische Kommission, Digital-Omnibus-Vorschlag zur Verschiebung der Hochrisiko-Fristen, November 2025.

Datenqualität für KI: Was die Forschung über Garbage In, Garbage Out zeigt

Warum saubere Daten kein Datenthema mehr sind, sondern ein Compliance-Thema

Was die Forschung über Label Noise zeigt

Data Drift: das Problem, das niemand bemerkt

RAG lebt von Dokumenten, nicht von Modellen

Die fünf Dimensionen, die wirklich zählen

Die Readiness-Schwelle

Der praktische Weg

Related articles

Die 5-%-Blaupause: Was BCGs „Future-Built”-Unternehmen anders machen

88 % führen ein, 6 % gewinnen: McKinseys Daten zeigen, warum KI im Unternehmen nicht skaliert

Check your AI operating maturity