Jeder KI-Anbieter sagt „Daten sind das neue Öl." Keiner sagt Ihnen, dass die meisten Unternehmensdaten eher Rohschlamm als raffinierter Treibstoff sind — und dass KI auf minderwertigen Daten nicht schlechte Ergebnisse produziert. Sie produziert selbstsicher falsche Ergebnisse in grossem Massstab.
Der Zusammenhang zwischen Datenqualität und KI-Performance ist nicht linear. Es gibt Schwellenwerte, Klippen und Fehlermodi, die die Forschung klar quantifiziert.
Was die Forschung zeigt
Label Noise. Eine Studie von Northcutt et al., veröffentlicht auf der NeurIPS, ergab, dass die Genauigkeit von Klassifikationsmodellen bis etwa 10 Prozent Label Noise — also 10 Prozent falsch gelabelter Trainingsbeispiele — nur graduell abnimmt. Über 10 Prozent hinaus fällt die Genauigkeit steil ab. Bei 20 Prozent Label Noise verlieren die meisten Modelle 15 bis 25 Prozentpunkte Genauigkeit. Bei 30 Prozent wird die Modell-Performance unzuverlässig, unabhängig von Architektur oder Skalierung.
Für Enterprise-Trainingsdaten — manuell gelabelt von Fachexperten, oft inkonsistent — ist Label Noise von 5 bis 15 Prozent typisch. Das bedeutet: Die meisten Enterprise-Fine-Tuning-Projekte operieren nahe oder jenseits der Schwelle, ab der Datenqualität die Ergebnisse materiell verschlechtert.
Data Drift. Der NeurIPS-2023-Benchmark zu Dataset Shift zeigte, dass produktive ML-Modelle innerhalb von 30 bis 90 Tagen nach Deployment messbare Performance-Verschlechterung erfahren, wenn sich die Eingabeverteilungen verschieben. Finanzdaten driften am schnellsten — Transaktionsmuster, Marktbedingungen und Kundenverhalten ändern sich kontinuierlich. Fertigungsdaten driften saisonal. Kundenservice-Daten driften mit Produktreleases und Marketingkampagnen.
Ohne Drift-Monitoring kann ein Modell, das im Januar deployed wurde, bis April 10 bis 15 Prozent unter seiner Anfangsgenauigkeit liegen — und niemand bemerkt es, bis ein Geschäftsergebnis einbricht.
Dokumentenqualität bei RAG. Praxiserfahrung und Benchmark-Daten zeigen konsistent, dass die Genauigkeit von RAG-Systemen stärker von der Dokumentenqualität abhängt als von der Modellqualität. Ein Upgrade des zugrundeliegenden Modells verbessert die RAG-Genauigkeit typischerweise um wenige Prozentpunkte. Das Bereinigen und Umstrukturieren der Quelldokumente verbessert die Genauigkeit oft um 15 Prozentpunkte oder mehr. Die Konsequenz: In Dokumentenvorbereitung zu investieren liefert 3- bis 5-mal mehr Genauigkeitsgewinn als in ein besseres Modell.
Die fünf Datenqualitätsdimensionen für KI
Nicht alle Datenqualitätsprobleme wiegen gleich schwer. Fünf Dimensionen sind für die KI-Readiness am wichtigsten.
Vollständigkeit. Fehlende Felder, unvollständige Datensätze, Lücken in Zeitreihen. Ein Kundenabwanderungsmodell, das auf Daten trainiert wird, bei denen 30 Prozent der Kunden keine Interaktionshistorie haben, lernt, Abwanderung anhand verfügbarer Features vorherzusagen — die möglicherweise die falschen Features sind. Vollständigkeitsschwellen variieren nach Use Case, aber unter 80 Prozent Vollständigkeit kompensieren die meisten Modelle auf Weisen, die die Zuverlässigkeit beeinträchtigen.
Konsistenz. Dieselbe Entität, unterschiedlich beschrieben über Systeme hinweg. „Siemens AG" im CRM, „Siemens" im ERP, „SIEMENS AKTIENGESELLSCHAFT" in der Vertragsdatenbank. Entity Resolution — die Zusammenführung in eine einheitliche kanonische Form — ist Voraussetzung für jede systemübergreifende KI-Anwendung. Inkonsistenzraten von 15 bis 30 Prozent über Enterprise-Systeme hinweg sind normal bei DACH-Unternehmen, die durch Übernahmen gewachsen sind.
Aktualität. Wie alt sind die Daten? Ein Produktempfehlungsmodell, das auf den Kaufdaten des Vorjahres trainiert wurde, empfiehlt die Produkte des Vorjahres. Ein Compliance-Modell, das auf regulatorischen Daten vor 2024 trainiert wurde, übersieht Anforderungen des EU AI Act. Definieren Sie das maximal akzeptable Datenalter für jeden KI-Use-Case und messen Sie dagegen.
Genauigkeit. Bilden die Daten die Realität ab? CRM-Daten sind notorisch ungenau — Kontaktinformationen verfallen mit 20 bis 30 Prozent pro Jahr. Produktionsdaten aus Sensoren können Kalibrierungsdrift aufweisen. Finanzdaten können Abstimmungslücken haben. Das KI-System erbt jede Ungenauigkeit der zugrundeliegenden Daten und propagiert sie in Entscheidungen.
Struktur. Unstrukturierte Daten — Freitextfelder, gescannte Dokumente, E-Mail-Verläufe — erfordern Vorverarbeitung, bevor KI sie wirksam nutzen kann. Die Vorverarbeitungsqualität bestimmt die KI-Qualität. Schlecht gechunkte Dokumente liefern schlechte RAG-Ergebnisse. Inkonsistent geparste PDFs erzeugen verrauschte Trainingsdaten. Struktur ist der Bereich, in den die meisten Unternehmen zu wenig investieren.
Die Readiness-Schwelle
Basierend auf diesen Dimensionen sieht eine praxistaugliche Readiness-Schwelle für Enterprise-KI so aus:
Für Fine-Tuning-Projekte: mindestens 500 hochwertige, konsistent gelabelte Beispiele mit weniger als 10 Prozent Label Noise. Die meisten Unternehmen brauchen 2 bis 4 Wochen Datenaufbereitung, bevor Fine-Tuning tragfähig ist.
Für RAG-Implementierungen: Quelldokumente müssen aktuell sein (aktualisiert innerhalb des relevanten Geschäftszyklus), strukturell konsistent (Standardformate, sauberes Parsing) und dedupliziert. Rechnen Sie damit, 60 Prozent der RAG-Projektzeit für Dokumentenvorbereitung aufzuwenden.
Für Analytics und Prediction: mindestens 80 Prozent Vollständigkeit, Entity-Konsistenz über Quellsysteme hinweg und Datenaktualität innerhalb des Entscheidungszyklus. Für monatliche Prognosen reicht monatlich aktualisierte Datenlage. Für Echtzeit-Preisgestaltung sind Echtzeit-Daten erforderlich.
Der praktische Weg
Die Unternehmen, die mit KI erfolgreich sind, warten nicht auf perfekte Daten. Sie tun drei Dinge.
Erstens prüfen sie die Datenqualität, bevor sie KI-Use-Cases auswählen. Die Use Cases, die Sie verfolgen können, hängen von den Daten ab, die Sie haben, nicht von denen, die Sie sich wünschen. Ein Readiness Assessment, das Datenqualität gegen potenzielle Use Cases abbildet, verhindert den häufigsten Fehlermodus: eine KI-Initiative zu wählen, die die Datenlage nicht stützen kann.
Zweitens investieren sie in Datenqualität als KI-Voraussetzung, nicht als Nachgedanke. Datenbereinigung, Entity Resolution, Dokumentenstrukturierung — das ist nicht glamourös. Es ist das Fundament. Jeder Euro in Datenqualität liefert drei bis fünf Euro Wertgewinn bei der KI-Performance.
Drittens bauen sie Datenqualitäts-Monitoring in ihren KI-Betrieb ein. Drift-Erkennung, Vollständigkeits-Tracking, Aktualitäts-Alerts — das fängt Degradation ab, bevor sie das Geschäft erreicht.
Starten Sie eine Diagnostik, um Ihre Daten-Readiness für KI zu bewerten. Wir evaluieren Ihre Daten über alle fünf Qualitätsdimensionen und identifizieren, welche KI-Use-Cases Ihre aktuelle Datenlage unterstützt — und welche Vorbereitung für den Rest nötig ist. Diagnostik starten →
References: Northcutt et al., "Pervasive Label Errors in Test Sets," NeurIPS 2021; NeurIPS 2023 Dataset Shift Benchmark; Stanford HELM Benchmark Group, "Document Quality Impact on RAG System Accuracy," 2025; Gartner, "Data Quality Market Survey," 2025 (20–30% annual contact decay rate).