Die meisten Unternehmen greifen reflexhaft zum größten verfügbaren Modell — egal, welche Aufgabe vor ihnen liegt. Das ist das KI-Äquivalent dazu, zu jedem Termin First Class zu fliegen: beeindruckend, teuer und meistens unnötig. Es fühlt sich nach Sorgfalt an, ist aber in Wahrheit eine ausgelagerte Entscheidung — man kauft die Spitze, um nicht selbst überlegen zu müssen, was die Aufgabe wirklich braucht.

Diese Bequemlichkeit war früher verzeihlich, weil der Abstand zwischen Spitzenmodell und Mittelfeld groß war. Das hat sich verschoben. Die Token-Preise für API-Modelle sind über mehrere Jahre hinweg in einer Größenordnung von rund 80 Prozent pro Jahr gefallen — Andrew Ng beziffert den Rückgang für GPT-4o-Klasse-Modelle auf etwa 79 Prozent pro Jahr, getrieben von offenen Gewichten und besserer Inferenz-Hardware. Parallel hat sich der Qualitätsabstand zwischen quelloffenen und proprietären Modellen von etwa zwei Jahren auf sechs bis zwölf Monate verkürzt. Die Frage lautet damit nicht mehr „Welches Modell ist das beste?", sondern „Welches Modell erledigt genau diese Aufgabe zuverlässig zum niedrigsten Preis?"

Die drei Gewichtsklassen

Enterprise-Workloads lassen sich grob in drei Kategorien sortieren, die auf drei Modellklassen abbilden. Die genauen Parametergrenzen verschieben sich von Quartal zu Quartal; entscheidend ist nicht die exakte Zahl, sondern das Denken in Klassen statt in einem einzigen Default.

Leichtgewicht-Modelle (grob 1–8 Milliarden Parameter). Ihr Revier sind eng umrissene Aufgaben mit klarem richtig und falsch: Klassifikation, Entity Extraction, Routing, strukturiertes Daten-Parsing, einfache Zusammenfassungen. Solche Modelle laufen auf moderater Standard-Hardware oder sogar lokal und kosten pro Inferenz nur einen Bruchteil eines Frontier-Modells. Für einen Maschinenbauer, der eingehende Support-Tickets nach Dringlichkeit sortiert, oder einen Logistiker, der Lieferdaten aus PDFs zieht, schlägt ein auf den eigenen Daten feinabgestimmtes Kleinmodell ein universelles Spitzenmodell — schneller, günstiger und vorhersehbarer. Eng definierte Aufgaben sind genau das, worin kleine Modelle nach Fine-Tuning stark werden; die Genauigkeit hängt dabei von Ihren Daten ab, nicht von der Modellgröße.

Mittelklasse-Modelle (grob 8–70 Milliarden Parameter). Hier liegt das beste Kosten-Leistungs-Verhältnis für den Großteil der Wissensarbeit: Dokumente zusammenfassen, über strukturierte Daten hinweg argumentieren, Code generieren, Inhalte entwerfen, Conversational Agents betreiben. Ein quantisiertes Modell dieser Klasse läuft auf überschaubarer GPU-Infrastruktur und deckt den weit überwiegenden Teil dessen ab, was ein Unternehmen täglich braucht — Vertragsentwürfe, Finanzanalysen, fundierte Produktauskünfte. Genau in diesem Band haben offene Gewichte wie Llama, Qwen und DeepSeek den Abstand zur proprietären Spitze am deutlichsten geschlossen, was Self-Hosting für DACH-Mittelständler überhaupt erst realistisch macht.

Frontier-Modelle (hunderte Milliarden Parameter aufwärts). Diese Klasse rechtfertigt ihren Aufpreis nur bei echter Mehrdeutigkeit: mehrstufiges Reasoning, neuartige Problemzerlegung, domänenübergreifende Synthese, längere Agentic Workflows. Juristische Analysen mit widersprüchlicher Rechtsprechung, strategische Szenarioplanung, autonome Recherche über hunderte Dokumente. Die Kosten pro Token liegen um ein Vielfaches über der Mittelklasse. Jede Aufgabe, die hierhin geroutet wird, sollte diesen Aufpreis vor sich selbst verteidigen können — sonst zahlen Sie Spitzenpreise für Mittelklassearbeit.

Routing statt Default

Die Erkenntnis, die kosteneffiziente von teuren KI-Operationen trennt, ist unspektakulär: jede Anfrage an das günstigste Modell weiterleiten, das sie zuverlässig erledigt. Der Default „alles an die Frontier-API" ist bequem und genau deshalb teuer.

In der Praxis heißt das, eine Routing-Schicht zwischen Anwendung und Modelle zu setzen. Ein kleines Klassifikationsmodell — oft selbst aus der Leichtgewichtsklasse — schätzt die Komplexität jeder eingehenden Anfrage und schickt sie an die passende Klasse: einfache Extraktion ans Kleinmodell, Dokumentenanalyse an die Mittelklasse, echtes Reasoning an die Frontier. Der Router selbst verursacht nur einen geringen Bruchteil der Inferenzkosten. Wie groß die Einsparung am Ende ausfällt, hängt vollständig von Ihrem Anfragemix ab — je mehr Routinearbeit, desto größer der Hebel. Wer das misst, sieht den Effekt im Monatsende-Report; wer es nicht misst, subventioniert dauerhaft triviale Aufgaben mit Frontier-Preisen.

Die Entscheidungsmatrix

Bei der Modellwahl für einen konkreten Workflow zählen fünf Faktoren — und kein einzelner darf die anderen überstimmen.

Genauigkeitsschwelle. Welche Fehlerrate ist tragbar? Ein kundenseitiger Chatbot, der verbindliche Produktauskünfte gibt, braucht eine andere Schwelle als ein internes Tool, das Besprechungsnotizen zusammenfasst. Legen Sie diese Schwelle vor der Modellauswahl fest, nicht danach — sonst rationalisieren Sie hinterher das Modell, das Sie ohnehin wollten.

Latenz. Echtzeit-Interaktionen — Live-Kundengespräche, Prüfschritte direkt in der Fertigung — verlangen Antworten im Sekundenbereich. Batch-Verarbeitung wie nächtliche Berichte oder Massenklassifikation verträgt Minuten. Kleinere Modelle generieren Tokens spürbar schneller; wo der Mensch wartet, ist das oft der ausschlaggebende Faktor, nicht die Qualität.

Datensensibilität — und ab 2026 die Regulatorik. Regulierte DACH-Branchen wie Finanzdienstleistungen, Gesundheitswesen und Teile der Fertigung dürfen sensible Daten oft nicht an externe APIs geben. Das drängt zu Self-Hosting und damit zu kleineren, beherrschbaren Architekturen. Hinzu kommt der EU AI Act: Seit dem 2. August 2025 gelten die Pflichten für Anbieter von General-Purpose-AI-Modellen — technische Dokumentation, Zusammenfassung der Trainingsdaten, Einhaltung des EU-Urheberrechts. Die volle Durchsetzungs- und Sanktionsbefugnis des AI Office greift ab dem 2. August 2026; für Modelle, die bereits vor August 2025 im Markt waren, gilt eine Frist bis zum 2. August 2027. Für Sie als Anwender heißt das: Die Compliance-Last liegt zwar primär beim Modellanbieter, aber Ihre Lieferantenauswahl wird damit zu einer Governance-Entscheidung. Ein Modell mit dokumentierten Trainingsdaten und sauberer Anbieter-Compliance ist im Self-Hosting wie im API-Bezug die robustere Wahl.

Volumen. Bei einer Handvoll Anfragen pro Tag sind Modellkosten Rauschen — nehmen Sie das beste Modell und kümmern Sie sich um Wichtigeres. Bei sechs- oder siebenstelligen Tagesvolumina wird der Faktor zwischen Klein- und Frontier-Modell zum eigenen Budgetposten, und Routing zahlt sich vom ersten Monat an aus. Rechnen Sie diesen Posten konkret durch, bevor Sie sich auf eine Architektur festlegen.

Betriebsbudget. Größere selbstgehostete Modelle bedeuten mehr GPU-Infrastruktur, mehr Monitoring und mehr ML-Engineering-Kapazität. Ein realistischer Mittelständler mit einem Data Engineer kann ein feinabgestimmtes Kleinmodell verlässlich betreiben; ein selbstgehostetes Spitzenmodell wird ohne dediziertes Team schnell zur Dauerbaustelle. Wählen Sie die Architektur, die Ihr Team im Alltag trägt — nicht die, die im Benchmark glänzt.

Was das für Ihre Organisation bedeutet

Den besten Return erzielen nicht die Unternehmen mit den stärksten Modellen, sondern die, die Modellkapazität sauber auf Aufgabenkomplexität abbilden. Das setzt voraus, die eigenen Workloads gut genug zu kennen, um sie zu klassifizieren — und die Routing-Infrastruktur zu bauen, die sie entsprechend verteilt. Beides ist Fleißarbeit, keine Magie, und genau deshalb verschaffen sie einen dauerhaften Vorsprung: Sie sind kopierbar, aber selten kopiert.

Das ist eine Architektur-, keine Technologieentscheidung. Und wie die meisten Architekturentscheidungen verzinst sie sich: Wer früh richtig sortiert, gibt weniger aus, bewegt sich schneller und skaliert planbarer als jemand, der alles über eine einzelne Frontier-API schiebt — und nebenbei reduziert die Klassentrennung Ihre Abhängigkeit von einem einzelnen Anbieter, was angesichts fallender Preise und neuer Compliance-Pflichten kein Nebeneffekt, sondern strategischer Schutz ist.

Ein Fit Call prüft, welche Modellarchitektur zu Ihren konkreten Workloads passt — bevor Sie Budget in eine pauschale Frontier-API gießen, die das Meiste davon nicht braucht. Kein Pitch-Deck, kein Verkaufsdruck. Nur ein strukturiertes Gespräch darüber, wo Ihre KI-Investition den größten Hebel erzeugt.

Fit Call buchen →


Referenzen: Europäische Kommission, „AI Act — Regulatory framework on AI" und „Guidelines for providers of general-purpose AI models", 2025 (https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai); Andrew Ng, „Falling LLM Token Prices and What They Mean for AI Companies", The Batch / DeepLearning.AI, 2024 (https://www.deeplearning.ai/the-batch/falling-llm-token-prices-and-what-they-mean-for-ai-companies); Artificial Analysis LLM Leaderboard (https://artificialanalysis.ai/leaderboards/models).