Die Entscheidung zwischen Self-Hosting und API ist die folgenreichste Infrastrukturentscheidung in der Enterprise-KI — und die am häufigsten auf unvollständiger Datenlage getroffene.

DSGVO und Branchenregulierung drängen DACH-Unternehmen Richtung Self-Hosting. Der Reflex ist nachvollziehbar: Daten auf der eigenen Infrastruktur halten, volle Kontrolle bewahren, Abhängigkeit von US-Cloud-Anbietern vermeiden. Doch die Kostenrealität ist differenzierter, als das Argument der Datensouveränität suggeriert.

Die API-Kostenstruktur

API-Preise sind laut der Artificial-Analysis-Preisdatenbank zwischen 2025 und 2026 um rund 80 Prozent gefallen. Eine Frontier-Modell-Abfrage, die Anfang 2025 noch $0,03 an Input-Tokens kostete, kostet Mitte 2026 $0,005. Mittelklasse-Modelle sind noch günstiger.

Bei moderatem Volumen — 50 Millionen Tokens pro Tag — liegen die API-Kosten für ein Mittelklasse-Modell bei etwa $2.000 bis $3.000 pro Monat. Für ein Frontier-Modell bei gleichem Volumen: $8.000 bis $12.000 monatlich. Diese Kosten skalieren linear. Doppeltes Volumen, doppelte Kosten.

Der Vorteil von APIs ist radikale Einfachheit. Keine GPU-Beschaffung, kein Infrastruktur-Engineering, keine Modell-Update-Zyklen, keine Bereitschaftsrotation. Eine einzige Code-Zeile wechselt die Modellversion. Die Skalierung von 1 Million auf 100 Millionen Tokens erfordert keine Infrastrukturänderungen.

Die Self-Hosting-Kostenstruktur

Self-Hosting-Kosten sind frontlastig, nicht-linear und häufig unterschätzt.

Hardware. Eine NVIDIA H100 GPU kostet 2026 laut dem IntuitionLabs-Pricing-Guide $30.000 bis $40.000 beim Direktkauf. Ein produktionstauglicher 8-GPU-Server liegt bei über $250.000. Cloud-GPU-Miete — der üblichere Ansatz — kostet $2,50 bis $3,50 pro Stunde für eine H100 bei Mid-Tier-Anbietern oder $6 bis $12 pro Stunde bei Hyperscalern (AWS, Azure, GCP), laut Spheron- und GetDeploying-Benchmarks.

Der versteckte Multiplikator. Die reinen GPU-Kosten machen laut einer 2026er-Analyse von AI Pricing Master nur 30 bis 40 Prozent der tatsächlichen Infrastrukturinvestition aus. Netzwerk, Storage, Kühlung, Redundanz und Sicherheit ergeben einen 2,5- bis 3-fachen Multiplikator auf die Hardwarekosten.

Engineering-Aufwand. Ein selbst gehostetes LLM-Deployment erfordert laut DevTk.AIs Kostenaufschlüsselung 10 bis 20 Stunden Engineering-Aufwand pro Monat für Wartung, Monitoring und Fehlersuche — $750 bis $3.000 monatlich allein an Personalkosten. Das setzt voraus, dass Ihr Team die nötigen Skills bereits hat. Falls Sie ML-Infrastructure-Engineers einstellen müssen, rechnen Sie mit $120.000 bis $180.000 Jahresgehalt pro Person — und im DACH-Markt dauert die Besetzung drei bis sechs Monate.

Modell-Update-Zyklen. Selbst gehostete Modelle müssen alle sechs bis acht Wochen aktualisiert werden, wenn neue Versionen erscheinen. Jedes Update erfordert Testing, Validierung und potenzielle Pipeline-Anpassungen. API-Modelle aktualisieren sich automatisch.

Die Break-Even-Berechnung

Der Break-Even-Punkt, ab dem Self-Hosting günstiger wird als API, hängt von Volumen, Modellgrösse und Teamkompetenz ab.

Laut Braincubers 2026er-Analyse wird Self-Hosting ab etwa 11 Milliarden Tokens pro Monat — rund 370 Millionen Tokens pro Tag — wirtschaftlich sinnvoll. Unterhalb dieser Schwelle übersteigt der Infrastruktur- und Engineering-Overhead die API-Kosten.

Eine differenziertere Schwelle von DevTk.AI besagt: Ab $20.000 bis $50.000 monatlichem API-Aufwand liefert Self-Hosting eines Mittelklasse-Open-Source-Modells (Llama, Mistral) auf einem 4-bis-8-GPU-Cluster 40 bis 60 Prozent Kostenersparnis — genug, um die dedizierten Engineering-Ressourcen zu rechtfertigen. Über $50.000 monatlich ist Self-Hosting fast immer günstiger, mit typischen Einsparungen von 50 bis 70 Prozent.

Für die meisten DACH-Mittelstandsunternehmen — mit 5 bis 50 Millionen Tokens pro Tag — ist API-basiertes Deployment deutlich günstiger als Self-Hosting.

Die DACH-spezifischen Faktoren

Drei Faktoren machen die Self-Hosting-Kalkulation im DACH-Raum anders.

Energiekosten. Deutschlands Industriestrompreise gehören zu den höchsten in Europa. Rechenzentren in Frankfurt verbrauchen laut einer 2026er-TechPolicy.Press-Analyse bis zu 40 Prozent der gesamten Stadtleistung. Ein 8-GPU-Server zieht kontinuierlich 5 bis 7 kW. Zu deutschen Gewerbestromtarifen kommen allein dafür $800 bis $1.200 monatlich hinzu — Kosten, die im API-Modell nicht existieren.

Regulatorische Anforderungen. Nach dem Energieeffizienzgesetz (EnEfG) müssen Rechenzentrumsbetreiber seit 2024 mindestens 50 Prozent des Strombedarfs mit Erneuerbaren decken, ab Januar 2027 sogar 100 Prozent. Für Unternehmen, die On-Premise-GPU-Infrastruktur erwägen, erhöht das die Beschaffungskomplexität und potenziell die Kosten.

Datensouveränitäts-Alternativen. Das Argument fürs Self-Hosting lautet oft „Wir können keine Daten an US-Server senden." Aber EU-gehostete API-Endpunkte grosser Anbieter — Azure West Europe, AWS Frankfurt, Anthropic EU — erfüllen die meisten Data-Residency-Anforderungen ohne den Infrastrukturaufwand. Der EU AI Act verlangt kein On-Premise-Hosting; er verlangt dokumentierte Data Governance.

Die hybride Architektur

Der kosteneffektivste Ansatz für DACH-Unternehmen, gestützt durch mehrere 2026er-Analysen, ist hybrid: API-basierte Modelle für Entwicklung, Experimentierung und Produktions-Workloads mit moderatem Volumen nutzen. Self-Hosting nur dann, wenn ein spezifischer Workload den Kosten-Break-Even überschreitet oder wenn echte regulatorische Anforderungen — nicht Präferenzen — On-Premise-Verarbeitung zwingend vorschreiben.

Unternehmen mit hybriden Architekturen berichten laut der SitePoint-TCO-Analyse von 40 bis 70 Prozent Kosteneinsparung gegenüber vollständig API-abhängigen Stacks.

Vereinbaren Sie einen Fit Call, um Ihre Inferenz-Ökonomie durchzurechnen. Wir berechnen den Break-Even-Punkt für Ihre spezifischen Workloads, Volumina und regulatorischen Randbedingungen — damit Sie nur dort in Infrastruktur investieren, wo sie Wert schafft. Fit Call buchen →


References: Artificial Analysis LLM Pricing Database, May 2026; IntuitionLabs, "NVIDIA AI GPU Prices: H100 & H200 Cost Guide," 2026; Spheron, "GPU Cloud Pricing 2026: H100 from $1.03/hr"; DevTk.AI, "Self-Host LLM vs API: Real Cost Breakdown 2026"; Braincuber, "Self-Hosted LLM vs API: Breakeven Cost & GPU Math," 2026; AI Pricing Master, "Self-Hosting AI Models vs API Pricing: Complete Cost Analysis," 2026; SitePoint, "Local LLMs vs Cloud APIs: 2026 Total Cost of Ownership Analysis"; TechPolicy.Press, "Germany's Data Centre Boom Is Pushing the Power Grid to Its Limits," 2026; German Energy Efficiency Act (EnEfG), 2023.