GPU-Infrastruktur-Ökonomie: On-Premise vs. Cloud vs. Hybrid für DACH

GPU-Infrastruktur ist für die meisten Mittelstandsunternehmen die größte Einzelinvestition im KI-Programm. Richtig kalibriert entsteht ein Kostenvorteil, der sich über den Betriebszeitraum verstärkt. Falsch entschieden, bindet man Kapital an Hardware, die an Wert verliert, während Cloud-Preise fallen und bessere Generationen auftauchen. Die Entscheidung ist nicht technisch — sie ist wirtschaftlich.

Was diese Kalkulation im DACH-Kontext schwierig macht, ist nicht der Mangel an Zahlen, sondern der Überfluss an US-zentrierten Analysen, die deutsche Industriestrompreise, HGB-Abschreibungslogik und das Energieeffizienzgesetz schlicht ignorieren. Dieser Artikel schließt diese Lücke.

Die Hardware-Landschaft 2025–2026

NVIDIA H100 SXM5. Das derzeit meistgenutzte Arbeitspferd für Inferenz und Training im produktiven Einsatz. Einzelne Karten kosten zwischen 27.000 und 40.000 US-Dollar je nach Konfiguration und Händler. Ein vollständig ausgestattetes 8-GPU-HGX-System liegt bei rund 216.000 US-Dollar — ohne Netzwerk, Kühlung und Stellplatz. Cloud-Miete kostet je nach Anbieter zwischen 1,49 und 6,98 US-Dollar pro GPU-Stunde on-demand: AWS P5 liegt bei etwa 3,93 US-Dollar, Google Cloud A3 bei 3,00 US-Dollar, spezialisierte Anbieter wie Lambda oder Spheron bei 2,50 bis 3,50 US-Dollar.

NVIDIA H200. Die aktuelle Spitzengeneration mit 141 GB HBM3e-Speicher ermöglicht größere Modelle ohne Multi-GPU-Aufwand. Eine einzelne Karte kostet 31.000 bis 32.000 US-Dollar, ein 8-GPU-SXM-System zwischen 308.000 und 315.000 US-Dollar. Cloud-Verfügbarkeit wächst — Preise bewegen sich on-demand zwischen 3,50 und 10,60 US-Dollar pro GPU-Stunde, je nach Anbieter und Commitment-Level.

NVIDIA L40S. Die wirtschaftlich attraktive Alternative für reine Inferenz-Workloads mit 7B- bis 30B-Modellen. Einzelkarten kosten 8.000 bis 12.000 US-Dollar; die Karte passt in Standard-Rechenzentrumsracks ohne Flüssigkühlung, was die Infrastrukturanforderungen erheblich reduziert. Für Mittelstandsunternehmen, die keine Frontier-Modelle betreiben, ist dies oft die wirtschaftlich sinnvollste On-Premise-Option.

Gebrauchte A100 80GB. Auf dem Sekundärmarkt aktuell für 8.000 bis 12.000 US-Dollar verfügbar — rund 40 bis 50 Prozent unter dem ursprünglichen Listenpreis. Für produktionsstabile Workloads, die keine H100-Generation benötigen, eine oft unterschätzte Option.

Der Break-even — ehrlich gerechnet

Eine häufig zitierte Faustregel besagt, dass On-Premise-Kauf nach zehn Monaten Dauerbetrieb kostengünstiger wird als Cloud-Miete. Diese Rechnung stimmt mathematisch — aber nur unter Bedingungen, die im Mittelstand selten erfüllt sind.

Auslastungsrealität. Zehn Monate Break-even gilt bei kontinuierlicher 24/7-Auslastung. Tatsächliche KI-Workloads in Unternehmen mit weniger als zehn produktiven KI-Workflows liegen häufig bei 30 bis 60 Prozent Auslastung. Bei 50-prozentiger Auslastung verlängert sich der Break-even auf das Doppelte — und damit auf einen Zeitraum, in dem eine neue GPU-Generation bereits verfügbar ist.

Personalkosten. On-Premise-Betrieb erfordert ML-Infrastruktur-Kompetenz im eigenen Haus: Treiber, CUDA-Versionen, Kubernetes-Scheduling, Monitoring. Realistisch ist mindestens ein Ingenieur, der 30 bis 50 Prozent seiner Zeit für GPU-Infrastruktur aufwendet. Bei einem deutschen Jahresbruttogehalt von 80.000 bis 110.000 Euro für erfahrene ML-Infrastruktur-Ingenieure entspricht das 24.000 bis 55.000 Euro pro Jahr — ein Kostenfaktor, der in vielen TCO-Rechnern fehlt.

Restwertrisiko. GPU-Hardware verliert nach zwei bis drei Jahren erheblich an Wert. Die A100, 2021 noch für 15.000 bis 20.000 US-Dollar gehandelt, kostet heute auf dem Sekundärmarkt unter 12.000 US-Dollar. Wer heute H100-Hardware kauft, rechnet mit dem gleichen Wertverlustprofil zum Zeitpunkt, an dem H300 oder Blackwell-Folgemodelle die Cloud-Miete günstig machen.

Für ein repräsentatives Mittelstandsszenario — ein Produktionsmodell, stabile Workload, keine Lastspitzen — ergibt sich folgendes Bild über drei Jahre: Cloud bei einem mittelgroßen Anbieter mit einjähriger Bindung kostet für eine H100-GPU etwa 2.500 bis 3.000 US-Dollar pro Monat all-inclusive. On-Premise kostet die Hardware zunächst 40.000 bis 55.000 US-Dollar (GPU plus Server-Anteil), dazu jährliche Betriebs-, Energie- und Personalkosten. Der Cloud-Vorteil liegt in der Flexibilität und im Null-Personalaufwand. Der On-Premise-Vorteil liegt in der Kostenkontrolle bei hoher, stabiler Dauerlast — aber erst ab dem zweiten Jahr.

DACH-spezifische Faktoren, die generische Kalkulatoren ignorieren

Industriestrompreise. Gewerbliche und industrielle Stromabnehmer in Deutschland zahlen laut Eurostat-Daten für das zweite Halbjahr 2025 im Schnitt rund 22,6 Cent pro kWh — einer der höchsten Werte in Europa. Unternehmen ohne Lastabnahme-Privilegien zahlen noch mehr; wer hingegen unter die Entlastungsregelungen des deutschen Strompreispakets fällt, kann auf 5 bis 11 Cent kommen. Eine einzelne H100 mit 700 Watt Dauerlast verbraucht rund 6.100 kWh pro Jahr — bei 22 Cent sind das rund 1.350 Euro jährlich pro Karte. Ein 8-GPU-Setup kostet damit allein an Strom über 10.000 Euro im Jahr. Für Unternehmen ohne eigene Rechenzentrumsinfrastruktur kommen Colocation-Kosten hinzu: In Frankfurt liegen diese bei 150 bis 300 Euro pro kW installierter Leistung pro Monat.

Das Energieeffizienzgesetz. Das EnEfG, in Kraft seit November 2023, schreibt Betreibern von Rechenzentren ab 200 kW Nennleistung verbindliche Pflichten vor. Ab 2024 müssen Rechenzentren bilanziell zu 50 Prozent mit erneuerbaren Energien versorgt werden; ab 2027 steigt diese Quote auf 100 Prozent. Neue Rechenzentren, die ab Juli 2026 in Betrieb gehen, müssen zudem einen PUE-Wert von 1,2 oder besser erreichen. Bis 2030 gilt für alle Bestandsanlagen ein PUE-Zielwert von 1,3. Für Unternehmen, die eigene On-Premise-GPU-Installationen betreiben, bedeutet das entweder Ökostromverträge — in Deutschland typischerweise mit einem Aufpreis verbunden — oder den Erwerb von Herkunftsnachweisen für erneuerbare Energien. Wer diese Anforderungen unterschätzt, hat eine Compliance-Last auf der Bilanz, die in der ursprünglichen Investitionsentscheidung nicht auftauchte.

HGB-Abschreibung und CapEx-vs.-OpEx-Logik. Nach dem Handelsgesetzbuch wird Computerhardware linear über drei Jahre abgeschrieben. Das bietet einen steuerlichen Vorteil gegenüber Cloud-Kosten, die sofort als Betriebsausgabe wirken — aber der optimale Weg hängt von der Liquiditätssituation und steuerlichen Position des Unternehmens ab. Wer aktuell profitabel ist und versteuerbares Einkommen hat, profitiert vom On-Premise-CapEx anders als ein Unternehmen in einer Verlustphase. Diese Abwägung gehört nicht in eine TCO-Tabelle, sondern ins Gespräch mit dem Steuerberater.

Das Entscheidungsframework

Wer On-Premise kaufen sollte, erfüllt alle drei folgenden Bedingungen: dauerhaft hohe und stabile GPU-Auslastung über mindestens zwei Jahre, mindestens ein dedizierter ML-Infrastruktur-Ingenieur im Team und vorhandene Rechenzentrumsinfrastruktur mit ausreichend Strom und Kühlung — oder der Zugang zu einem Colocation-Anbieter mit klarem langfristigen Vertrag. Fehlt eine dieser drei Bedingungen, kippt der TCO zugunsten der Cloud.

Cloud-GPU ist die richtige Wahl für alles, was unregelmäßig, experimentell oder noch im Wachstum ist: Workloads unter 50 Millionen Tokens pro Tag, Teams ohne eigene Infrastruktur-Kompetenz und Unternehmen, die zwischen GPU-Generationen flexibel wechseln wollen, wenn bessere Hardware verfügbar wird.

Hybrid — Cloud für Entwicklung und Lastspitzen, reservierte oder On-Premise-GPU für stabilen Produktionsbetrieb — trifft die Mehrheit der Mittelstandsunternehmen mit mehr als fünf produktiven KI-Workflows. Diese Architektur kombiniert Kostenkontrolle bei berechenbarer Last mit Elastizität für alles, was nicht vorhersehbar ist.

Die ehrliche Antwort auf die Frage „Kaufen oder mieten?" lautet für die meisten Mittelstandsunternehmen im Jahr 2026: Mieten, bis das Volumen bewiesen ist. Dann hybrid denken. Kaufen nur, wenn der Dauerbetrieb gesichert, das Team vorhanden und die Infrastruktur bereit ist.

Ein Fit Call modelliert Ihre konkrete GPU-Infrastruktur-Ökonomie — auf Basis Ihrer realen Workloads, Ihres Standorts, Ihrer Abschreibungssituation und der DACH-spezifischen Kosten, die generische Kalkulatoren übersehen.

Fit Call buchen →

Quellen: IntuitionLabs, „NVIDIA AI GPU Prices: H100 & H200 Cost Guide," intuitionlabs.ai, 2026; GetDeploying, „H100 Cloud Pricing: Compare 45+ Providers," getdeploying.com, 2026; Spheron, „GPU Cloud Pricing 2026," spheron.network; Eurostat, „Electricity price statistics," ec.europa.eu/eurostat, H2 2025; Etalytics, „Industrial Electricity Price in Germany: Costs, Rules and Impact 2026–2028," etalytics.com; Bundesministerium für Wirtschaft und Klimaschutz, Energieeffizienzgesetz (EnEfG), gesetze-im-internet.de, November 2023.

Ready for the next step?

20-minute Fit Call. No pitch deck. No pressure.

Book Fit Call→

GPU-Infrastruktur-Ökonomie: On-Premise vs. Cloud vs. Hybrid für DACH

Die Hardware-Landschaft 2025–2026

Der Break-even — ehrlich gerechnet

DACH-spezifische Faktoren, die generische Kalkulatoren ignorieren

Das Entscheidungsframework

Related articles

Inferenz-Ökonomie: Self-Hosted vs. API — die echte Rechnung

Der Self-Hosting-Entscheidungsbaum: Datensouveränität vs. operative Realität

MLOps für den Mittelstand: Was Sie wirklich brauchen vs. was Ihnen verkauft wird

Ready for the next step?