GPU-Infrastruktur ist die größte Kapitalentscheidung in der Unternehmens-KI. Richtig getroffen, entsteht ein Kostenvorteil, der sich über die Zeit verstärkt. Falsch getroffen, bindet man sich an teure Hardware, die an Wert verliert, während bessere Alternativen auftauchen.

Die Wirtschaftlichkeit hat sich 2025 und 2026 deutlich verschoben. Neue GPU-Generationen, fallende Cloud-Preise und verbesserte Verfügbarkeit haben die Kalkulation verändert — doch die DACH-spezifischen Faktoren Energiekosten, regulatorische Anforderungen und Abschreibungsregeln fügen Komplexität hinzu, die generische US-zentrierte Analysen übersehen.

Die Hardware-Landschaft 2026

NVIDIA H100. Das Arbeitstier der Inferenz 2024–2025. Der Kaufpreis hat sich bei 30.000 bis 40.000 US-Dollar pro Einheit stabilisiert, laut dem IntuitionLabs-Preisführer 2026. Ein 8-GPU-HGX-H100-Server kostet über 250.000 US-Dollar inklusive Chassis, Netzwerk und Speicher. Cloud-Mietkosten liegen bei 2,50 bis 3,50 US-Dollar pro Stunde bei mittelgroßen Anbietern (Spheron, Lambda) oder 6,00 bis 12,00 US-Dollar pro Stunde bei Hyperscalern (AWS p5, Azure ND H100).

NVIDIA H200. Das Upgrade 2025–2026. 141 GB HBM3e-Speicher (gegenüber 80 GB beim H100) ermöglicht größere Modelle ohne Multi-GPU-Setups. Ein 8-GPU-System kostet etwa 315.000 US-Dollar. Die Cloud-Verfügbarkeit wächst, ist aber noch nicht flächendeckend.

NVIDIA L40S. Die kosteneffiziente Alternative für Inferenz-Workloads, die nicht die volle H100-Leistung benötigen. Bei 8.000 bis 12.000 US-Dollar pro Einheit betreibt sie 7B- bis 13B-Modelle effizient und passt in Standard-Rechenzentrumsracks ohne Flüssigkühlung. Für Mittelstandsunternehmen, die kleine bis mittlere Modelle betreiben, ist dies oft die richtige Hardware-Wahl.

Gebrauchte A100 80GB. Jetzt auf dem Sekundärmarkt für 8.000 bis 12.000 US-Dollar pro Einheit verfügbar — 40 bis 50 Prozent unter dem ursprünglichen Preis. Für Unternehmen, die bewährte Workloads betreiben und nicht die neueste Generation benötigen, bieten gebrauchte A100s ein hervorragendes Preis-Leistungs-Verhältnis.

Der Drei-Jahres-TCO-Vergleich

Für eine repräsentative Mittelstands-Arbeitslast — ein Produktionsmodell mit 20 Millionen Token pro Tag — hier die Gesamtbetriebskosten über drei Jahre:

Cloud-GPU (reservierte Instanzen). 3.000 bis 4.000 US-Dollar pro Monat für eine H100 bei einjähriger Bindung bei einem mittelgroßen Anbieter. Drei-Jahres-Kosten: 108.000 bis 144.000 US-Dollar. Inklusive Hardware, Netzwerk, Kühlung und Basismanagement. Ohne ML-Engineering-Aufwand für Deployment und Monitoring.

On-Premise-Kauf. Anfangsinvestition Hardware: 40.000 US-Dollar (einzelne H100) plus 15.000 US-Dollar für Server-Chassis, Netzwerk und Installation. Jährliche Betriebskosten: 6.000 bis 10.000 US-Dollar für Strom (bei deutschen Industrietarifen von 0,20 bis 0,25 Euro pro kWh für 700W Dauerlast), 3.000 bis 5.000 US-Dollar für Wartung und Kühlung, plus Rack-Miete falls kein eigenes Rechenzentrum vorhanden. Drei-Jahres-Kosten: 82.000 bis 100.000 US-Dollar allein für Infrastruktur — vor dem ML-Engineering-Personalaufwand.

Hybrid. Cloud-GPU für Entwicklung und Lastspitzen. Reservierte oder On-Premise-GPU für den stabilen Produktionsbetrieb. Drei-Jahres-Kosten: 75.000 bis 110.000 US-Dollar je nach Aufteilung. Dies ist die Architektur, die die meisten Kostenanalysen empfehlen.

DACH-spezifische Faktoren

Energiekosten. Deutschlands gewerbliche Strompreise gehören zu den höchsten in Europa, laut der CNBC-Analyse 2026 zur europäischen KI-Energieökonomie. Eine einzelne H100 mit 700W Dauerlast verbraucht etwa 6.130 kWh jährlich. Bei 0,22 Euro pro kWh sind das 1.350 Euro pro Jahr pro GPU — bescheiden für eine einzelne Karte, aber signifikant bei Skalierung. Ein 8-GPU-Setup kostet allein 10.800 Euro jährlich an Strom. Im Vergleich zahlen US-Rechenzentrumsbetreiber etwa die Hälfte.

Das Energieeffizienzgesetz. Unter Deutschlands EnEfG müssen Rechenzentren seit 2024 50 Prozent Strom aus erneuerbaren Quellen beziehen und ab Januar 2027 100 Prozent. Für On-Premise-GPU-Installationen bedeutet dies entweder den Abschluss von Ökostromverträgen (die in Deutschland einen Aufschlag von 10 bis 20 Prozent haben) oder den Kauf von Herkunftsnachweisen für erneuerbare Energien. Das erhöht sowohl Kosten als auch Beschaffungskomplexität.

Abschreibung nach HGB. Nach den deutschen handelsrechtlichen Vorschriften (HGB) wird Computerhardware typischerweise über 3 Jahre (linear) abgeschrieben. GPU-Hardware, die für KI-Infrastruktur angeschafft wird, folgt demselben Schema. Dies bietet einen steuerlichen Vorteil beim On-Premise-Kauf — die vollen Kosten sind über 36 Monate abzusetzen. Cloud-GPU-Kosten sind sofort als Betriebsausgaben absetzbar. Die Wahl zwischen CapEx und OpEx hängt von der Finanzsituation und steuerlichen Position des Unternehmens ab.

Rechenzentrumskapazität. Frankfurt ist Europas größter Rechenzentrumsmarkt und einer der am stärksten ausgelasteten. Stellplatzkosten liegen bei 150 bis 300 Euro pro kW pro Monat in Frankfurter Colocation-Einrichtungen, mit zunehmender Verknappung. Unternehmen außerhalb Frankfurts stehen vor längeren Vorlaufzeiten für Colocation. München, Berlin und Hamburg bieten Alternativen, jedoch mit weniger Konnektivitätsinfrastruktur.

Das Entscheidungsframework

On-Premise kaufen, wenn: das Volumen dauerhaft 200 Millionen Token pro Tag übersteigt, Ihr Team mindestens 2 ML-Infrastruktur-Ingenieure umfasst, vorhandene Rechenzentrumsfläche mit ausreichender Strom- und Kühlungskapazität vorhanden ist und der Drei-Jahres-Planungshorizont stabil genug ist, um die Kapitalinvestition zu rechtfertigen.

Cloud-GPU nutzen, wenn: das Volumen unter 50 Millionen Token pro Tag liegt, die Workloads ungleichmäßig oder unvorhersehbar sind, Flexibilität beim Wechsel der GPU-Generation bei neuen Hardware-Releases benötigt wird oder dem Team die Infrastruktur-Engineering-Kompetenz fehlt.

Hybrid nutzen, wenn: stabile Produktions-Workloads vorhanden sind, die reservierte Kapazität rechtfertigen, plus Entwicklungs- und Experimentier-Workloads, die von Cloud-Flexibilität profitieren. Dies trifft auf die Mehrheit der Mittelstandsunternehmen mit mehr als 5 KI-Workflows zu.

Buchen Sie einen Fit Call, um Ihre GPU-Infrastruktur-Ökonomie zu modellieren. Wir berechnen die Gesamtbetriebskosten für Ihre spezifischen Workloads, Volumina und DACH-Rahmenbedingungen — einschließlich Energie-, Abschreibungs- und Regulierungsfaktoren, die generische Rechner nicht berücksichtigen. Fit Call buchen →


Referenzen: IntuitionLabs, „NVIDIA AI GPU Prices: H100 & H200 Cost Guide," 2026; Spheron, „GPU Cloud Pricing 2026"; GetDeploying, „H100 Cloud Pricing: Compare 43+ Providers," 2026; GMI Cloud, „NVIDIA H100 GPU Pricing 2026: Rent vs. Buy Cost Analysis"; CNBC, „High Energy Prices Could Derail Europe's AI Race," Mai 2026; Energieeffizienzgesetz (EnEfG), 2023; TechPolicy.Press, „Germany's Data Centre Boom Is Pushing the Power Grid to Its Limits," 2026.