KI-Inference in der Cloud: GPU-Kosten

27 März 2026

9 Min. Lesezeit

Eine NVIDIA H100 kostet bei AWS 3,90 US-Dollar pro Stunde. Bei Azure 6,98 US-Dollar. Bei spezialisierten Anbietern ab 1,49 US-Dollar. Für ein mittleres KI-Modell mit 10 Inference-Requests pro Sekunde summiert sich das auf 2.800 bis 5.000 Euro monatlich pro GPU. Bei zehn GPUs sind das 28.000 bis 50.000 Euro. Jeden Monat. KI-Inference ist der neue Kostentreiber in der Cloud und die meisten IT-Teams haben keinen Plan, wie sie ihn kontrollieren.

Das Wichtigste in Kürze

AWS H100 bei 3,90 US-Dollar pro Stunde nach 44-Prozent-Preissenkung im Juni 2025. Azure bleibt bei 6,98 US-Dollar. Spezialisierte Anbieter ab 1,49 US-Dollar (Lambda Labs, RunPod, Vast.ai).
40 bis 85 Prozent Kostenersparnis durch Neo-Cloud-Provider gegenüber Hyperscalern bei vergleichbarer GPU-Verfügbarkeit (GMI Cloud, Coreweave, Together AI).
Spot-Pricing: 60 bis 90 Prozent Rabatt, aber mit 2-Minuten-Kündigungsfrist. Geeignet für Batch-Inference und Training, nicht für latenzempfindliche Produktions-Workloads.
Inference dominiert die GPU-Nachfrage: Während Training einmalig ist, läuft Inference permanent. Bei wachsender Nutzung steigen Inference-Kosten linear, Training-Kosten nicht.
Serverless Inference als Alternative: AWS SageMaker, Google Vertex AI und Hugging Face Inference Endpoints bieten Pay-per-Request-Modelle, die bei variablen Lasten günstiger sind als dedizierte GPUs.

Warum GPU-Kosten die Cloud-Rechnung sprengen

Die meisten Cloud-Budgets wurden für CPU-basierte Workloads geplant. Eine Standard-EC2-Instanz kostet 0,10 bis 2 US-Dollar pro Stunde. Eine GPU-Instanz mit NVIDIA H100 kostet das 20- bis 70-Fache. Wenn ein Unternehmen seinen Chatbot, seine Empfehlungsengine oder seine Bildanalyse in Produktion bringt, wandert die Cloud-Rechnung in eine andere Größenordnung.

Der Kern des Problems: Training ist einmalig, Inference ist permanent. Ein LLM wird einmal trainiert (Kosten: hoch, aber begrenzt). Danach beantwortet es Anfragen rund um die Uhr. Bei 1.000 Anfragen pro Minute braucht ein mittelgroßes Modell vier bis acht GPUs permanent. Das sind 12.000 bis 40.000 Euro pro Monat, nur für Inference.

Laut Cast AI GPU Price Report 2025 machen GPU-Workloads bei KI-intensiven Unternehmen bereits 40 bis 60 Prozent der gesamten Cloud-Rechnung aus. Tendenz steigend, weil die Modelle größer und die Nutzung breiter wird.

H100 GPU Preisvergleich (On-Demand)

1,49 – 6,98 USD/h

Preisspanne für eine NVIDIA H100 je nach Anbieter

Quelle: IntuitionLabs H100 Rental Comparison, März 2026

Hyperscaler vs. Neo-Cloud: Wo GPUs wirklich günstiger sind

Der GPU-Cloud-Markt hat sich 2025/2026 fundamental verändert. Neben AWS, Azure und GCP sind spezialisierte Anbieter entstanden, die ausschließlich GPU-Compute verkaufen. Lambda Labs, Coreweave, RunPod, Together AI, Vast.ai und GMI Cloud bieten H100-Zugang zu Preisen, die 40 bis 85 Prozent unter den Hyperscalern liegen.

Die Preisdynamik im Überblick: AWS senkte im Juni 2025 den H100-Preis um 44 Prozent auf circa 3,90 US-Dollar pro Stunde (P5-Instanzen). Google Cloud liegt bei circa 3,00 US-Dollar (A3-high). Azure bleibt bei 6,98 US-Dollar, dem höchsten Preis unter den drei großen Anbietern. Spezialisierte Provider starten bei 1,49 US-Dollar (Vast.ai Spot) bis 2,10 US-Dollar (GMI Cloud On-Demand).

Für Cloud-Teams stellt sich die Frage: Warum nicht einfach den günstigsten Anbieter nehmen? Die Antwort ist komplex. Hyperscaler bieten ein integriertes Ökosystem: Managed Services, Networking, Storage, Monitoring, IAM. Bei einem Neo-Cloud-Provider bekommt man GPUs, aber die Infrastruktur drum herum muss selbst gebaut werden. Für Teams mit DevOps-Kompetenz ist das machbar. Für Teams ohne ist der Hyperscaler-Aufpreis eine Versicherung gegen Komplexität.

Fünf Strategien zur GPU-Kostenoptimierung

1. Modellkomprimierung: Kleiner, schneller, günstiger. Quantisierung (FP16 oder INT8 statt FP32) reduziert den GPU-Speicherbedarf um 50 bis 75 Prozent. Ein Modell, das auf einer H100 läuft, passt nach Quantisierung auf eine A10G, die weniger als ein Drittel kostet. Tools wie vLLM, TensorRT-LLM und GGML machen das in wenigen Stunden möglich.

2. Spot-Instanzen für Batch-Inference. Nicht jeder Inference-Workload braucht sofortige Antworten. Report-Generierung, Bild-Analyse-Batches oder nächtliche Datenverarbeitung können auf Spot-Instanzen laufen. 60 bis 90 Prozent Ersparnis gegenüber On-Demand. Die 2-Minuten-Kündigungsfrist erfordert Checkpointing, aber für Batch-Workloads ist das trivial.

3. Serverless Inference für variable Lasten. AWS SageMaker Serverless, Google Vertex AI und Hugging Face Inference Endpoints rechnen pro Request ab. Bei variablen Lasten (tagsüber hoch, nachts niedrig) ist das günstiger als eine dedizierte GPU, die nachts leer läuft. Der Break-Even liegt typischerweise bei 30 bis 50 Prozent GPU-Auslastung: Darunter ist Serverless günstiger, darüber sind dedizierte GPUs besser.

4. Multi-Provider-Strategie. Training auf dem günstigsten Anbieter (Spot bei Lambda Labs oder Vast.ai), produktive Inference auf dem zuverlässigsten (AWS oder GCP), Batch-Inference auf Spot. Diese Aufteilung erfordert Multicloud-Kompetenz, spart aber 40 bis 60 Prozent gegenüber einer Single-Provider-Strategie.

5. Reserved Instances und Savings Plans. Für vorhersagbare Workloads: AWS-Nutzer können durch 1- bis 3-Jahres-Reservierungen den effektiven H100-Preis auf 1,90 bis 2,10 US-Dollar pro Stunde senken. Das ist günstiger als die meisten Neo-Cloud-Provider, bindet aber Kapital und Flexibilität.

„Für die meisten KI-Teams liefern Neo-Cloud-Provider 40 bis 85 Prozent niedrigere GPU-Compute-Kosten als Hyperscaler bei vergleichbarer oder besserer GPU-Verfügbarkeit.“
GMI Cloud, GPU Cloud Cost Comparison 2025

DACH-Perspektive: Datenschutz und GPU-Souveränität

Für DACH-Unternehmen kommt ein weiterer Faktor hinzu: Wo stehen die GPUs physisch? DSGVO-relevante Inference-Workloads (Kundenanfragen, HR-Anwendungen, medizinische Daten) erfordern EU-basierte GPU-Infrastruktur. AWS bietet H100-Instanzen in Frankfurt (eu-central-1). Google Cloud in EU-Regionen. Azure in Westeuropa.

Bei Neo-Cloud-Providern ist die EU-Verfügbarkeit eingeschränkt. Lambda Labs betreibt Rechenzentren in den USA und UK. Vast.ai ist ein Marktplatz mit variablen Standorten. Für datenschutzkritische Workloads bleibt oft nur die Wahl zwischen einem Hyperscaler mit EU-Region oder einem europäischen Anbieter wie OVHcloud, Hetzner (GPU-Ausbau 2026) oder NIS2-konformen Spezialanbietern.

Die Kosten-Souveränitäts-Falle: EU-basierte GPUs sind 10 bis 30 Prozent teurer als US-basierte. Für Unternehmen, die sowohl Kosten als auch Datenschutz optimieren müssen, ist ein Hybrid-Modell der pragmatischste Weg: nicht-personenbezogene Workloads auf günstigen US-GPUs, personenbezogene auf EU-Infrastruktur.

Fazit

GPU-Kosten sind der blinde Fleck in den meisten Cloud-Budgets. Wer KI-Modelle in Produktion betreibt, muss die Inference-Kosten als eigene Budgetlinie behandeln, nicht als Teil der allgemeinen Cloud-Rechnung. Die gute Nachricht: Der Markt ist wettbewerbsintensiver als je zuvor. H100-Preise sind 2025 um bis zu 44 Prozent gefallen, Neo-Cloud-Provider bieten Alternativen und Serverless-Inference-Modelle senken die Einstiegshürde. Fünf Hebel machen den Unterschied: Modellkomprimierung, Spot-Instanzen, Serverless für variable Lasten, Multi-Provider-Strategie und Reserved Instances. Die Frage ist nicht ob GPU-Kosten steigen, sondern ob das Team sie kontrolliert oder von ihnen überrollt wird.

Häufige Fragen

Was kostet eine NVIDIA H100 pro Stunde?

Zwischen 1,49 US-Dollar (Vast.ai Spot) und 6,98 US-Dollar (Azure On-Demand). AWS liegt bei circa 3,90 US-Dollar nach der Preissenkung im Juni 2025. Spezialisierte Provider wie Lambda Labs oder GMI Cloud bieten On-Demand-Preise zwischen 2,10 und 2,99 US-Dollar pro Stunde.

Wann lohnt sich Serverless Inference?

Wenn die GPU-Auslastung unter 30 bis 50 Prozent liegt. Bei variablen Lasten (Chatbot mit Peaks tagsüber, Leerlauf nachts) ist Serverless günstiger als eine dauerhaft laufende GPU-Instanz. Bei konstanter hoher Last sind dedizierte GPUs wirtschaftlicher.

Sind Neo-Cloud-Provider zuverlässig genug für Produktion?

Für Training und Batch-Inference ja. Für latenzempfindliche Produktions-Inference kommt es auf den Anbieter an. Coreweave und Lambda Labs bieten Enterprise-SLAs. Vast.ai und RunPod sind eher für flexible Workloads geeignet. Grundregel: Je kritischer der Workload, desto höher der Anspruch an SLAs und Standort-Garantien.

Wie viel spart Modellkomprimierung?

Quantisierung von FP32 auf INT8 reduziert den GPU-Speicherbedarf um bis zu 75 Prozent. Ein 7B-Parameter-Modell, das auf einer H100 läuft, passt nach INT8-Quantisierung auf eine A10G (circa 1,00 bis 1,50 US-Dollar pro Stunde statt 3,90). Die Genauigkeit sinkt minimal, für die meisten Produktions-Use-Cases unmerklich.

Wo gibt es H100-GPUs in der EU?

AWS Frankfurt (eu-central-1), Google Cloud EU-Regionen und Azure Westeuropa bieten H100-Instanzen in der EU. OVHcloud und Hetzner bauen GPU-Kapazitäten in Europa aus. Die meisten Neo-Cloud-Provider haben ihre Rechenzentren in den USA. Für DSGVO-kritische Workloads ist die EU-Verfügbarkeit der wichtigste Filterfaktor bei der Anbieterwahl.