16 Oktober 2025

3 Min. Lesezeit

Das Wichtigste in Kürze

  • GPU-Instanzen für KI-Training kosten 2-32 USD/Stunde – je nach GPU-Typ und Provider.
  • Spot/Preemptible GPUs reduzieren Trainingskosten um 60-90% bei tolerierter Unterbrechung.
  • A100 und H100 GPUs sind chronisch knapp – Wartezeiten von Wochen sind bei Hyperscalern üblich.
  • GPU-Cloud-Anbieter (Lambda, CoreWeave, RunPod) bieten günstigere Alternativen zu Hyperscalern.
  • Modell-Distillation und Quantisierung senken Inferenz-Kosten um bis zu 80%.

KI in der Cloud ist teuer. Eine H100-GPU-Instanz bei AWS kostet über 30 USD pro Stunde. Ein einziges Fine-Tuning-Experiment kann tausende Euro verschlingen. Für Unternehmen, die KI-Workloads produktiv betreiben, sind GPU-Kosten schnell der größte Posten auf der Cloud-Rechnung. Wer die Kostenstruktur versteht, kann signifikant optimieren.

Die GPU-Kostenlandschaft 2025

Die Preise für Cloud-GPUs variieren erheblich nach GPU-Typ, Provider und Verfügbarkeit. NVIDIA A100 (40GB): 2-4 USD/Stunde bei Hyperscalern, 1-2 USD bei spezialisierten Anbietern. NVIDIA H100 (80GB): 4-8 USD/Stunde bei spezialisierten Anbietern, bei Hyperscalern oft nur über Reserved Instances verfügbar.

Für Training großer Modelle braucht man nicht eine GPU, sondern 8, 64 oder 256 – parallel. Die Kosten skalieren linear: 8x H100 für eine Woche Training kosten schnell 15.000-30.000 Euro. Fine-Tuning eines LLM liegt bei 500-5.000 Euro pro Experiment, je nach Modellgröße und Datenmenge.

KENNZAHL
90%
bei tolerierter Unterbrechung. A100 und H100 GPUs sind ch
KENNZAHL
80%
KI in der Cloud ist teuer. Eine H100-GPU-Instanz
KENNZAHL
10%
der Kosten liefert. OpenAI Distillation API und Open-Source

Spot-GPUs: Das beste Preis-Leistungs-Verhältnis

AWS Spot Instances, GCP Preemptible VMs und Azure Spot VMs bieten GPUs mit 60-90% Rabatt – mit dem Risiko, dass die Instanz mit kurzer Vorlaufzeit terminiert wird. Für ML-Training ist das akzeptabel: Checkpointing speichert den Trainingsfortschritt alle N Minuten. Bei Terminierung wird das Training vom letzten Checkpoint fortgesetzt.

Die Herausforderung: GPU-Spot-Kapazität ist knapp. Insbesondere H100-Spot-Instanzen sind selten verfügbar. Strategien: Flexible Regionen (Training dort, wo Spot-Kapazität verfügbar ist), flexible GPU-Typen (A100 statt H100 wenn möglich), Off-Peak-Zeiten nutzen (Wochenende, US-Nachtzeiten).

Alternative GPU-Cloud-Provider

Neben AWS, Azure und GCP haben sich spezialisierte GPU-Cloud-Anbieter etabliert: Lambda Cloud bietet H100-Cluster zu deutlich niedrigeren Preisen als Hyperscaler. CoreWeave ist auf GPU-Workloads spezialisiert und bietet Kubernetes-native GPU-Orchestrierung. RunPod bietet Serverless GPUs für Inferenz mit Pay-per-Second.

Die Trade-offs: Spezialisierte Anbieter haben weniger Services (kein S3, kein RDS), geringere Redundanz und weniger Enterprise-Features (Compliance-Zertifizierungen, SLAs). Für reine Training-Workloads, bei denen Daten sowieso vom Primary Cloud Provider transferiert werden, ist das akzeptabel.

Inferenz-Kosten optimieren

Training ist einmalig, Inferenz läuft 24/7 – und wird damit schnell teurer. Optimierungsstrategien:

Quantisierung: Modelle von FP32 auf INT8 oder INT4 reduzieren. Inferenz wird 2-4x schneller bei minimalem Qualitätsverlust. GPTQ, AWQ und bitsandbytes machen Quantisierung zugänglich.

Modell-Distillation: Ein großes Modell trainiert ein kleineres, das 80% der Qualität bei 10% der Kosten liefert. OpenAI Distillation API und Open-Source-Frameworks wie TRL vereinfachen den Prozess.

Batching: Mehrere Inferenz-Requests werden gebündelt und in einem Forward Pass verarbeitet. Dynamic Batching mit vLLM oder TensorRT-LLM kann den Throughput um 5-10x steigern.

Caching: Identische oder ähnliche Prompts aus einem Cache bedienen statt die GPU zu bemühen. Semantic Caching reduziert GPU-Kosten bei repetitiven Workloads um 30-60%.

Die Make-or-Buy-Frage: Eigene GPUs vs. Cloud

Ab einem konstanten GPU-Bedarf von 8+ GPUs rund um die Uhr lohnt sich die Kalkulation eigener Hardware. Ein NVIDIA DGX H100-System (8x H100) kostet ca. 300.000 Euro. Die Cloud-Äquivalenz bei AWS liegt bei 175.000+ Euro pro Jahr. Amortisation: unter 2 Jahren.

Die Realität: Die meisten Unternehmen haben keinen konstanten 24/7-GPU-Bedarf. Training ist burst-artig, Inferenz-Last variiert. Der optimale Ansatz: Eigene GPUs für die Baseline-Inferenz, Cloud-GPUs für Training-Bursts und Lastspitzen. Hybrid-GPU-Infrastruktur – analog zum Hybrid-Cloud-Ansatz für allgemeine Compute.

Weiterlesen auf cloudmagazin.com

Mehr zum Thema: Weitere Artikel auf mybusinessfuture

Häufige Fragen

Was kostet es, ein LLM zu fine-tunen?

Abhängig von Modellgröße und Datenmenge: Ein 7B-Parameter-Modell (Llama, Mistral) fine-tunen kostet 100-500 Euro auf Spot-GPUs. Ein 70B-Modell liegt bei 2.000-10.000 Euro. Techniken wie LoRA und QLoRA reduzieren die Kosten um 80-90% gegenüber Full Fine-Tuning.

Sind NVIDIA-GPUs die einzige Option?

Nein, aber die dominante. AMD Instinct MI300X ist eine ernsthafte Alternative mit kompetitiver Performance und oft besserer Verfügbarkeit. Google TPU v5e ist für Training und Inferenz konkurrenzfähig und bei GCP nativ verfügbar. Intel Gaudi 2 positioniert sich im Midrange-Segment.

Wie vergleicht man GPU-Cloud-Preise fair?

Nicht nach Stundensatz, sondern nach Performance pro Euro: Tokens/Sekunde pro Euro für Inferenz, Training-Time pro Euro für Training. Ein billigerer GPU-Typ, der doppelt so lange braucht, ist nicht günstiger. Tools wie gpubenchmarks.com und ml-energy.github.io ermöglichen faire Vergleiche.

Was ist vLLM und warum ist es wichtig?

vLLM ist eine Open-Source-Inference-Engine, die PagedAttention nutzt – eine Technik, die GPU-Memory effizienter verwaltet. Das Ergebnis: 2-4x höherer Throughput als naive Implementierungen. Für produktive LLM-Inferenz ist vLLM oder TensorRT-LLM State of the Art.

Lohnt sich eigene GPU-Hardware für Startups?

Fast nie. Startups brauchen Flexibilität: schnell hoch- und runterskalieren, verschiedene GPU-Typen testen, keine Kapitalbindung. Cloud-GPUs (insbesondere Spot) sind für Startups die richtige Wahl. Eigene Hardware lohnt sich erst bei stabilem, hohem Bedarf – typischerweise ab Series B/C.

Quelle des Titelbildes: Pexels / Nana Dua

Mehr aus dem MBF Media Netzwerk

SecurityToday | MyBusinessFuture | Digital Chiefs

Auch verfügbar in

Ein Magazin der Evernine Media GmbH