22 Mai 2026

8 Min. Lesezeit

AWS und Nvidia haben am 21. Mai eine Erweiterung ihrer Partnerschaft angekündigt: Mehr als eine Million Blackwell- und Rubin-GPUs sollen ab 2026 in den AWS-Regionen verfügbar werden. Microsoft baut parallel Vera-Rubin-NVL72-Racks für die nächste Fairwater-Generation. Das ändert, was Platform-Teams in den nächsten zwölf Monaten budgetieren müssen.

Das Wichtigste in Kürze

  • Eine Million GPUs sind Verfügbarkeit, kein Schnäppchen: Mehr Hardware-Backbone reduziert Spot-Engpässe und Region-Lottery, aber die On-Demand-Preise für Blackwell und Rubin liegen 2026 weiter im Premium-Segment. Wer ohne Reserved- oder Capacity-Block-Strategie plant, zahlt für die Welle drauf.
  • Vera Rubin NVL72 schiebt Multi-Cloud-Hardware enger zusammen: Microsoft für Fairwater, AWS für eigene Regionen, Google Cloud und OCI laut Nvidia ebenfalls. Lambda, Crusoe, CoreWeave und Nebius sind ab dem ersten Quartal mit dabei. Multi-Cloud-Architekturen können sich erstmals an einer einheitlichen Hardware-Generation orientieren statt an drei.
  • Inferenz, nicht Training, bleibt der teure Block: Die FinOps Foundation verortet 80 bis 90 Prozent der KI-Ausgaben in der Inferenz. Die neuen Karten verschieben die Performance-Kennzahl, nicht das Kostenproblem. Das liegt in Auslastung, Routing und Modellwahl.

VerwandtFinOps für KI-Inferenz  /  Platform Engineering wird Produktionspfad

Was AWS und Nvidia konkret zugesagt haben

Im Kern der Ankündigung vom 21. Mai stehen drei Punkte. Erstens: AWS will bis 2026 mehr als eine Million Nvidia-GPUs der Blackwell- und Rubin-Generation in die eigenen Regionen bringen. Das ist keine reine Vorab-Bestellung, sondern eine Verfügbarkeitszusage gegenüber den größeren AWS-Kunden, die ihre Inferenz-Workloads bislang regelmäßig an die Wand der Capacity-Limits geschoben haben.

Zweitens: Amazon EC2 bekommt als erste große Cloud die Nvidia RTX PRO 4500 Blackwell Server Edition. Das ist die Inferenz-Variante unterhalb der H100/H200- und kommenden GB200-Klasse. Weniger absolute Leistung, aber deutlich besseres Verhältnis aus Throughput und Preis pro Token. Genau die Karte, die für Production-Inferenz mit großen Modellen heute oft im Engpass steht.

Drittens: Vera Rubin NVL72 ist als Rack-Scale-System bestätigt. Microsoft hat die Integration in die nächsten Fairwater-Standorte zugesagt, AWS, Google Cloud und Oracle Cloud sind als erste Cloud-Partner gelistet. Dazu kommen die spezialisierten KI-Cloud-Provider: CoreWeave, Lambda, Nebius und Nscale. Sie greifen die Hyperscaler nicht mehr nur über Spot-Preise an, sondern über Hardware-Parity zur gleichen Welle.

Vera Rubin verschiebt die Multi-Cloud-Hardware-Logik

Bislang war Multi-Cloud für KI-Workloads ein Kompromiss aus drei sehr unterschiedlichen Hardware-Generationen. AWS Trainium und Inferentia in einer Welt, Google TPUs in einer anderen, Microsoft mit Mix aus Nvidia und eigenen Maia-Beschleunigern. Wer Modelle über mehrere Clouds verteilte, betrieb faktisch drei Tuning-Strecken parallel, eine für jede Compiler-Toolchain und Quantisierung.

Mit der Vera-Rubin-Welle wird das für einen Teil der Workloads einfacher. Drei der vier großen Public Clouds rollen die gleiche Nvidia-Generation aus. Gleiche CUDA-Version, gleiche TensorRT-LLM-Pipelines, gleiche NCCL-Topologie auf NVL72-Rack-Niveau. Die Plattform-Teams, die seit zwei Jahren an Cloud-übergreifenden Inferenz-Pipelines arbeiten, bekommen damit erstmals einen konsistenten Hardware-Layer.

Das bedeutet nicht, dass Multi-Cloud-KI plötzlich trivial wird. Latenz zwischen Regionen, Daten-Souveränität und Egress-Kosten bleiben dieselben Schmerzen. Aber das Argument, man könne ohnehin nicht migrieren weil die Hardware-Profile zu unterschiedlich seien, verliert Substanz.

Was die Hardware-Welle in Zahlen verspricht und was nicht

Die FinOps Foundation hat in ihrem State-of-FinOps-2026-Report nachgereicht, was Praktiker seit Monaten wissen: 73 Prozent der befragten Organisationen melden über Budget liegende KI-Kosten, der durchschnittliche Enterprise-AI-Etat ist von 1,2 Millionen US-Dollar im Jahr 2024 auf rund 7 Millionen in 2026 gewachsen. 98 Prozent der FinOps-Teams steuern aktiv KI-Spend, vor zwei Jahren waren es 31 Prozent.

Die neue Hardware-Welle adressiert davon einen Teil. Trillium bringt laut Google bis zu 1,4-fach höhere Inferenz-Leistung pro Dollar gegenüber der Vorgängergeneration. Rubin und Blackwell Ultra sind in der gleichen Liga unterwegs. Aber: Diese Effizienzgewinne verpuffen, wenn die GPU-Auslastung im Produktivbetrieb weiter bei 15 bis 30 Prozent liegt, was die Foundation als typischen Wert nennt. Schnellere Karten in halbleerem Zustand sind teurer, nicht billiger.

Der zweite blinde Fleck sind die Lieferzeiten. Eine Million GPUs über das laufende Jahr verteilt klingt nach Überfluss, ist aber bei den aktuellen Wachstumsraten in Inferenz-Workloads schon ohne neue große Generative-Use-Cases knapp.

Drei Konsequenzen vor dem nächsten Inferenz-Commit

  1. Capacity Blocks und Reserved Instances neu durchrechnen. Wer den Sprung auf Blackwell oder Rubin plant, sollte die kommenden zwölf Monate nicht über On-Demand abdecken. Die Spot-Verfügbarkeit wird sich kurzfristig verbessern, der On-Demand-Tarif bleibt das teuerste Format. AWS Capacity Blocks und Nvidia DGX Cloud Lepton sind die zwei Wege, die sich in Praxiskunden gerade durchsetzen.
  2. Inferenz-Routing zwischen Clouds bauen, nicht nur planen. Mit konsistenter Hardware-Generation lohnt sich die Investition in einen Router, der nach Latenz, Preis und Auslastung zwischen AWS, Google und Microsoft entscheidet. Tools wie LiteLLM, vLLM Production Stack oder Bedrock Cross-Region Inference sind dafür in den letzten Monaten reifer geworden.
  3. Modellauswahl als FinOps-Hebel ernst nehmen. Die Foundation listet Modellgröße und Quantisierung weiter als wichtigsten Kostenhebel, vor Hardware-Generation. Ein gut quantisiertes 70B-Modell auf RTX PRO 4500 kann pro Token günstiger sein als ein nicht optimiertes 70B-Modell auf H100. Die Hardware-Welle macht diese Entscheidung wichtiger, nicht egal.

Häufige Fragen

Heißt eine Million GPUs, dass die Engpässe 2026 verschwinden?

Nicht automatisch. Die Zahl gilt für die gesamte AWS-Hyperscale-Flotte über das Jahr verteilt. Welche Region wann welche Generation bekommt, ist nicht öffentlich. Wer kritische Workloads plant, sollte das über Capacity Blocks oder Reserved-Verträge absichern, sonst landet er weiter im Lottery-Modus.

Lohnt sich der Wechsel von H100 auf Blackwell für Inferenz heute schon?

Für reine Inferenz mit großen Modellen meistens ja, für mittelgroße Modelle nicht zwingend. Der Sprung in Tokens pro Sekunde ist bei sehr großen Kontexten signifikant, bei kleineren Workloads dagegen oft kein Argument. Ein Benchmark mit der konkreten Anwendung gehört vor jede Migration, die Pauschalisierung neu-ist-besser trifft hier seltener als die Folien suggerieren.

Was bedeutet die Welle für DACH-Souveränitätsprojekte?

Die europäischen Anbieter, OVHcloud, IONOS, Open Telekom Cloud, plusserver, werden die Vera-Rubin-Hardware später und in geringerem Volumen bekommen als die großen Hyperscaler. Wer Inferenz-Workloads aus regulatorischen Gründen in EU-Sovereign-Umgebungen halten muss, sollte die Roadmaps frühzeitig abklopfen und Hybrid-Strategien einplanen, bei denen Training in EU-Sovereign und Inferenz in Public Cloud sauber getrennt sind.

Welche Rolle spielen die Neoclouds wie Lambda, CoreWeave und Crusoe?

Sie sind die Wildcard. Mit gleicher Hardware-Generation, deutlich aggressiverem Preisniveau und weniger Bindungs-Überbau sind sie 2026 für reine Inferenz-Workloads ohne Daten-Souveränitäts-Argument ein ernster Kandidat. In der Praxis sehen wir Multi-Provider-Setups, in denen ein Hyperscaler den regulatorisch heiklen Teil trägt und ein Neocloud den Skalierungs-Burst.

Was passiert mit den eigenen Beschleunigern: Trainium, TPU, Maia?

Sie verschwinden nicht. AWS Trainium 2 und Google TPU v7 bleiben im Portfolio, gerade für Training kosten sie pro Token nachhaltig weniger als Nvidia-Equivalente. Aber im Inferenz-Mainstream wird Nvidia mit der Vera-Rubin-Generation über alle Clouds präsent. Eine vorschnelle Festlegung auf einen einzelnen Beschleuniger ist 2026 das größere Risiko als die Multi-Vendor-Komplexität.

Mehr aus dem MBF Media Netzwerk

Bildquelle: KI-generiert (Mai 2026), C2PA-Zertifikat hinterlegt.

Auch verfügbar in

Ein Magazin der Evernine Media GmbH