8 Min. Lesezeit
68 Milliarden Dollar Quartalsumsatz, eine Chiparchitektur mit 336 Milliarden Transistoren und ein Server-Rack das so viel Strom zieht wie 100 Einfamilienhäuser. Nvidias GTC 2026 in San Jose hat nicht nur neue Hardware gezeigt – sie hat die Koordinaten verschoben, nach denen IT-Entscheider Rechenzentren planen, Cloud-Budgets kalkulieren und Infrastruktur-Roadmaps schreiben.
Jensen Huang stand dreieinhalb Stunden auf der Bühne des SAP Center. Die zentrale Botschaft: KI-Workloads wachsen schneller als die Hardware hinterherkommt. Nvidias Antwort darauf heißt Vera Rubin – eine Plattform die Blackwell in den Schatten stellen soll. Dazu kommt der GPU-Kostendruck, der IT-Teams schon heute zwingt, jede Rechenminute zu rechtfertigen. Die Frage ist nicht mehr ob Nvidia dominiert – sondern was diese Dominanz für europäische Cloud-Strategien konkret bedeutet.
Das Wichtigste in Kürze
- Vera Rubin liefert 50 Petaflops pro Chip – das ist die fünffache Inferenz-Leistung gegenüber Blackwell. Ein NVL72-Rack erreicht 3,6 ExaFlops (Nvidia Newsroom, März 2026).
- 120 kW pro Rack erzwingen Flüssigkühlung – bestehende Rechenzentren können Blackwell-Racks ohne Umbau nicht betreiben. Luftkühlung reicht nicht mehr.
- Deutsche Telekom baut Europas größte KI-Fabrik – 10.000 Blackwell-GPUs in München, Betriebsstart Q1 2026, 50 Prozent mehr KI-Rechenkapazität für Deutschland (Telekom-Pressemitteilung).
- Groq-Deal für 20 Milliarden Dollar – Nvidia lizenziert die Inferenz-Chip-Technologie des Startups und integriert das Führungsteam (CNBC, Dezember 2025).
- AMD erreicht 80-90 Prozent CUDA-Parität – der Wettbewerb wird schärfer, aber Migration bleibt komplex. Multi-Vendor-Strategien werden zum Standard.
Vera Rubin: Fünfmal schneller als Blackwell
Die Vera-Rubin-Plattform ist Nvidias Antwort auf den exponentiell wachsenden Bedarf an KI-Inferenzleistung. Der Rubin-GPU-Chip besteht aus 336 Milliarden Transistoren – 1,6-mal mehr als beim Blackwell-Vorgänger. Er nutzt HBM4-Speicher und liefert 22 Terabyte pro Sekunde Bandbreite pro GPU.
Die Vera-CPU darunter basiert auf 88 ARM-v9.2-Kernen und kommuniziert über NVLink-C2C mit 1,8 Terabyte pro Sekunde mit dem GPU. Zusammen ergibt das ein vollintegriertes System, das 50 Petaflops im NVFP4-Inferenzmodus leistet.
Im Rack-Maßstab wird es eindrücklicher. Das Vera Rubin NVL72 – ein System aus 72 Rubin-GPUs und 36 Vera-CPUs – erreicht 3,6 ExaFlops im FP4-Modus. Zur Einordnung: Das ist mehr Rechenleistung als die schnellsten Supercomputer der Welt vor drei Jahren insgesamt aufbringen konnten.
Jensen Huang kündigte außerdem die Vera Rubin Ultra an – Codename „Kyber“ – die 2027 folgen soll. Danach steht Feynman auf der Roadmap. Der Takt ist klar: Nvidia liefert jedes Jahr eine neue Architektur, nicht alle zwei Jahre wie früher üblich.
„Die Bestellungen für Blackwell und Vera Rubin werden bis 2027 eine Billion Dollar erreichen.“
– Jensen Huang, CEO Nvidia, GTC 2026 Keynote, sinngemäss (CNBC, 16. März 2026)
Blackwell Ultra: Was jetzt schon bei den Hyperscalern läuft
Während Vera Rubin noch ein Versprechen ist, hat die Blackwell-Generation bereits die Rechenzentren erreicht. Der B300 – auch Blackwell Ultra genannt – leistet 15 Petaflops im dichten FP4-Modus und kommt mit 288 GB HBM3e-Speicher bei 1.400 Watt Thermal Design Power.
Google Cloud bietet die A4- und A4X-Instanzen mit B200 und GB200 bereits als Generally Available an. AWS hat die EC2 G7e-Instanzen mit Blackwell-GPUs in US East live – und einen Deal über mehr als eine Million Nvidia-GPUs bis 2027 unterzeichnet, bestätigt von Ian Buck, VP Hyperscale bei Nvidia (Reuters, März 2026). Microsoft Azure und Oracle Cloud haben ebenfalls Blackwell-basierte Systeme angekündigt.
Was Blackwell in der Praxis bringt: Laut Nvidia-gestützten Benchmarks von SemiAnalysis liefert das GB200 NVL72-System zehnmal mehr Tokens pro Watt als die Hopper-Generation. Das bedeutet ein Zehntel der Kosten pro Token bei Inferenz-Workloads. Der GB300 NVL72 soll noch einmal 1,5-mal effizienter werden – Infrastruktur-Teams die heute Hopper-Instanzen buchen, rechnen in zwölf Monaten mit völlig anderen Stückkosten.
Eine wichtige Einschränkung: Die Benchmark-Zahlen stammen aus Tests, die Nvidia mitfinanziert hat. Unabhängige Vergleiche in Produktionsumgebungen stehen noch aus. Die Richtung stimmt – aber die exakten Einsparungen hängen vom konkreten Workload ab.
120 Kilowatt pro Rack: Die Infrastruktur-Frage die niemand gerne stellt
Hier wird es für IT-Leiter unbequem. Ein GB200 NVL72-Rack zieht 120 bis 132 Kilowatt Dauerleistung – davon 115 kW Flüssigkühlung und 17 kW Luftkühlung in der HPE-Konfiguration. Zum Vergleich: Ein H100-Rack lag bei 10 bis 15 Kilowatt. Das ist ein Faktor 8 bis 10.
100 solcher Racks benötigen 12 Megawatt – das entspricht dem Stromverbrauch von 10.000 Haushalten. Bestehende Rechenzentren können diese Dichte nicht ohne Umbau bedienen. Flüssigkühlung wird zur Pflicht. Netzanschlüsse werden zum Engpass – für große KI-Cluster warten Betreiber teilweise drei bis fünf Jahre auf Netzkapazität.
Nvidia argumentiert mit der Effizienz pro Token: Zehnmal weniger Strom pro verarbeitetem Token als die Vorgängergeneration. Das stimmt – aber nur solange die Gesamtkapazität nicht proportional wächst. Wenn Unternehmen gleichzeitig mehr Modelle auf mehr GPUs laufen lassen, steigt der absolute Verbrauch trotzdem.
Für europäische IT-Entscheider heißt das: Wer in den nächsten zwei Jahren KI-Workloads on-premise oder in Co-Location betreiben will, muss jetzt die physische Infrastruktur klären. Stromvertrag, Kühlungskonzept, Netzanbindung – das sind die neuen Bottlenecks, nicht die GPU-Verfügbarkeit.
Deutsche Telekom: 10.000 Blackwell-GPUs in München
Die Deutsche Telekom hat gemeinsam mit Nvidia die Industrial AI Cloud angekündigt – laut Telekom-Pressemitteilung eine der größten KI-Fabriken in Europa. Standort: München. Ausgestattet mit mehr als 1.000 DGX B200-Systemen und RTX-PRO-Servern, insgesamt rund 10.000 Nvidia-Blackwell-GPUs.
Der Betriebsstart ist für Q1 2026 geplant. Wenn der Zeitplan hält, erhöht das die KI-Rechenkapazität in Deutschland um rund 50 Prozent. Die Zielgruppe sind deutsche Unternehmen, die KI-Modelle mit eigenen Daten trainieren wollen – auf europäischen Servern, unter europäischem Recht.
Das ist kein isoliertes Projekt. Nvidia hat bei GTC Paris 2025 strategische Partnerschaften mit Frankreich, Deutschland, Großbritannien, Italien und Spanien angekündigt. Geplant sind 20 KI-Fabriken in Europa, davon fünf im Gigafactory-Maßstab. Insgesamt sollen mehr als 3.000 ExaFlops Nvidia-Blackwell-Rechenleistung für europäische Sovereign-AI-Initiativen bereitstehen.
Für IT-Teams im DACH-Raum wird das konkret: Wer bisher GPU-Kapazität bei US-Hyperscalern gebucht hat und sich um Datensouveränität sorgt, bekommt mit der Telekom-Cloud eine Alternative, die DSGVO- und EU-AI-Act-konform sein soll. Die Frage ist, ob Preis und Verfügbarkeit mit AWS und Google mithalten können.
DGX Spark: Der KI-Rechner für 4.699 Dollar
Neben den Rack-Systemen hat Nvidia zwei Desktop-Produkte vorgestellt, die KI-Infrastruktur vom Rechenzentrum auf den Schreibtisch bringen sollen.
Der DGX Spark kostet 4.699 Dollar und basiert auf dem GB10 Grace Blackwell Superchip. Er bietet 128 GB Unified Memory, erreicht einen Petaflop im FP4-Modus und kann Modelle mit bis zu 200 Milliarden Parametern lokal ausführen. Bis zu vier Spark-Einheiten lassen sich zu einem Desktop-Cluster zusammenschalten.
Die DGX Station geht weiter: GB300-Chip, 784 GB kohärenter Speicher, 20 Petaflops FP4. Damit laufen Modelle mit einer Billion Parametern lokal – ohne Cloud-Anbindung. Hersteller wie Dell, HP und MSI werden die Station ab Frühjahr 2026 anbieten.
Für wen ist das relevant? Für Unternehmen, die sensible Daten nicht in die Cloud geben können oder wollen. Forschungsteams, Sicherheitsabteilungen, Compliance-getriebene Branchen. Der DGX Spark macht lokale KI-Inferenz zu einem Investment das in ein Bürobudget passt – nicht in einen Investitionsplan.
Jensen Huang hat bei der GTC explizit den Vergleich gezogen: Ein DGX Spark für 4.699 Dollar ersetze für viele Use Cases einen Cloud-Vertrag über mehrere tausend Dollar im Monat. Das ist eine Rechnung die im Mittelstand funktioniert – vor allem für Teams die regelmäßig mit großen Sprachmodellen arbeiten und die Latenz einer Cloud-Anbindung nicht akzeptieren wollen. Gleichzeitig bleibt die Frage der Wartung: Wer betreibt den lokalen KI-Rechner, wer aktualisiert die Modelle, wer überwacht die Auslastung? Das ist Infrastruktur-Arbeit die bisher in der Cloud-Rechnung verschwand.
Groq-Deal: 20 Milliarden Dollar für Inferenz-Chips
Im Dezember 2025 hat Nvidia den größten Deal seiner Geschichte abgeschlossen: Für rund 20 Milliarden Dollar lizenziert das Unternehmen die Technologie des Startups Groq und übernimmt dessen Führungsteam. Wichtig: Nvidia kauft nicht Groq als Unternehmen – es ist ein IP- und Talent-Deal. Groq existiert weiter, unter neuem CEO Simon Edwards.
Groqs Language Processing Units (LPUs) sind Chips die speziell für KI-Inferenz optimiert sind. Sie verarbeiten Tokens signifikant schneller als GPUs – ein Bereich, in dem Nvidias Marktanteil mit 60 bis 75 Prozent deutlich niedriger liegt als beim Training (über 90 Prozent).
Jensen Huang formulierte es direkt: „While we are adding talented employees to our ranks and licensing Groq’s IP, we are not acquiring Groq as a company.“ Die bei GTC 2026 vorgestellte Groq-3-LPU zeigt die Richtung: Nvidia will den Inferenz-Markt nicht nur mit GPUs bedienen, sondern mit spezialisierten Beschleunigern ergänzen.
CUDA vs. ROCm: Wird der Wettbewerb schärfer?
Nvidia hält rund 80 Prozent des Marktes für KI-Beschleuniger. Der Burggraben ist nicht die Hardware – es ist CUDA. Das Software-Ökosystem existiert seit 17 Jahren und hat über vier Millionen registrierte Entwickler.
Aber AMD holt auf. Der MI300X bietet 192 GB HBM3-Speicher – 2,4-mal mehr als die H100 – bei 30 bis 50 Prozent niedrigerem Preis. ROCm 7 erreicht nach Einschätzung von SemiAnalysis 80 bis 90 Prozent CUDA-Parität. Der MI350 soll in der zweiten Jahreshälfte 2025 folgen und die 35-fache Inferenzleistung der MI300-Serie liefern.
Die Realität in Unternehmen: Eine vollständige Migration weg von CUDA findet kaum statt. Was stattfindet, sind Multi-Vendor-Strategien. AMD-GPUs für kostenoptimierte Inferenz, Nvidia für Training und komplexe Workloads. Wer heute eine Cloud-Infrastruktur plant, sollte beide Optionen evaluieren – nicht aus Idealismus, sondern aus Kostenkalkül.
„Jedes SaaS-Unternehmen wird zu einem Agent-as-a-Service-Unternehmen.“
– Jensen Huang, GTC 2026 Keynote, sinngemäss (TechRadar/MSN Liveblog, 16. März 2026)
China-Exportstreit: Die geopolitische Dimension
Parallel zur technischen Offensive läuft in Washington ein politisches Tauziehen um Nvidia-Chip-Exporte nach China. Die Kurzversion: Die Trump-Administration hat H200-Verkäufe an genehmigte chinesische Kunden unter Auflagen erlaubt – maximal 50 Prozent des US-Inlandsvolumens, verifiziert durch ein US-gesteuertes Drittlabor.
Dagegen stemmt sich der US-Senat. Die Senatoren Elizabeth Warren und Jim Banks haben einen überparteilichen Gesetzentwurf eingebracht, der die Suspension aller Nvidia-Exportlizenzen nach China fordert. Das House Foreign Affairs Committee arbeitet an einem Gesetz mit 30-Tage-Review-Fenster und einem zweijährigen Blackwell-Exportverbot.
Für europäische Cloud-Strategien ist das relevant: Wenn China als Markt wegbricht oder eingeschränkt wird, verschiebt sich Nvidias Fokus stärker auf westliche Märkte und insbesondere Europa. Die Sovereign-AI-Initiativen und die Telekom-Partnerschaft sind auch vor diesem Hintergrund zu lesen.
Marktprognose: 2,5 Billionen Dollar KI-Ausgaben in 2026
Die Zahlen von Gartner ordnen ein, was die GTC-Ankündigungen im Gesamtbild bedeuten. Die weltweiten KI-Ausgaben sollen 2026 bei 2,52 Billionen Dollar liegen – ein Plus von 44 Prozent gegenüber 2025. Mehr als die Hälfte davon fließt in Infrastruktur: rund 1,37 Billionen Dollar für Server, Netzwerke, Kühlung und Stromversorgung (Gartner, Januar 2026).
Besonders auffällig: KI-optimierte Infrastructure-as-a-Service – also Cloud-GPU-Kapazität – soll sich von 18,3 Milliarden Dollar in 2025 auf 37,5 Milliarden Dollar in 2026 verdoppeln. Das entspricht einem Wachstum von 105 Prozent. Kein anderes Cloud-Segment wächst annähernd so schnell.
Gleichzeitig stuft Gartner KI für 2026 im „Trough of Disillusionment“ ein – der Phase im Hype Cycle, in der Pilotprojekte an der Realität scheitern und Unternehmen praktische ROI-Nachweise verlangen statt Vision-Decks. Das heißt: Die Investitionen steigen weiter, aber die Ansprüche an messbare Ergebnisse steigen mit. Für IT-Budgetverantwortliche ist das eine gute Nachricht – denn wer jetzt in GPU-Infrastruktur investiert, wird an konkreten Business Cases gemessen, nicht an Hype.
Nvidias Q4-Quartalsbericht untermauert den Trend: 68,1 Milliarden Dollar Umsatz, davon 62,3 Milliarden im Datacenter-Segment – ein Plus von 75 Prozent gegenüber dem Vorjahr. Für Q1 des Fiskaljahres 2027 prognostiziert Nvidia 78 Milliarden Dollar. Das Unternehmen ist auf dem Weg, die erste Firma zu werden, die ausschließlich mit Datacenter-Hardware einen Jahresumsatz von 300 Milliarden Dollar erzielt (Nvidia Earnings, Februar 2026).
Was IT-Entscheider jetzt tun sollten
Die GTC 2026 hat eine klare Botschaft: KI-Infrastruktur wird leistungsfähiger, energieintensiver und teurer in der physischen Grundlage – aber günstiger pro verarbeitetem Token. Für IT-Teams ergeben sich daraus konkrete Handlungsfelder.
Erstens: Energieplanung vorziehen. Wer in den nächsten 18 Monaten Blackwell- oder Rubin-Hardware on-premise betreiben will, braucht Flüssigkühlung und Stromversorgung jenseits von 100 kW pro Rack. Das ist ein Infrastrukturprojekt, kein Beschaffungsvorgang.
Zweitens: Multi-Vendor evaluieren. AMD MI300X und MI350 sind keine Spielerei mehr. Für Inferenz-Workloads mit klar definierten Modellen kann ROCm 7 funktionieren – bei 30 bis 50 Prozent Preisvorteil. Die Empfehlung: Pilotprojekt mit AMD parallel zum Nvidia-Stack aufsetzen.
Drittens: Sovereign-Cloud-Optionen prüfen. Die Deutsche Telekom Industrial AI Cloud und ähnliche europäische Angebote machen lokale KI-Verarbeitung für Compliance-getriebene Branchen erstmals wirtschaftlich darstellbar. Vergleichsangebote einholen, bevor der nächste Cloud-Vertrag unterschrieben wird.
Viertens: FinOps um GPU-Kosten erweitern. GPU-Instanzen machen bei KI-Workloads oft 70 bis 80 Prozent der Cloud-Rechnung aus. Wer das nicht separat trackt und optimiert, übersieht den größten Kostenblock.
Häufige Fragen
Was ist der Unterschied zwischen Blackwell und Vera Rubin?
Blackwell ist die aktuelle GPU-Generation von Nvidia, die seit 2025 bei Hyperscalern verfügbar ist. Vera Rubin ist die Nachfolgeplattform mit 336 Milliarden Transistoren, HBM4-Speicher und fünffacher Inferenzleistung. Vera Rubin soll in der zweiten Hälfte 2026 verfügbar werden.
Wie viel kostet ein GB200 NVL72-System?
Nvidia nennt keinen offiziellen Listenpreis. Cloud-Anbieter wie Corvex bieten GB200 NVL72-Kapazität ab rund 4,49 Dollar pro Stunde an. Ein komplettes On-Premise-System wird im mittleren einstelligen Millionenbereich geschätzt.
Brauche ich Flüssigkühlung für Blackwell-GPUs?
Ja. Ein GB200 NVL72-Rack zieht 120 bis 132 Kilowatt. Reine Luftkühlung reicht für diese Leistungsdichte nicht aus. Wer Blackwell on-premise betreiben will, muss in Flüssigkühlungsinfrastruktur investieren.
Ist AMD MI300X eine echte Alternative zu Nvidia?
Für bestimmte Inferenz-Workloads ja. AMD bietet 192 GB HBM3-Speicher bei 30 bis 50 Prozent niedrigerem Preis. ROCm 7 erreicht 80 bis 90 Prozent CUDA-Parität. Für Training komplexer Modelle bleibt Nvidia vorerst die erste Wahl.
Was ist Nvidias Groq-Deal?
Nvidia hat für rund 20 Milliarden Dollar die Technologie und das Führungsteam des Inferenz-Chip-Startups Groq lizenziert. Groq existiert als unabhängiges Unternehmen weiter. Der Deal stärkt Nvidias Position bei spezialisierten Inferenz-Beschleunigern.
Was bringt die Deutsche Telekom Industrial AI Cloud?
Die Telekom betreibt in München rund 10.000 Nvidia-Blackwell-GPUs als Cloud-Service. Die Plattform richtet sich an deutsche Unternehmen, die KI-Modelle DSGVO-konform auf europäischen Servern trainieren wollen, ohne Daten an US-Hyperscaler zu geben.
Wann kommt Vera Rubin auf den Markt?
Nvidia hat angekündigt, dass Rubin-basierte Systeme in der zweiten Hälfte 2026 bei den großen Cloud-Anbietern verfügbar sein sollen. Die Ultra-Variante Kyber ist für 2027 geplant.
Lesetipps der Redaktion
Mehr aus dem MBF Media Netzwerk
Quelle Titelbild: Pexels / Tara Winstead (px:8386440)