ActualitésCentres de données

Nvidia GTC : Vera Rubin, Groq et racks 120kW pour infrastructures

Par Alec Chizhik 24 mars 2026 13 min de lecture

Un chiffre d’affaires trimestriel de 68 milliards de dollars, une architecture de puces comptant 336 milliards de transistors et un rack serveur consommant autant d’électricité que 100 maisons individuelles. La conférence Nvidia GTC 2026 à San Jose n’a pas seulement présenté du nouveau matériel – elle a déplacé les repères selon lesquels les décideurs IT planifient leurs centres de données, calculent leurs budgets cloud et rédigent leurs feuilles de route infrastructurelles.

Jensen Huang est resté sur scène du SAP Center pendant trois heures et demie. Le message central était clair : la charge de travail liée à l’IA augmente plus vite que le matériel ne parvient à suivre. La réponse de Nvidia s’appelle Vera Rubin – une plateforme destinée à éclipser Blackwell. À cela s’ajoute la pression sur les coûts des GPU, qui contraint déjà aujourd’hui les équipes IT à justifier chaque minute de calcul. La question n’est plus de savoir si Nvidia domine – mais ce que cette domination implique concrètement pour les stratégies cloud européennes.

L’essentiel

Vera Rubin délivre 50 pétaflops par puce – soit une puissance d’inférence cinq fois supérieure à celle de Blackwell. Un rack NVL72 atteint 3,6 exaflops (Nvidia Newsroom, mars 2026).
Une consommation de 120 kW par rack impose le refroidissement liquide – les centres de données existants ne peuvent pas exploiter les racks Blackwell sans rénovation majeure. Le refroidissement par air ne suffit plus.
Deutsche Telekom construit la plus grande « usine IA » d’Europe – 10 000 GPU Blackwell à Munich, mise en service prévue au premier trimestre 2026, augmentant ainsi de 50 % la capacité de calcul IA en Allemagne (communiqué de presse Deutsche Telekom).
Accord Groq pour 20 milliards de dollars – Nvidia licence la technologie de puces d’inférence de la startup et intègre son équipe dirigeante (CNBC, décembre 2025).
AMD atteint 80 à 90 % de parité CUDA – la concurrence se resserre, mais la migration reste complexe. Les stratégies multi-fournisseurs deviennent la norme.

Vera Rubin : cinq fois plus rapide que Blackwell

La plateforme Vera Rubin est la réponse de Nvidia à la demande exponentielle croissante en puissance d’inférence IA. La puce GPU Rubin compte 336 milliards de transistors – soit 1,6 fois plus que son prédécesseur Blackwell. Elle utilise de la mémoire HBM4 et fournit une bande passante de 22 téraoctets par seconde par GPU.

Le processeur CPU Vera sous-jacent repose sur 88 cœurs ARM-v9.2, et communique avec le GPU via NVLink-C2C à 1,8 téraoctet par seconde. Ensemble, ils forment un système entièrement intégré capable de délivrer 50 pétaflops en mode d’inférence NVFP4.

À l’échelle du rack, l’impact devient spectaculaire. Le système Vera Rubin NVL72 – composé de 72 GPU Rubin et 36 CPU Vera – atteint 3,6 exaflops en mode FP4. Pour contextualiser : il s’agit d’une puissance de calcul supérieure à celle des supercalculateurs les plus rapides du monde réunis, il y a trois ans.

TRANSISTORES

336 Mrd.

GPU Rubin – 1,6× plus que Blackwell

INFERENZ-LEISTUNG

50 PFLOPS

5× plus rapide que GB200

RACK-LEISTUNG

3,6 ExaFLOPS

Vera Rubin NVL72 (72 GPUs + 36 CPUs)

Source : Nvidia Newsroom, mars 2026

Jensen Huang a également annoncé la version Vera Rubin Ultra, codée « Kyber », prévue pour 2027. Ensuite, la génération Feynman figure sur la feuille de route. Le rythme est désormais clair : Nvidia lance une nouvelle architecture chaque année, et non plus tous les deux ans comme auparavant.

// Propos

Les commandes pour Blackwell et Vera Rubin atteindront un milliard de dollars d’ici 2027.

Jensen Huang · PDG de Nvidia, Keynote GTC 2026, paraphrasé (CNBC, 16 mars 2026)

Blackwell Ultra : ce qui fonctionne déjà chez les hyperscalers

Tandis que Vera Rubin reste encore une promesse, la génération Blackwell est déjà déployée dans les centres de données. Le B300 – aussi appelé Blackwell Ultra – délivre 15 pétaflops en mode FP4 dense, embarque 288 Go de mémoire HBM3e, et affiche une puissance thermique de conception (TDP) de 1 400 watts.

Google Cloud propose déjà les instances A4 et A4X équipées des puces B200 et GB200 en disponibilité générale. AWS a mis en production les instances EC2 G7e avec GPU Blackwell dans la région US East – et a signé un accord portant sur plus d’un million de GPU Nvidia d’ici 2027, confirmé par Ian Buck, vice-président Hyperscale chez Nvidia (Reuters, mars 2026). Microsoft Azure et Oracle Cloud ont également annoncé des systèmes basés sur Blackwell.

Ce que Blackwell apporte concrètement : selon les benchmarks soutenus par Nvidia et réalisés par SemiAnalysis, le système GB200 NVL72 délivre dix fois plus de tokens par watt que la génération Hopper. Cela signifie un coût par token d’inférence divisé par dix. Le GB300 NVL72 devrait encore améliorer cette efficacité de 1,5 fois supplémentaire – les équipes infrastructurelles qui réservent aujourd’hui des instances Hopper verront leurs coûts unitaires radicalement transformés dans douze mois.

Une restriction importante : ces chiffres proviennent de tests financés en partie par Nvidia. Des comparaisons indépendantes dans des environnements de production sont encore attendues. La tendance est claire – mais les économies exactes dépendent du type de charge de travail spécifique.

120 kilowatts par rack : la question infrastructurelle que personne n’aime aborder

C’est ici que la situation devient inconfortable pour les responsables IT. Un rack GB200 NVL72 consomme une puissance continue de 120 à 132 kilowatts, dont 115 kW pour le refroidissement liquide et 17 kW pour le refroidissement par air, dans la configuration HPE. À titre de comparaison : un rack H100 consommait entre 10 et 15 kilowatts. Le facteur est donc de 8 à 10.

Cent racks de ce type nécessitent 12 mégawatts – soit la consommation électrique de 10 000 foyers. Les centres de données existants ne peuvent pas supporter cette densité sans rénovation majeure. Le refroidissement liquide devient obligatoire. Les raccordements électriques deviennent un goulot d’étranglement – certains opérateurs attendent jusqu’à trois à cinq ans pour obtenir une capacité réseau suffisante pour de grands clusters IA.

120 kW

Consommation d’un seul rack GB200 NVL72 – huit fois plus qu’un rack H100

Source : Spécifications Nvidia GB200 NVL72 / Sunbird DCIM

Nvidia argumente avec l’efficacité par token : dix fois moins d’énergie consommée par token traité par rapport à la génération précédente. Cela est vrai – mais uniquement tant que la capacité globale n’augmente pas proportionnellement. Si les entreprises lancent simultanément davantage de modèles sur davantage de GPU, la consommation absolue augmente malgré tout.

Pour les décideurs IT européens, cela signifie : celui qui souhaite exploiter des charges de travail IA on-premise ou en co-localisation au cours des deux prochaines années doit dès maintenant clarifier l’infrastructure physique. Contrat d’électricité, conception du système de refroidissement, raccordement au réseau – ce sont désormais les nouveaux goulots d’étranglement, et non plus la disponibilité des GPU.

Deutsche Telekom : 10 000 GPU Blackwell à Munich

Deutsche Telekom a annoncé, en partenariat avec Nvidia, la Industrial AI Cloud, présentée dans son communiqué de presse comme l’une des plus grandes « usines IA » d’Europe. Lieu : Munich. Équipement : plus de 1 000 systèmes DGX B200, complétés par des serveurs RTX PRO, soit environ 10 000 GPU Blackwell de Nvidia.

La mise en service est prévue pour le premier trimestre 2026. Si ce calendrier est respecté, cela augmentera la capacité de calcul IA en Allemagne d’environ 50 %. La cible : les entreprises allemandes souhaitant entraîner des modèles IA avec leurs propres données – sur des serveurs européens, et sous le droit européen.

Il ne s’agit pas d’un projet isolé. Lors de la GTC Paris 2025, Nvidia avait annoncé des partenariats stratégiques avec la France, l’Allemagne, le Royaume-Uni, l’Italie et l’Espagne. Au total, 20 usines IA sont prévues en Europe, dont cinq à l’échelle d’une « gigafactory ». Elles devraient fournir collectivement plus de 3 000 exaflops de puissance de calcul Blackwell pour les initiatives européennes d’« IA souveraine ».

Pour les équipes IT de la zone DACH, cela prend forme concrète : celui qui réservait jusqu’ici des capacités GPU auprès des hyperscalers américains et s’inquiétait de la souveraineté des données, dispose désormais d’une alternative avec la Cloud Industrial AI de Deutsche Telekom, conçue pour être conforme au Règlement général sur la protection des données (RGPD) et à la loi européenne sur l’IA. Reste à savoir si les prix et la disponibilité pourront rivaliser avec AWS et Google.

DGX Spark : l’ordinateur IA à 4 699 dollars

Outre les systèmes rack, Nvidia a présenté deux produits de bureau destinés à ramener l’infrastructure IA du centre de données jusqu’au bureau.

Le DGX Spark, à 4 699 dollars, repose sur la puce Superchip GB10 Grace Blackwell. Il offre 128 Go de mémoire unifiée, atteint un pétaflop en mode FP4, et peut exécuter localement des modèles comportant jusqu’à 200 milliards de paramètres. Jusqu’à quatre unités Spark peuvent être regroupées en un cluster de bureau.

La DGX Station va plus loin : puce GB300, 784 Go de mémoire cohérente, 20 pétaflops en FP4. Avec elle, des modèles d’un milliard de paramètres peuvent être exécutés localement – sans aucune connexion au cloud. Des fabricants comme Dell, HP et MSI commercialiseront la Station dès le printemps 2026.

Pour qui cela est-il pertinent ? Pour les entreprises qui ne peuvent ou ne veulent pas envoyer leurs données sensibles dans le cloud. Pour les équipes de recherche, les départements sécurité, les secteurs réglementés. Le DGX Spark rend l’inférence IA locale accessible à un budget de bureau – et non plus à un plan d’investissement.

Jensen Huang a explicitement fait le parallèle lors de la GTC : un DGX Spark à 4 699 dollars remplace, pour de nombreux cas d’usage, un contrat cloud mensuel de plusieurs milliers de dollars. Ce calcul fonctionne dans les PME – surtout pour les équipes travaillant régulièrement avec de grands modèles linguistiques et refusant la latence d’une connexion cloud. Parallèlement, la question de la maintenance persiste : qui exploite cet ordinateur IA local ? Qui met à jour les modèles ? Qui surveille l’utilisation ? Ce sont des tâches infrastructurelles qui disparaissaient jusqu’alors dans la facture cloud.

Accord Groq : 20 milliards de dollars pour les puces d’inférence

En décembre 2025, Nvidia a conclu le plus gros accord de son histoire : pour environ 20 milliards de dollars, l’entreprise licence la technologie de la startup Groq et intègre son équipe dirigeante. À noter : Nvidia n’achète pas Groq en tant qu’entité juridique – mais réalise un accord sur la propriété intellectuelle et les talents. Groq continue d’exister, sous la direction de son nouveau PDG Simon Edwards.

Les Unités de traitement linguistique (LPUs) de Groq sont des puces spécifiquement optimisées pour l’inférence IA. Elles traitent les tokens nettement plus rapidement que les GPU – un domaine où la part de marché de Nvidia (60 à 75 %) est nettement inférieure à celle qu’elle détient pour l’entraînement (plus de 90 %).

Jensen Huang l’a formulé sans ambiguïté : « While we are adding talented employees to our ranks and licensing Groq’s IP, we are not acquiring Groq as a company. » Ce que montre la LPU Groq-3 présentée à la GTC 2026, c’est la direction choisie : Nvidia ne veut pas seulement servir le marché de l’inférence avec des GPU, mais aussi le compléter avec des accélérateurs spécialisés.

CUDA contre ROCm : la concurrence va-t-elle s’intensifier ?

Nvidia détient environ 80 % du marché des accélérateurs IA. Le fossé défensif ne réside pas dans le matériel – il réside dans CUDA. Ce système logiciel existe depuis 17 ans et compte plus de quatre millions de développeurs inscrits.

Mais AMD rattrape progressivement son retard. Le MI300X offre 192 Go de mémoire HBM3, soit 2,4 fois plus que l’H100, à un prix 30 à 50 % inférieur. Selon l’analyse de SemiAnalysis, ROCm 7 atteint 80 à 90 % de parité CUDA. Le MI350 devrait sortir au second semestre 2025 et offrir une puissance d’inférence 35 fois supérieure à celle de la série MI300.

La réalité dans les entreprises : une migration complète hors de CUDA est extrêmement rare. Ce qui se développe, ce sont des stratégies multi-fournisseurs. Des GPU AMD pour une inférence optimisée sur les coûts, des GPU Nvidia pour l’entraînement et les charges de travail complexes. Celui qui planifie aujourd’hui une infrastructure cloud devrait évaluer les deux options – non par idéalisme, mais par calcul économique.

// Propos

Chaque entreprise SaaS deviendra une entreprise Agent-as-a-Service.

Jensen Huang · Keynote GTC 2026, paraphrasé (TechRadar/MSN Liveblog, 16 mars 2026)

Litige sur les exportations vers la Chine : la dimension géopolitique

Parallèlement à l’offensive technique, un bras de fer politique se joue à Washington autour des exportations de puces Nvidia vers la Chine. En résumé : l’administration Trump a autorisé, sous conditions, les ventes de puces H200 à des clients chinois agréés – avec un plafond fixé à 50 % du volume vendu sur le marché intérieur américain, vérifié par un laboratoire tiers contrôlé par les États-Unis.

Contre cette décision, le Sénat américain s’oppose. Les sénateurs Elizabeth Warren et Jim Banks ont déposé un projet de loi bipartisan exigeant la suspension immédiate de toutes les licences d’exportation Nvidia vers la Chine. Le Comité des affaires étrangères de la Chambre des représentants travaille quant à lui sur une loi prévoyant une période d’examen de 30 jours, suivie d’un interdit d’exportation de deux ans sur les puces Blackwell.

Pour les stratégies cloud européennes, cela revêt une importance directe : si le marché chinois disparaît ou se réduit fortement, le focus de Nvidia se déplace davantage vers les marchés occidentaux – et notamment vers l’Europe. Les initiatives d’« IA souveraine » et le partenariat avec Deutsche Telekom doivent aussi être lus dans ce contexte géopolitique.

Prévision de marché : 2,5 milliards de dollars de dépenses IA en 2026

Les chiffres de Gartner permettent de situer dans leur contexte global les annonces de la GTC. Les dépenses mondiales liées à l’IA devraient atteindre 2 520 milliards de dollars en 2026, soit une hausse de 44 % par rapport à 2025. Plus de la moitié de ce montant sera consacrée à l’infrastructure : environ 1 370 milliards de dollars pour les serveurs, les réseaux, le refroidissement et l’alimentation électrique (Gartner, janvier 2026).

Particulièrement remarquable : l’Infrastructure-as-a-Service optimisée pour l’IA – c’est-à-dire la capacité GPU dans le cloud – devrait passer de 18,3 milliards de dollars en 2025 à 37,5 milliards de dollars en 2026, soit une croissance de 105 %. Aucun autre segment cloud ne connaît une croissance comparable.

Parallèlement, Gartner place l’IA en 2026 dans le « Trough of Disillusionment » – la phase du cycle de hype où les projets pilotes échouent face à la réalité, et où les entreprises exigent des preuves concrètes de retour sur investissement (ROI) plutôt que des présentations visionnaires. Autrement dit : les investissements continuent de croître, mais les attentes en matière de résultats mesurables augmentent aussi. Pour les responsables des budgets IT, c’est une bonne nouvelle – car celui qui investit aujourd’hui dans l’infrastructure GPU sera évalué sur des cas d’usage métier tangibles, et non sur du simple effet de mode.

Le rapport trimestriel Q4 de Nvidia confirme cette tendance : 68,1 milliards de dollars de chiffre d’affaires, dont 62,3 milliards dans le segment Datacenter, soit une hausse de 75 % par rapport à l’année précédente. Pour le premier trimestre de l’exercice fiscal 2027, Nvidia anticipe 78 milliards de dollars. L’entreprise est sur la voie de devenir la première société à générer un chiffre d’affaires annuel de 300 milliards de dollars grâce exclusivement au matériel Datacenter (Nvidia Earnings, février 2026).

Ce que les décideurs IT doivent faire dès maintenant

La GTC 2026 envoie un message clair : l’infrastructure IA devient plus puissante, plus énergivore et plus coûteuse sur le plan physique – mais moins chère par token traité. Pour les équipes IT, cela ouvre des champs d’action concrets.

Premièrement : anticiper la planification énergétique. Celui qui envisage d’exploiter du matériel Blackwell ou Rubin on-premise dans les 18 prochains mois a besoin de refroidissement liquide et d’une alimentation électrique dépassant les 100 kW par rack. Il s’agit d’un projet infrastructurel, pas d’un simple processus d’achat.

Deuxièmement : évaluer les fournisseurs multiples. Les GPU AMD MI300X et MI350 ne sont plus des curiosités. Pour les charges de travail d’inférence bien définies, ROCm 7 peut fonctionner – avec un avantage de prix de 30 à 50 %. Recommandation : lancer un projet pilote avec AMD en parallèle de la pile Nvidia.

Troisièmement : examiner les options de cloud souverain. La Deutsche Telekom Industrial AI Cloud et d’autres offres européennes similaires rendent désormais économiquement viable le traitement local de l’IA pour les secteurs réglementés. Demandez des devis comparatifs avant de signer votre prochain contrat cloud.

Quatrièmement : étendre les pratiques FinOps aux coûts GPU. Les instances GPU représentent souvent 70 à 80 % de la facture cloud pour les charges de travail IA. Ne pas les suivre séparément et les optimiser, c’est ignorer le poste de dépense le plus important.

Questions fréquentes

Quelle est la différence entre Blackwell et Vera Rubin ?

Blackwell est la génération actuelle de GPU Nvidia, disponible chez les hyperscalers depuis 2025. Vera Rubin est la plateforme successeur, dotée de 336 milliards de transistors, de mémoire HBM4, et offrant une puissance d’inférence cinq fois supérieure. Vera Rubin devrait être disponible au second semestre 2026.

Combien coûte un système GB200 NVL72 ?

Nvidia ne publie pas de prix catalogue officiel. Des fournisseurs cloud comme Corvex proposent la capacité GB200 NVL72 à partir d’environ 4,49 dollars l’heure. Un système complet on-premise est estimé dans la fourchette des millions de dollars.

Ai-je besoin de refroidissement liquide pour les GPU Blackwell ?

Oui. Un rack GB200 NVL72 consomme 120 à 132 kilowatts. Le refroidissement par air seul ne suffit pas à cette densité de puissance. Toute exploitation on-premise de Blackwell exige un investissement dans une infrastructure de refroidissement liquide.

Le MI300X d’AMD est-il une véritable alternative à Nvidia ?

Pour certaines charges de travail d’inférence, oui. AMD propose 192 Go de mémoire HBM3 à un prix 30 à 50 % inférieur. ROCm 7 atteint 80 à 90 % de parité CUDA. Pour l’entraînement de modèles complexes, Nvidia reste pour l’instant le choix privilégié.

En quoi consiste l’accord Groq de Nvidia ?

Nvidia a acquis, pour environ 20 milliards de dollars, la technologie et l’équipe dirigeante de la startup Groq spécialisée dans les puces d’inférence. Groq continue d’exister en tant qu’entité indépendante, sous la direction de son nouveau PDG Simon Edwards. Cet accord renforce la position de Nvidia sur le marché des accélérateurs spécialisés pour l’inférence.

Que propose la Deutsche Telekom Industrial AI Cloud ?

Deutsche Telekom exploite à Munich environ 10 000 GPU Blackwell de Nvidia en tant que service cloud. Cette plateforme s’adresse aux entreprises allemandes souhaitant entraîner des modèles IA conformément au RGPD, sur des serveurs européens, sans transférer leurs données vers des hyperscalers américains.

Quand Vera Rubin sera-t-elle disponible sur le marché ?

Nvidia a annoncé que les systèmes basés sur Rubin seront disponibles chez les principaux fournisseurs cloud au second semestre 2026. La variante Ultra « Kyber » est prévue pour 2027.

Lectures recommandées par la rédaction

Plus encore dans le réseau média MBF Media

Source de l’image : Pexels / Tara Winstead (px:8386440)

Aussi disponible en

Español English Deutsch