10 min de lecture
L’inférence locale avec l’IA deviendra le flux de travail standard en 2026. Complétion de code, reconnaissance vocale, génération d’images, expériences avec les LLM : tout fonctionnera plus vite et de façon plus conforme au RGPD sur son propre matériel. Mais quelle carte graphique est vraiment nécessaire ? La mémoire VRAM est le facteur décisif, pas la puissance de calcul brute. Comparaison entre NVIDIA RTX 5090, RTX 4090, RTX 3090 d’occasion et AMD RX 7900 XTX, avec des recommandations concrètes selon les budgets et les cas d’usage.
L’essentiel en bref
- La VRAM est le goulot d’étranglement pour les modèles d’IA locaux. Règle empirique : 2 Go de VRAM par milliard de paramètres en précision FP16. Un modèle 70B nécessite au minimum 24 Go.
- La RTX 5090, dotée de 32 Go de GDDR7, est la seule carte grand public capable d’exécuter localement des modèles 70B en quantification complète Q4. Prix : à partir de 1 999 dollars US.
- La RTX 4090 avec 24 Go reste le meilleur rapport qualité-prix pour un usage sérieux de l’IA en local. Elle exécute les modèles 8B à 128 jetons par seconde.
- Une RTX 3090 d’occasion avec 24 Go de VRAM pour moins de 800 euros offre une capacité de modèle identique à la RTX 4090, à un tiers du prix.
- Les GPU cloud sont intéressants pour une utilisation occasionnelle. Au-delà de 4 heures d’utilisation quotidienne, le matériel local devient moins coûteux que tout fournisseur cloud.
Pourquoi la VRAM est plus importante que les TFLOPS
Dans les benchmarks de jeux, la puissance de calcul brute prime. En inférence IA, c’est d’abord la mémoire qui compte. Un grand modèle linguistique comme Llama 3 70B nécessite environ 40 Go de mémoire en quantification Q4. Si le modèle ne tient pas entièrement dans la VRAM, il doit être déplacé vers la RAM du processeur. Cela ralentit l’inférence d’un facteur 10 à 20. En pratique, cela signifie : un modèle 70B sur une carte 24 Go fonctionne, mais avec un tel débordement que les temps de réponse deviennent presque inutilisables.
La bande passante mémoire détermine à quelle vitesse le modèle peut transférer des données entre la mémoire GPU et les unités de calcul. La RTX 5090 atteint ici 1,79 To/s, soit 78 % de plus que la RTX 4090 (environ 1 To/s). Pour les modèles qui tiennent entièrement dans la VRAM, cela se traduit directement par une génération de jetons plus rapide. La RTX 5090 atteint 185 jetons par seconde sur des modèles 8B, contre 128 pour la RTX 4090. Sur des modèles 70B en Q4, la RTX 5090 produit 15 à 20 jetons par seconde, ce qui suffit pour des applications de chat interactives.
NVIDIA RTX 5090 : la référence avec 32 Go
La RTX 5090 repose sur l’architecture Blackwell de NVIDIA, fabriquée en processus TSMC 4NP. 21 760 cœurs CUDA, 680 cœurs Tensor de cinquième génération, 32 Go de GDDR7 sur un bus 512 bits. Son prix officiel est fixé à 1 999 dollars US, mais depuis son lancement en janvier 2025, les cartes sont rarement disponibles en dessous de 2 500 euros.
Pour l’inférence IA locale, la RTX 5090 est la seule carte grand public capable d’exécuter des modèles 70B en quantification Q4 complète sans débordement. Elle devient ainsi l’appareil de référence pour les développeurs qui expérimentent régulièrement avec de grands modèles linguistiques. Llama 3 70B fonctionne sans accroc, Whisper Large transcrit l’audio en temps réel, et Stable Diffusion XL génère des images en moins de 5 secondes.
L’inconvénient : une TDP de 575 watts. Cela exige une alimentation adaptée (au moins 1 000 watts recommandée), une bonne ventilation du boîtier et entraîne des coûts énergétiques plus élevés. Sur un an, la consommation électrique s’élève à environ 200 à 250 euros pour une utilisation quotidienne de quatre heures. Cela relativise l’avantage de coût par rapport aux GPU cloud, mais ne l’élimine pas complètement.
RTX 4090 : Le meilleur rapport qualité-prix
Fin 2026, la RTX 4090 avec 24 Go de GDDR6X reste le choix le plus raisonnable pour un travail sérieux d’intelligence artificielle en local. Cette carte atteint 128 tokens par seconde sur les modèles 8B et 52 tokens par seconde sur Llama 3.1 70B en Q4. Depuis la sortie de la RTX 5090, les prix des RTX 4090 neuves sont tombés entre 1 400 et 1 600 euros. Les modèles d’occasion se trouvent à partir de 1 100 euros.
Les 24 Go de VRAM suffisent pour la plupart des cas d’usage pratiques : les modèles 8B et 13B tournent sans problème, les modèles 30B en Q4 tiennent tout juste, tandis que les 70B nécessitent une quantification agressive en Q2 ou du offloading. Si vous travaillez principalement avec des modèles jusqu’à 30B, générez des images avec Stable Diffusion XL ou utilisez Whisper pour la transcription, vous n’avez pas besoin des 32 Go de la RTX 5090. Les 24 Go de la RTX 4090 couvrent entièrement ce besoin.
Conseil budget : RTX 3090 d’occasion à moins de 800 euros
La RTX 3090 offre les mêmes 24 Go de VRAM que la RTX 4090, mais avec une puissance de calcul nettement inférieure. Sur le marché de l’occasion, elle se situe entre 600 et 800 euros. Le débit de tokens atteint environ 112 tokens par seconde sur les modèles 8B, et environ 35 tokens par seconde sur les 70B en Q4. C’est plus lent que la 4090, mais suffisant pour de nombreux flux de travail.
L’équation économique est claire : pour un tiers du prix, on obtient la même capacité de modèle. Celui qui n’a pas besoin de la vitesse d’inférence maximale, mais utilise des modèles d’IA locaux pour du traitement par lots, des transcriptions hors ligne ou des expérimentations occasionnelles avec des LLM, trouvera dans une RTX 3090 d’occasion la solution la plus économique. La consommation d’énergie plus élevée (350W de TDP contre 450W pour la 4090) est négligeable en cas d’utilisation occasionnelle.
Un mot sur la longévité : les cartes issues du minage, souvent proposées d’occasion, ne sont pas nécessairement usées, contrairement aux idées reçues. Le minage fait fonctionner les GPU sous une charge constante et modérée, avec des températures stables. C’est moins destructeur que les sessions de jeu avec des variations fréquentes de charge. Néanmoins, il est conseillé de privilégier une carte dont l’origine est vérifiable, idéalement avec une garantie restante.
Alternative AMD : RX 7900 XTX avec 24 Go
La RX 7900 XTX d’AMD propose 24 Go de VRAM pour moins de 900 euros, ce qui en fait la carte offrant le meilleur rapport VRAM/prix actuellement disponible. Les performances d’inférence atteignent environ 78 tokens par seconde sur Llama 3 8B. C’est moins rapide que les cartes NVIDIA, mais suffisant pour de nombreux flux de travail.
La limite réside dans l’écosystème logiciel. CUDA domine le paysage de l’IA. La plupart des frameworks sont optimisés pour NVIDIA. ROCm, l’équivalent d’AMD à CUDA, a fait des progrès significatifs ces derniers mois, mais n’atteint pas encore le même niveau de compatibilité. PyTorch fonctionne de manière stable sur ROCm, mais des outils spécialisés comme TensorRT ou certains frameworks de quantification nécessitent des contournements ou ne fonctionnent pas du tout. Si vous travaillez principalement avec Ollama et llama.cpp, AMD offre un environnement utilisable. Si vous dépendez pleinement de l’écosystème NVIDIA, mieux vaut rester sur GeForce.
La prochaine RX 9070 XT d’AMD s’appuiera sur la nouvelle architecture RDNA-4, avec des performances améliorées en IA. La carte devrait embarquer 16 Go de VRAM, la positionnant pour des modèles jusqu’à 13B. En tant qu’entrée de gamme abordable dans l’inférence locale d’IA, elle pourrait s’avérer intéressante, bien que son utilité pratique dépende de la rapidité avec laquelle l’écosystème ROCm saura suivre. Pour les développeurs qui doivent acheter aujourd’hui, la RX 7900 XTX reste le choix AMD le plus sûr.
Cloud-GPU contre matériel local : l’équation FinOps
Les GPU cloud coûtent entre 0,50 et 3,50 euros de l’heure selon le fournisseur et le modèle. Une instance RTX 4090 chez Lambda Labs revient à environ 0,75 euro par heure, une A100 80 Go à environ 2,00 euros. Le matériel local implique un coût d’achat initial, mais aucun frais de location récurrent.
Le calcul du seuil de rentabilité est simple : une RTX 4090 à 1 500 euros s’amortit en environ 500 jours, soit près de 1,5 an, avec une utilisation quotidienne de 4 heures (au tarif cloud de 0,75 euro/h). Pour une utilisation occasionnelle inférieure à une heure par jour, le cloud reste avantageux. En revanche, qui travaille plusieurs heures par jour sur des modèles locaux réalise des économies substantielles avec du matériel propre. S’ajoute l’avantage en matière de confidentialité : l’inférence locale signifie aucune donnée envoyée dans le cloud, aucune dépendance à une API, et aucun coût croissant avec l’usage.
Un facteur souvent négligé est la disponibilité. Les instances GPU cloud ne sont pas toujours disponibles immédiatement, surtout pour des modèles populaires comme l’A100 ou l’H100. Des temps d’attente de plusieurs minutes à plusieurs heures ne sont pas rares. Le matériel local est toujours prêt à l’emploi, sans délai de mise en service. Pour les équipes de développement qui expérimentent de manière itérative avec différents modèles et ont besoin de cycles de feedback rapides, ce facteur a un impact direct sur la productivité.
Évaluation du coût total de possession (TCO) sur trois ans : une RTX 4090 coûte 1 500 euros à l’achat, plus environ 400 euros d’électricité pour une utilisation quotidienne de 4 heures. L’équivalent en cloud, à utilisation égale : 0,75 euro × 4 heures × 365 jours × 3 ans = 3 285 euros. La solution locale permet donc d’économiser environ 1 400 euros sur trois ans. La RTX 5090, avec un prix d’achat plus élevé, s’amortit après environ deux ans, mais réalise ensuite des économies encore plus importantes.
« La question n’est pas de savoir si l’inférence locale en IA est rentable, mais à partir de quand. Quatre heures d’utilisation GPU par jour constituent le seuil critique. En dessous, le cloud est plus avantageux. Au-delà, le matériel local réduit les coûts, de plus en plus chaque mois. »
Recommandations par cas d’usage
Pour les développeurs qui utilisent Llama 3 8B ou des modèles comparables pour la complétion de code ou le chat, une carte dotée de 16 Go de VRAM suffit. La RTX 4070 Ti Super (16 Go), disponible à partir de 650 euros, représente ici le meilleur compromis. Whisper fonctionne en temps réel en local, Stable Diffusion génère des images dans un délai acceptable, et les petits modèles de langage (LLM) répondent de manière fluide.
Celui qui travaille régulièrement avec des modèles de 30 à 70 milliards de paramètres ou exploite des configurations multi-modèles a besoin de 24 Go de VRAM. La RTX 4090 (neuve ou d’occasion) ou la AMD RX 7900 XTX sont les options disponibles. La 4090 est plus rapide, la solution AMD est plus économique.
Pour les utilisateurs intensifs souhaitant exécuter localement des modèles de 70 milliards sans compromis liés à la quantification, ou travailler avec plusieurs modèles en parallèle, la RTX 5090 avec 32 Go de VRAM est la seule option grand public. Pour un besoin encore supérieur en mémoire, il faut se tourner vers des cartes professionnelles comme la NVIDIA A6000 (48 Go) ou vers les Macs Apple Silicon dotés de mémoire unifiée. Un MacBook Pro M5 Max avec 128 Go de mémoire unifiée peut théoriquement charger des modèles jusqu’à 405 milliards de paramètres, même si la vitesse d’inférence reste nettement inférieure à celle d’un GPU dédié.
Un conseil pragmatique pour les équipes : tous les développeurs n’ont pas besoin d’un GPU haut de gamme. Une configuration d’équipe avec un ou deux serveurs d’inférence partagés (RTX 4090/5090) accessibles via le réseau (avec Ollama ou vLLM), combinée à des postes de travail standards pour les tâches quotidiennes, est souvent plus rentable que d’équiper chaque poste avec une carte haut de gamme. Cela permet de préserver le budget, de centraliser la gestion des GPU et de simplifier les mises à jour. Les modèles ne sont mis à jour qu’une seule fois sur le serveur central, et non sur chaque poste individuel.
Foire aux questions
Puis-je exécuter un modèle 70B sur une carte de 24 Go ?
Oui, mais avec des restrictions. Pour la quantification Q4, Llama 3 70B nécessite environ 40 Go. Sur une carte de 24 Go, une partie du modèle sera déchargée (offloading) sur la mémoire RAM du processeur, ce qui réduit la vitesse d’inférence à 5 à 10 tokens par seconde. C’est limite pour une utilisation interactive, mais acceptable pour un traitement par lots.
Une carte graphique de minage d’occasion est-elle rentable pour l’inférence de l’IA ?
En principe, oui. Le minage utilise les cartes graphiques à une charge constante et modérée, ce qui est moins éprouvant que le jeu avec des changements de charge constants. Une carte RTX 3090 d’occasion provenant du secteur minier offre 24 Go de VRAM pour 600 à 800 Euro. Assurez-vous de l’origine vérifiable, de la garantie restante et testez la carte avec un test de stress avant l’achat.
8 Go de VRAM suffisent-ils pour les modèles d’IA locaux ?
Pour les petits modèles jusqu’à 7B de paramètres en quantification Q4, oui. Llama 3 8B fonctionne avec une quantification agressive sur 8 Go. Whisper Small également. Pour un travail sérieux avec des modèles plus grands, la génération d’images ou les configurations multi-modèles, 8 Go sont insuffisants. 16 Go devraient être le minimum.
Un Mac Apple Silicon est-il une alternative à une carte graphique dédiée ?
Pour l’inférence, oui, avec des restrictions. Apple Silicon utilise une mémoire unifiée partagée entre le processeur et la carte graphique. Un M5 Max avec 128 Go peut théoriquement charger de très grands modèles. La vitesse d’inférence est cependant nettement inférieure à celle d’une carte graphique NVIDIA dédiée, car la bande passante mémoire est inférieure. Pour une utilisation occasionnelle de LLM, c’est une solution pratique, mais pas un remplacement pour des workflows d’IA professionnels.
Conseils de lecture de la rédaction
MacBook Pro M5 en test pratique : puce ARM d’Apple contre Windows on ARM
L’IA serverless est surévaluée – voici ce qui compte à la place
Plus de contenu du réseau MBF Media
Data Act : Ce que les fabricants d’IoT du secteur intermédiaire doivent savoir (MyBusinessFuture)
Source de l’image de titre : Pexels / Elias Gamez (px:10558582)