4 avril 2026

3 Min. de lecture

L’IA serverless semble être le stack parfait : pas d’instances GPU à gérer, paiement à l’usage, mise à l’échelle automatique. Pour les appels API vers des modèles hébergés, c’est vrai. Pour tout ce qui utilise un modèle propre, c’est un détour coûteux avec un problème non résolu : les cold starts.

L’essentiel en bref

  • Les cold starts cassent le temps réel : Les cold starts GPU durent de 2 à 60 secondes selon la plateforme, inacceptable pour des API de production avec des SLA.
  • À partir de 18 heures d’utilisation quotidienne : La facturation à la seconde devient plus chère que les Reserved Instances, et la plupart des charges d’inférence fonctionnent 24h/24.
  • Le serverless brille ailleurs : Pour les appels API vers OpenAI, Anthropic ou Google AI, le serverless est la bonne approche. C’est le modèle propre qui pose problème.

La thèse

L’inférence GPU serverless est la mauvaise abstraction pour la plupart des charges de production. Les avantages coût n’existent qu’avec une utilisation sporadique. Dès qu’un modèle est nécessaire en permanence, une instance GPU dédiée est moins chère, plus rapide et plus prévisible.

Argument 1 : les cold starts ne sont pas un problème résolu

Démarrer un GPU n’est pas comme démarrer un container Lambda. Le processus comprend l’initialisation des drivers GPU, la configuration des plugins CUDA, le pull de l’image, le chargement des poids du modèle en VRAM et la compilation du moteur d’inférence. Les meilleures plateformes atteignent 2-4 secondes (Modal), la majorité se situe à 8-60 secondes (Baseten, RunPod). Même 2 secondes cassent toute application temps réel. L’alternative : garder les workers chauds. Mais les workers chauds coûtent 24h/24, même sans requêtes.

Argument 2 : l’équation coût bascule sous charge continue

La tarification GPU serverless est basée sur la facturation à la seconde. Cela semble juste mais devient cher sous haute utilisation. Une équipe qui utilise l’inférence 18 heures par jour paie plus avec la facturation à la seconde qu’avec une Reserved Instance. Et la majorité des charges d’inférence de production ne fonctionnent pas sporadiquement mais en continu. Le sweet spot du GPU serverless se situe sur des charges sous 4-6 heures d’utilisation quotidienne.

Argument 3 : le débogage devient une boîte noire

Les plateformes GPU serverless abstraient l’infrastructure. C’est l’avantage et simultanément le problème. Quand la latence augmente soudainement, il n’y a pas de session SSH vers le GPU, pas de nvidia-smi, pas de visibilité directe sur les métriques. La plateforme décide sur quel matériel le modèle tourne. Pour les prototypes c’est acceptable. Pour la production avec SLA, c’est une perte de contrôle qui peut devenir chère.

18 h

d’utilisation quotidienne à partir de laquelle les Reserved Instances deviennent moins chères que la facturation GPU serverless

Le contre-argument : le serverless a sa place

La critique ne vise pas le serverless en général, mais le serverless comme défaut pour l’inférence IA. Pour les appels API vers des modèles hébergés (OpenAI, Anthropic, Google Gemini), le serverless est exactement la bonne approche. Pour de vraies charges burst avec de longues pauses entre, le GPU serverless fonctionne aussi. Le problème survient quand les équipes utilisent le serverless comme solution permanente pour leurs propres modèles parce que cela paraît plus simple.

Conclusion

L’inférence IA serverless résout un vrai problème : l’infrastructure GPU est complexe. Mais elle le résout au mauvais prix pour la mauvaise charge. Ceux qui font tourner un modèle propre en permanence en production font mieux avec une instance GPU dédiée plus autoscaling. Le serverless appartient au stack de prototypage et aux jobs burst sporadiques. Pas à la roadmap de production.

Questions fréquentes

Quand le GPU serverless vaut-il la peine ?

Pour des charges sous 4-6 heures d’utilisation quotidienne : batch jobs, génération d’images occasionnelle, prototypage. Aussi pour les appels API vers modèles hébergés.

Quelle est la durée des cold starts GPU ?

Les meilleures plateformes comme Modal atteignent 2-4 secondes. La majorité se situe à 8-60 secondes. Même 2 secondes sont inacceptables pour les applications temps réel.

Quelle est l’alternative au GPU serverless ?

Des instances GPU réservées pour la charge de base, combinées avec l’autoscaling spécifique GPU (KEDA, GPU Operator) et des Spot Instances pour les charges burst.

Lectures recommandées

Plus du réseau MBF Media

Image : Pexels / panumas nikhomkhai (px:17489152)

Aussi disponible en

Un magazine de Evernine Media GmbH