3 Min. de lectura
La IA serverless suena como el stack perfecto: sin instancias GPU que gestionar, pagas solo por lo que usas, escalado automático. Para llamadas API a modelos alojados, es cierto. Para todo lo que tenga un modelo propio, es un desvío caro con un problema sin resolver: los cold starts.
Lo más importante en resumen
- Los cold starts rompen el tiempo real: Los cold starts de GPU duran entre 2 y 60 segundos según la plataforma, inaceptable para API de producción con SLA.
- A partir de 18 horas de uso diario: La facturación por segundo se vuelve más cara que las Reserved Instances, y la mayoría de cargas de inferencia funcionan 24 horas.
- El serverless brilla en otros sitios: Para llamadas API a OpenAI, Anthropic o Google AI, el serverless es el enfoque correcto. El problema es el modelo propio.
La tesis
La inferencia GPU serverless es la abstracción equivocada para la mayoría de cargas de producción. Las ventajas de coste solo existen con uso esporádico. En cuanto un modelo se necesita de forma permanente, una instancia GPU dedicada es más barata, más rápida y más predecible.
Argumento 1: los cold starts no son un problema resuelto
Arrancar una GPU no es como arrancar un contenedor Lambda. El proceso incluye inicialización de drivers GPU, configuración de plugins CUDA, pull de imagen, carga de pesos del modelo en VRAM y compilación del motor de inferencia. Las mejores plataformas alcanzan 2-4 segundos (Modal), la mayoría está en 8-60 segundos (Baseten, RunPod). Incluso 2 segundos rompen cualquier aplicación en tiempo real. La alternativa: mantener workers calientes. Pero los workers calientes cuestan las 24 horas del día, incluso sin solicitudes.
Argumento 2: la ecuación de costes se invierte bajo carga continua
El precio GPU serverless se basa en facturación por segundo. Suena justo pero se vuelve caro con alta utilización. Un equipo que usa inferencia 18 horas al día paga más con facturación por segundo que con una Reserved Instance. Y la mayoría de cargas de inferencia en producción no funcionan esporádicamente sino de forma continua.
Argumento 3: el debugging se convierte en una caja negra
Las plataformas GPU serverless abstraen la infraestructura. Esa es la ventaja y simultáneamente el problema. Cuando la latencia sube repentinamente, no hay sesión SSH a la GPU, ni nvidia-smi, ni visibilidad directa de métricas. La plataforma decide sobre qué hardware corre el modelo. Para prototipos es aceptable. Para producción con SLA, es una pérdida de control que puede salir cara.
18 h
de uso diario a partir del cual las Reserved Instances son más baratas que la facturación GPU serverless
El contraargumento: el serverless tiene su lugar
La crítica no va contra el serverless en general, sino contra el serverless como default para inferencia IA. Para llamadas API a modelos alojados (OpenAI, Anthropic, Google Gemini), el serverless es exactamente correcto. Para verdaderas cargas burst con largas pausas entremedias, el GPU serverless también funciona. El problema surge cuando los equipos usan serverless como solución permanente para sus propios modelos.
Conclusión
La inferencia IA serverless resuelve un problema real: la infraestructura GPU es compleja. Pero lo resuelve al precio incorrecto para la carga incorrecta. Quien opera un modelo propio de forma permanente en producción va mejor con una instancia GPU dedicada más autoscaling. El serverless pertenece al stack de prototipado y a jobs burst esporádicos. No a la roadmap de producción.
Preguntas frecuentes
¿Cuándo merece la pena el GPU serverless?
Para cargas bajo 4-6 horas de uso diario: batch jobs, generación de imágenes ocasional, prototipado. También para llamadas API a modelos alojados.
¿Cuánto duran los cold starts de GPU?
Las mejores plataformas como Modal alcanzan 2-4 segundos. La mayoría está en 8-60 segundos. Incluso 2 segundos son inaceptables para aplicaciones en tiempo real.
¿Cuál es la alternativa al GPU serverless?
Instancias GPU reservadas para la carga base combinadas con autoscaling específico de GPU (KEDA, GPU Operator) y Spot Instances para cargas burst.
Lectura recomendada
- Costes de inferencia IA en la nube: estrategias FinOps 2026
- Gemma 4: despliegue local y la ofensiva open source de Google
Más de la red MBF Media
- MyBusinessFuture – Digitalización e IA
- Digital Chiefs – Estrategias dirección
- SecurityToday – Seguridad IT y cumplimiento
Imagen: Pexels / panumas nikhomkhai (px:17489152)