IAOpiniones de expertos

La IA serverless está sobrevalorada – lo que realmente importa

GPU serverless suena perfecto, hasta que llegan los cold starts. Por qué GPUs dedicadas ganan en producción.

Por Benedikt Langer 4 abril 2026 4 min de lectura

La IA serverless está sobrevalorada – lo que realmente importa

La IA serverless suena como el stack perfecto: sin instancias GPU que gestionar, pagas solo por lo que usas, escalado automático. Para llamadas API a modelos alojados, es cierto. Para todo lo que tenga un modelo propio, es un desvío caro con un problema sin resolver: los cold starts.

La tesis

La inferencia GPU serverless es la abstracción equivocada para la mayoría de cargas de producción. Las ventajas de coste solo existen con uso esporádico. En cuanto un modelo se necesita de forma permanente, una instancia GPU dedicada es más barata, más rápida y más predecible.

Argumento 1: los cold starts no son un problema resuelto

Arrancar una GPU no es como arrancar un contenedor Lambda. El proceso incluye inicialización de drivers GPU, configuración de plugins CUDA, pull de imagen, carga de pesos del modelo en VRAM y compilación del motor de inferencia. Las mejores plataformas alcanzan 2-4 segundos (Modal), la mayoría está en 8-60 segundos (Baseten, RunPod). Incluso 2 segundos rompen cualquier aplicación en tiempo real. La alternativa: mantener workers calientes. Pero los workers calientes cuestan las 24 horas del día, incluso sin solicitudes.

Argumento 2: la ecuación de costes se invierte bajo carga continua

El precio GPU serverless se basa en facturación por segundo. Suena justo pero se vuelve caro con alta utilización. Un equipo que usa inferencia 18 horas al día paga más con facturación por segundo que con una Reserved Instance. Y la mayoría de cargas de inferencia en producción no funcionan esporádicamente sino de forma continua.

Argumento 3: el debugging se convierte en una caja negra

Las plataformas GPU serverless abstraen la infraestructura. Esa es la ventaja y simultáneamente el problema. Cuando la latencia sube repentinamente, no hay sesión SSH a la GPU, ni nvidia-smi, ni visibilidad directa de métricas. La plataforma decide sobre qué hardware corre el modelo. Para prototipos es aceptable. Para producción con SLA, es una pérdida de control que puede salir cara.

18 h

de uso diario a partir del cual las Reserved Instances son más baratas que la facturación GPU serverless

El contraargumento: el serverless tiene su lugar

La crítica no va contra el serverless en general, sino contra el serverless como default para inferencia IA. Para llamadas API a modelos alojados (OpenAI, Anthropic, Google Gemini), el serverless es exactamente correcto. Para verdaderas cargas burst con largas pausas entremedias, el GPU serverless también funciona. El problema surge cuando los equipos usan serverless como solución permanente para sus propios modelos.

Conclusión

La inferencia IA serverless resuelve un problema real: la infraestructura GPU es compleja. Pero lo resuelve al precio incorrecto para la carga incorrecta. Quien opera un modelo propio de forma permanente en producción va mejor con una instancia GPU dedicada más autoscaling. El serverless pertenece al stack de prototipado y a jobs burst esporádicos. No a la roadmap de producción.

Preguntas frecuentes

¿Cuándo merece la pena el GPU serverless?

Para cargas bajo 4-6 horas de uso diario: batch jobs, generación de imágenes ocasional, prototipado. También para llamadas API a modelos alojados.

¿Cuánto duran los cold starts de GPU?

Las mejores plataformas como Modal alcanzan 2-4 segundos. La mayoría está en 8-60 segundos. Incluso 2 segundos son inaceptables para aplicaciones en tiempo real.

¿Cuál es la alternativa al GPU serverless?

Instancias GPU reservadas para la carga base combinadas con autoscaling específico de GPU (KEDA, GPU Operator) y Spot Instances para cargas burst.

Lectura recomendada

Más de la red MBF Media

MyBusinessFutureMyBusinessFuture – Digitalización e IA Digital ChiefsDigital Chiefs – Estrategias dirección SecurityTodaySecurityToday – Seguridad IT y cumplimiento

Imagen: Pexels / panumas nikhomkhai (px:17489152)

También disponible en

Français English Deutsch