3 min de lectura
En resumen
- Las instancias GPU para entrenamiento de IA cuestan entre 2 y 32 USD por hora, según el tipo de GPU y el proveedor.
- Las GPUs spot o preemptible reducen los costos de entrenamiento entre un 60 % y un 90 %, siempre que se tolere la interrupción.
- Las GPUs A100 y H100 están crónicamente escasas: es habitual esperar semanas para acceder a ellas en los hyperscalers.
- Proveedores especializados de GPU en la nube (Lambda, CoreWeave, RunPod) ofrecen alternativas más económicas que los hyperscalers.
- La destilación y la cuantización de modelos reducen los costos de inferencia hasta en un 80 %.
La IA en la nube es cara. Una instancia GPU H100 en AWS cuesta más de 30 USD por hora. Un único experimento de fine-tuning puede consumir varios miles de euros. Para las empresas que ejecutan cargas de trabajo de IA en producción, los costos de las GPU se convierten rápidamente en el mayor ítem de la factura en la nube. Quien comprenda su estructura de costos podrá optimizar de forma significativa.
El panorama de costos de las GPU en 2025
Los precios de las GPU en la nube varían considerablemente según el tipo de GPU, el proveedor y la disponibilidad. NVIDIA A100 (40 GB): entre 2 y 4 USD por hora en los hyperscalers, entre 1 y 2 USD por hora en proveedores especializados. NVIDIA H100 (80 GB): entre 4 y 8 USD por hora en proveedores especializados; en los hyperscalers, suelen estar disponibles únicamente mediante instancias reservadas (Reserved Instances).
Para entrenar modelos grandes no se necesita una sola GPU, sino 8, 64 o incluso 256 – en paralelo – . Los costos escalan linealmente: 8 GPUs H100 durante una semana de entrenamiento pueden alcanzar rápidamente los 15.000-30.000 euros. El fine-tuning de un modelo de lenguaje grande (LLM) oscila entre 500 y 5.000 euros por experimento, según el tamaño del modelo y la cantidad de datos.
GPUs spot: la mejor relación calidad-precio
Las instancias spot de AWS, las máquinas virtuales preemptible de GCP y las máquinas virtuales spot de Azure ofrecen GPUs con descuentos del 60-90 %, pero con el riesgo de que la instancia sea finalizada con muy poca antelación. Para el entrenamiento de ML esto es aceptable: el checkpointing guarda el progreso del entrenamiento cada N minutos. Tras una finalización, el entrenamiento se reanuda desde el último checkpoint.
El desafío: la capacidad disponible para GPUs spot es escasa. En particular, las instancias spot H100 rara vez están disponibles. Estrategias recomendadas: elegir regiones flexibles (entrenar allí donde haya capacidad spot disponible), usar tipos de GPU flexibles (A100 en lugar de H100, si es posible) y aprovechar los horarios fuera de pico (fin de semana, horario nocturno en EE.UU.).
Proveedores alternativos de GPU en la nube
Además de AWS, Azure y GCP, han surgido proveedores especializados de GPU en la nube: Lambda Cloud ofrece clústeres H100 a precios claramente inferiores a los de los hyperscalers. CoreWeave está especializado en cargas de trabajo GPU y ofrece orquestación nativa de Kubernetes para GPUs. RunPod ofrece GPUs sin servidor (serverless) para inferencia, con facturación por segundo.
Los compromisos (trade-offs): estos proveedores especializados ofrecen menos servicios (sin S3, sin RDS), menor redundancia y menos funciones empresariales (certificaciones de cumplimiento, acuerdos de nivel de servicio – SLAs – ). Sin embargo, para cargas de trabajo puramente de entrenamiento, en las que los datos ya se transfieren desde el proveedor de nube principal, esta limitación es aceptable.
Optimización de los costos de inferencia
El entrenamiento es un proceso puntual, mientras que la inferencia se ejecuta las 24 horas del día – y, por tanto, se vuelve rápidamente más cara. Estrategias de optimización:
Cuantización: Reducir los modelos de FP32 a INT8 o INT4. La inferencia se acelera entre 2 y 4 veces con una pérdida mínima de calidad. GPTQ, AWQ y bitsandbytes hacen accesible la cuantización.
Destilación de modelos: Un modelo grande entrena uno más pequeño que ofrece el 80 % de su calidad al 10 % de sus costos. La API de destilación de OpenAI y marcos de código abierto como TRL simplifican este proceso.
Agrupación (batching): Varios pedidos de inferencia se agrupan y procesan en un único paso hacia adelante (forward pass). El batching dinámico con vLLM o TensorRT-LLM puede incrementar el rendimiento (throughput) entre 5 y 10 veces.
Caché: Atender solicitudes idénticas o similares desde una caché, en lugar de recurrir a la GPU. El caching semántico reduce los costos de GPU en cargas de trabajo repetitivas entre un 30 % y un 60 %.
La decisión clave: ¿comprar o alquilar GPUs?
Cuando el requerimiento constante de GPUs supera las 8 unidades las 24 horas del día, merece la pena evaluar la adquisición de hardware propio. Un sistema NVIDIA DGX H100 (8× H100) cuesta aproximadamente 300.000 euros. Su equivalente en la nube en AWS supone más de 175.000 euros anuales. El periodo de amortización es inferior a dos años.
La realidad: la mayoría de las empresas no tienen un requerimiento constante de GPUs las 24 horas del día. El entrenamiento es intermitente (burst), y la carga de inferencia varía. El enfoque óptimo es: GPUs propias para la inferencia básica (baseline), y GPUs en la nube para los picos de entrenamiento y las cargas punta. Una infraestructura híbrida de GPUs – análoga al enfoque híbrido de nube para cómputo general – .
Seguir leyendo en cloudmagazin.com
- FinOps: cómo las empresas logran finalmente controlar sus costos en la nube
- Costos y demás motivos conducen a una migración parcial fuera de la nube
- Entrenamiento de IA en la nube: clústeres GPU, costos y buenas prácticas
Más sobre este tema: Más artículos en mybusinessfuture
Preguntas frecuentes
¿Cuánto cuesta hacer fine-tuning de un LLM?
Depende del tamaño del modelo y de la cantidad de datos: hacer fine-tuning de un modelo de 7 mil millones de parámetros (Llama, Mistral) cuesta entre 100 y 500 euros en GPUs spot. Un modelo de 70 mil millones de parámetros cuesta entre 2.000 y 10.000 euros. Técnicas como LoRA y QLoRA reducen los costos entre un 80 % y un 90 % frente al fine-tuning completo.
¿Son las GPUs de NVIDIA la única opción?
No, aunque sí la dominante. AMD Instinct MI300X es una alternativa seria, con un rendimiento competitivo y, a menudo, una mayor disponibilidad. Google TPU v5e es competitiva tanto para entrenamiento como para inferencia y está disponible de forma nativa en GCP. Intel Gaudi 2 se posiciona en el segmento medio.
¿Cómo comparar de forma justa los precios de las GPUs en la nube?
No por tarifa horaria, sino por rendimiento por euro: tokens por segundo por euro para inferencia, y tiempo de entrenamiento por euro para entrenamiento. Un tipo de GPU más barato que tarde el doble no resulta más económico. Herramientas como gpubenchmarks.com y ml-energy.github.io permiten comparaciones justas.
¿Qué es vLLM y por qué es importante?
vLLM es un motor de inferencia de código abierto que utiliza PagedAttention, una técnica que gestiona la memoria de la GPU de forma más eficiente. El resultado: un rendimiento (throughput) entre 2 y 4 veces superior al de implementaciones ingenuas. Para inferencia de LLM en producción, vLLM o TensorRT-LLM representan el estado del arte.
¿Merece la pena la inversión en hardware GPU propio para startups?
Casi nunca. Las startups necesitan flexibilidad: escalar rápidamente hacia arriba o hacia abajo, probar distintos tipos de GPU y evitar la vinculación de capital. Las GPUs en la nube (especialmente las spot) son la opción adecuada para las startups. El hardware propio solo resulta rentable ante una demanda estable y elevada – típicamente a partir de la ronda B o C.
Fuente de imagen: Pexels / Nana Dua