3 Min. Lesezeit
Serverless KI klingt nach dem perfekten Stack: Keine GPU-Instanzen verwalten, nur zahlen was man nutzt, automatisch skalieren. Für API-Calls an gehostete Modelle stimmt das. Für alles mit eigenem Modell ist es ein teurer Umweg mit einem ungelösten Problem: Cold Starts.
Das Wichtigste in Kürze
- Cold Starts brechen Echtzeit: GPU-Cold-Starts dauern 2-60 Sekunden je nach Plattform – inakzeptabel für Produktions-APIs mit SLAs.
- Ab 18 Stunden Nutzung pro Tag: Per-Second-Billing wird teurer als Reserved Instances – und die meisten Inference-Workloads laufen rund um die Uhr.
- Serverless brilliert woanders: Für API-Calls an OpenAI, Anthropic oder Google AI ist Serverless der richtige Ansatz. Das eigene Modell ist das Problem.
Die These
Serverless GPU-Inference ist für die meisten Produktions-Workloads die falsche Abstraktion. Die Kosten-Vorteile existieren nur bei sporadischer Nutzung. Sobald ein Modell dauerhaft gebraucht wird, ist eine dedizierte GPU-Instanz günstiger, schneller und vorhersagbarer.
Argument 1: Cold Starts sind kein gelöstes Problem
Eine GPU hochzufahren ist nicht wie einen Lambda-Container zu starten. Der Prozess umfasst GPU-Treiber-Initialisierung, CUDA-Plugin-Setup, Image-Pull, Modell-Gewichte in den VRAM laden und Inference-Engine kompilieren. Die besten Plattformen schaffen 2-4 Sekunden (Modal), die Mehrheit liegt bei 8-60 Sekunden (Baseten, RunPod). Selbst 2 Sekunden brechen jede Echtzeit-Anwendung – Chatbot-Interfaces, Live-Empfehlungen, Autocomplete. Die Alternative: Worker warm halten. Aber warme Worker kosten rund um die Uhr, auch wenn keine Anfragen kommen. Dann kann man auch gleich eine dedizierte Instanz buchen.
„Serverless KI klingt nach dem perfekten Stack: Keine GPU-Instanzen verwalten, nur zahlen was man nutzt, automatisch skalieren.“
Argument 2: Die Kostenrechnung kippt bei Dauerlast
Serverless-GPU-Pricing basiert auf Per-Second-Billing. Das klingt fair, wird aber teuer bei hoher Auslastung. Ein Team, das Inference 18 Stunden am Tag nutzt, zahlt mit Per-Second-Billing mehr als mit einer Reserved Instance. Und die Mehrheit der Produktions-Inference-Workloads läuft nicht sporadisch, sondern dauerhaft. Der Sweet Spot für Serverless GPU liegt bei Workloads unter 4-6 Stunden täglicher Nutzung – Batch-Jobs, gelegentliche Bildgenerierung, Prototyping. Nicht bei Produktions-APIs.
Argument 3: Debugging wird zur Blackbox
Serverless-GPU-Plattformen abstrahieren die Infrastruktur. Das ist der Vorteil und gleichzeitig das Problem. Wenn die Latenz plötzlich steigt, gibt es keine SSH-Session auf die GPU, kein nvidia-smi, keine direkte Metriken-Einsicht. Die Plattform entscheidet, auf welcher Hardware das Modell läuft, welche GPU-Generation, welcher Speichertyp. Für Prototypen ist das akzeptabel. Für Produktion mit SLAs ist es ein Kontrollverlust, der teuer werden kann.
18 h
tägliche Nutzung ab der Reserved Instances günstiger sind als Serverless-GPU-Billing
Das Gegenargument: Serverless hat seinen Platz
Die Kritik richtet sich nicht gegen Serverless generell, sondern gegen Serverless als Default für KI-Inference. Für API-Calls an gehostete Modelle – OpenAI, Anthropic, Google Gemini – ist Serverless genau richtig. Kein eigenes Modell, keine GPU-Verwaltung, Kosten pro Token. Auch für echte Burst-Workloads mit langen Pausen dazwischen funktioniert Serverless GPU: ein wöchentlicher Batch-Job, ein Prototyping-Sprint, eine saisonale Kampagne. Das Problem entsteht, wenn Teams Serverless als Dauerlösung für eigene Modelle einsetzen, weil es sich einfacher anfühlt als GPU-Infrastruktur zu betreiben.
Fazit
Serverless KI-Inference löst ein echtes Problem: GPU-Infrastruktur ist komplex. Aber es löst es zum falschen Preis für den falschen Workload. Wer ein eigenes Modell dauerhaft in Produktion betreibt, fährt mit einer dedizierten GPU-Instanz plus Autoscaling besser – in Kosten, Latenz und Kontrolle. Serverless gehört in den Prototyping-Stack und für sporadische Burst-Jobs. Nicht auf die Produktions-Roadmap.
Häufige Fragen
Wann lohnt sich Serverless GPU?
Bei Workloads unter 4-6 Stunden täglicher Nutzung: Batch-Jobs, gelegentliche Bildgenerierung, Prototyping oder saisonale Spitzen. Auch für API-Calls an gehostete Modelle (OpenAI, Anthropic) ist Serverless der richtige Ansatz, weil keine eigene GPU benötigt wird.
Wie lang sind GPU-Cold-Starts?
Die besten Plattformen wie Modal erreichen 2-4 Sekunden. Die Mehrheit liegt bei 8-60 Sekunden. Selbst 2 Sekunden sind für Echtzeit-Anwendungen wie Chatbots oder Autocomplete inakzeptabel.
Was ist die Alternative zu Serverless GPU?
Reserved GPU-Instanzen für die Baseline-Last, kombiniert mit GPU-spezifischem Autoscaling (KEDA, GPU Operator) und Spot Instances für Burst-Workloads. Das liefert niedrigere Kosten, vorhersagbare Latenz und volle Kontrolle über die Hardware.
Lesetipps der Redaktion
- Bitter Lesson für den KI-Stack: 4 Audit-Punkte bevor die nächste Modellgeneration kommt
- Gemma 4 lokal deployen: Was Googles Open-Source-Offensive für Cloud-Architekturen bedeutet
Mehr aus dem MBF Media Netzwerk
- MyBusinessFuture – Digitalisierung und KI für den Mittelstand
- Digital Chiefs – Strategien für die Chefetage
- SecurityToday – IT-Sicherheit und Compliance
Quelle Titelbild: Pexels / panumas nikhomkhai (px:17489152)