3 Juni 2026

8 Min. Lesezeit

Die Trainingskosten eines Modells fallen einmal an, die Inferenzkosten jeden Tag. Genau hier verschiebt sich die Rechnung gerade: Mit nativen FP4-Tensor-Cores auf NVIDIA Blackwell und einer Serving-Schicht wie vLLM, die diese Formate ausnutzt, lassen sich GPU-Stunden und Latenz spürbar senken, ohne das Modell neu zu trainieren. Wer KI-Workloads betreibt, entscheidet damit nicht mehr nur über Modellwahl, sondern über das Zahlenformat, in dem gerechnet wird.

Das Wichtigste in Kürze

  • Quantisierung ist der Kostenhebel: Wer von FP16 auf FP8 oder FP4 geht, halbiert oder viertelt den Speicherbedarf pro Parameter und entlastet die Speicherbandbreite, den eigentlichen Flaschenhals der Inferenz.
  • Hardware und Software müssen zusammenpassen: Blackwell bringt native FP4-Tensor-Cores, aber erst eine Serving-Schicht mit passenden Kerneln macht den Vorteil nutzbar. Ohne abgestimmten Stack bleibt das Format ungenutzt.
  • Der Gewinn ist messbar, das Risiko steuerbar: Bis zum Vierfachen an Durchsatz bei vergleichbarer Latenz ist dokumentiert, der Qualitätsverlust lässt sich mit selektiver Quantisierung und Eval-Suites eingrenzen.

Verwandt:FinOps sieht alles, darf aber nichts  /  Cloud-native reift: Knative und Kubernetes 1.34

Warum die Inferenz-Rechnung zum Architektur-Thema wird

Ein produktiv genutztes Sprachmodell verbraucht seine GPU-Stunden nicht beim einmaligen Training, sondern bei jeder einzelnen Anfrage. Skaliert ein Dienst von hundert auf hunderttausend Aufrufe am Tag, wird die Inferenz zum größten Posten in der Cloud-Rechnung, und sie wächst linear mit der Nutzung. Das macht sie zu einem Architektur-Thema und nicht zu einer Frage, die sich mit einem größeren Reservierungsrabatt lösen ließe.

Der Engpass sitzt dabei selten in der reinen Rechenleistung. Bei der Token-Generierung limitiert meist die Speicherbandbreite: Das Modell muss seine Gewichte für jedes erzeugte Token erneut aus dem GPU-Speicher lesen. Je kompakter die Gewichte abgelegt sind, desto weniger Bandbreite kostet jeder Schritt. Genau an diesem Punkt setzt Quantisierung an.

Was ist Quantisierung? Quantisierung senkt die numerische Genauigkeit, mit der Modellgewichte und Aktivierungen gespeichert und verrechnet werden, etwa von 16 Bit (FP16) auf 8 Bit (FP8) oder 4 Bit (FP4). Das reduziert Speicherbedarf und Bandbreitenlast und beschleunigt die Matrixmultiplikationen, im Idealfall ohne sichtbaren Qualitätsverlust.

FP8 und FP4: Was die Zahlenformate auf Blackwell verändern

Hopper-GPUs der Vorgängergeneration beherrschen FP8 nativ. Blackwell geht einen Schritt weiter und bringt FP4-Tensor-Cores direkt in die Hardware, zusammen mit höherer Speicherbandbreite. Damit wird ein Format praxistauglich, das die Gewichte auf ein Viertel der FP16-Größe zusammenfaltet. Der GB200 erreicht laut NVIDIA bei FP4- und FP8-Operationen deutlich höheren Durchsatz als der ältere H200.

Format Speicher je Parameter Native Hardware Einordnung
FP16 2 Byte Alle gängigen GPUs Referenz, höchste Treue, teuerste Bandbreite
FP8 1 Byte Hopper, Blackwell Robuster Standard mit geringem Qualitätsrisiko
FP4 0,5 Byte Blackwell Maximaler Spareffekt, erfordert sorgfältige Kalibrierung

Speicherwerte gerundet, Qualitätsverhalten modellabhängig.

Entscheidend ist, dass das Format allein nichts bringt. Erst die Serving-Schicht muss Kernel mitbringen, die FP4 und FP8 auf der Hardware ausreizen. vLLM hat dafür die FlashInfer-Bibliothek integriert und nutzt unter anderem FP8-Attention sowie schnelle FP8- und FP4-Matrixmultiplikationen und auf den GB200 zugeschnittene GEMM-Kernel. Das Ergebnis ist ein Durchsatz nahe der theoretischen FP4-Grenze bei erhaltener Modellqualität.

bis zu 4x
höherer Durchsatz auf Blackwell gegenüber Hopper bei vergleichbarer Latenz, gemessen an Modellen wie Llama 3.3 70B.
Quelle: vLLM / SemiAnalysis InferenceMAX

Diese Sprünge sind kein einmaliger Effekt. Allein eine Runde gezielter Kernel-Optimierung brachte zuletzt 38 Prozent mehr Durchsatz im Maximum und 13 Prozent niedrigere Latenz im Minimum, über die gesamte Pareto-Kurve verteilt. Wer den Stack aktuell hält, bekommt solche Verbesserungen ohne eigene Entwicklungsarbeit.

Was Teams vor dem Umstieg klären müssen

Der Wechsel auf niedrigere Präzision ist kein Schalter, den man bedenkenlos umlegt. FP4 kann bei empfindlichen Schichten oder bestimmten Aufgaben die Antwortqualität senken. Die Praxis trennt deshalb: Attention und sensible Layer bleiben oft in FP8, der Großteil der Gewichte wandert nach FP4. Ohne eine eigene Eval-Suite, die echte Anfragen gegen die quantisierte Variante misst, bleibt der Qualitätsverlust ein blinder Fleck.

Was bricht

  • Blindes Quantisieren aller Schichten kostet Antwortqualität
  • Ohne Eval-Suite bleibt der Verlust unbemerkt bis zur Beschwerde
  • FP4-Vorteile verpuffen auf Hardware ohne native Tensor-Cores

Was trägt

  • Selektive Quantisierung: sensible Layer in FP8, Rest in FP4
  • Serving-Schicht aktuell halten, Kernel-Gewinne nimmt man mit
  • Kosten pro Token statt GPU-Auslastung als Steuerungsgröße

Wirtschaftlich lohnt sich der Aufwand dort, wo Volumen anfällt. Bei einem Dienst mit konstant hoher Last entscheidet der Preis pro Token über die Marge, nicht die nominelle GPU-Auslastung. Genau diese Kennzahl gehört in das Monitoring, neben Latenz und Trefferqualität. Wer sie nicht misst, optimiert im Dunkeln.

Für die Architektur heißt das: Modellwahl, Zahlenformat und Serving-Stack sind eine gemeinsame Entscheidung, keine drei getrennten. Die günstigste Inferenz entsteht nicht aus dem kleinsten Modell allein, sondern aus dem passenden Modell im richtigen Format auf abgestimmter Hardware.

Häufige Fragen

Verliert ein Modell durch FP4 spürbar an Qualität?

Es kann, muss aber nicht. Pauschales Quantisieren aller Schichten senkt die Treue messbar. Mit selektivem Vorgehen, das sensible Layer in FP8 belässt, bleibt der Verlust meist klein. Verlässlich beurteilen lässt sich das nur mit einer eigenen Eval-Suite auf echten Anfragen.

Brauche ich zwingend Blackwell-Hardware?

Für FP8 nicht, das beherrschen auch Hopper-GPUs nativ. Den vollen FP4-Vorteil mit nativen Tensor-Cores liefert erst Blackwell. Auf älterer Hardware bleibt FP8 der sinnvolle Kompromiss zwischen Spareffekt und Qualität.

Was bringt die Serving-Schicht, wenn die Hardware das Format kann?

Die Hardware stellt die Recheneinheiten bereit, aber erst die passenden Kernel rufen sie ab. vLLM nutzt über die FlashInfer-Bibliothek FP8- und FP4-Kernel, die auf die jeweilige GPU zugeschnitten sind. Ohne diese Schicht liegt der Hardware-Vorteil brach.

Wie groß ist der reale Durchsatzgewinn?

Dokumentiert sind bis zum Vierfachen an Durchsatz auf Blackwell gegenüber Hopper bei vergleichbarer Latenz für gängige Modelle. Zusätzlich bringen laufende Kernel-Optimierungen zweistellige Prozentgewinne, die man mit jedem Update mitnimmt.

Welche Kennzahl steuert die Inferenz-Kosten am besten?

Der Preis pro erzeugtem Token. Er verbindet GPU-Stunde, Format und Modellgröße zu einer Größe, die direkt auf die Marge eines Dienstes wirkt. GPU-Auslastung allein verschleiert, ob ein Aufruf günstig oder teuer war.

Quelle Titelbild: KI-generiert (Juni 2026), C2PA-Zertifikat im Bild hinterlegt

Auch verfügbar in

Ein Magazin der Evernine Media GmbH