27 Mai 2026

7 Min. Lesezeit

Am 16. Mai 2026 wurde in llama.cpp PR #22673 gemergt. Multi-Token Prediction läuft seitdem im Mainline. Auf einer RTX 3090 steigt Qwen3.6 27B damit von 38 auf 65 Tokens pro Sekunde, also gut 1,7x schneller. Das ist keine Hyperscaler-News, aber es verschiebt eine Rechnung, die viele DACH-Teams seit anderthalb Jahren im Kopf haben: ab wann lohnt sich lokale Inferenz und ab wann nicht.

Das Wichtigste in Kürze

  • MTP ist kein Trick fürs ganze Modell-Universum. Der Speedup greift nur bei Modellen, die mit MTP-Heads trainiert wurden, derzeit Qwen3.5, Qwen3.6, DeepSeek V3, DeepSeek R1 und Gemma 4.
  • Die 1,7x-Zahl ist real, aber an Hardware gebunden. Sie stammt vom RunPod-RTX-3090-Setup mit Qwen3.6 27B. Auf anderen Karten und mit anderen Quantisierungen liegt der Wert zwischen 1,4x und 2x.
  • Für die Token-Kosten-Diskussion verschiebt sich die Grenze. Lokale Inferenz mit einer Consumer-GPU im Hauspark wird billiger, ohne dass H100-Klasse plötzlich obsolet wäre. Wo lohnt der Switch, wo nicht.

Verwandt:EKS 1.36 wird teuer ohne FinOps  /  Gemini-CLI RCE im CI/CD patchen

Was MTP technisch macht und warum es eingebaut sein muss

Multi-Token Prediction ist im Kern eine Form von Speculative Decoding, bei der ein zweites Vorhersagenetz nicht extern danebenläuft, sondern als zusätzlicher Output-Kopf direkt im Hauptmodell sitzt. Der MTP-Head schlägt mehrere Token gleichzeitig vor, das Hauptmodell verifiziert diese im nächsten Forward-Pass und nimmt sie an oder verwirft sie. Wenn die Trefferquote stimmt, sinkt die Anzahl der teuren Forward-Passes pro generiertem Wort messbar.

Der entscheidende Unterschied zu klassischem speculative decoding mit einem separaten Draft-Modell ist sehr praktischer Natur. Du brauchst kein zweites Modell, das du parallel laden und im VRAM halten musst. Das spart bei 27B-Modellen auf einer 24-GB-Karte genau den Spielraum, den vorher der Draft frisst. In der Praxis heißt das, dass eine RTX 3090 oder 4090 mit MTP einen Speedup bekommt, den sie mit einem separaten Draft-Modell schon aus VRAM-Gründen nie sauber hinbekommen hätte.

Der Flag in llama.cpp heißt seit dem Merge –spec-type draft-mtp. Der Patch stammt von am17an, die Konversation rund um PR #22673 zeigt sauber, dass der Code zwar funktional ist, der MTP-Head aber im Modell-Checkpoint vorhanden sein muss. Ohne MTP-Head greift der Flag schlicht nicht.

Was die 1,7x-Zahl in der Praxis bedeutet

Die viel zitierte 1,7x-Marke kommt aus einem RunPod-Benchmark mit Qwen3.6 27B auf einer RTX 3090. Ohne MTP liefert das Setup 38 Tokens pro Sekunde im Single-Stream. Mit aktiviertem MTP-Head sind es 65. Das sind 27 Tokens pro Sekunde Differenz. Sie macht den Unterschied zwischen einer lokal angenehm wirkenden Interaktion und einer, die sich tippmaschinenhaft schleppt.

38 → 65 t/s
Qwen3.6 27B Single-Stream auf RunPod RTX 3090, 1,71x Throughput-Sprung durch Aktivierung des MTP-Heads.
Quelle: Community-Benchmark, dokumentiert auf Hugging Face und im llama.cpp PR #22673.

Wer das auf andere Hardware extrapolieren will, sollte vorsichtig sein. Auf einer 4090 verschiebt sich die Kurve, weil dort der Forward-Pass ohnehin schneller ist und der Anteil, den MTP einspart, relativ kleiner wirkt. Erste Community-Berichte sprechen dort eher von 1,4x bis 1,6x. Für Gemma 4 26B liegen die Berichte bei rund 40 Prozent Speedup. Ein realistischer Korridor für die nächsten Wochen sind 1,4x bis knapp 2x, je nach Modell, Karte und Quantisierungsstufe.

Welche Modelle MTP heute mitbringen und welche nicht

MTP ist kein Switch, den man auf jedes GGUF werfen kann. Der Head muss im Pretraining oder Fine-Tuning angelegt worden sein, ansonsten gibt es schlicht keine Vorhersage, die das Hauptmodell konsumieren könnte. Stand heute deckt das eine sehr überschaubare Modell-Liste ab.

MTP nativ verfügbar

  • Qwen3.5 ab 7B aufwärts
  • Qwen3.6 27B und A3B-MoE-Varianten
  • DeepSeek V3 und R1
  • Gemma 4 26B in der A4B-Variante

Ohne MTP-Head, kein Speedup

  • Llama 3 in allen Größen
  • Mistral- und Mixtral-Familien
  • Ältere Gemma-Stände vor Gemma 4
  • Eigene Fine-Tunes ohne explizit angelernten Head

Wer in den letzten Monaten auf einem Llama-3-70B-Setup aufgebaut hat, gewinnt durch den Merge erst einmal nichts. Die Frage ist nicht, ob man MTP einschaltet, sondern ob man bereit ist, das Basismodell zu wechseln. Für Code-Generation und Tool-Calling spricht aktuell vieles dafür, gerade Qwen3.6 anzuschauen. Für klassische RAG-Pipelines, die seit einem Jahr stabil mit Llama 3 laufen, wäre ein Wechsel reine Sparübung, die andere Risiken einbaut, von Prompt-Verhalten bis Tokenizer-Differenzen.

Hardware-Realität zwischen 3090, 4090, 5090 und H100

Die spannende Frage ist nicht, ob MTP auf einer H100 noch Wirkung zeigt. Die Antwort dort ist erwartbar weniger spektakulär. Die spannende Frage ist, wo der Schwellwert sitzt, ab dem eine Consumer-GPU plus MTP ernsthaft als Inferenz-Ersatz für eine API-Stunde gelten kann.

Auf einer RTX 3090 mit 24 GB VRAM liegt Qwen3.6 27B in Q4-Quantisierung mit MTP bei rund 65 Tokens pro Sekunde, Kontext-Längen bis 8k stabil. Das reicht für Code-Assistenz auf Teamebene, für RAG-Antworten in mittlerer Länge, für strukturierte Extraktion. Was es nicht reicht, ist gleichzeitiger Multi-User-Betrieb mit hoher Concurrency. Sobald drei Mitarbeitende parallel anfragen, fällt der erlebte Speedup wieder.

Die 4090 löst das nur teilweise. Mehr Bandbreite, mehr Rechenleistung, aber dieselbe 24-GB-Klasse. Wer ernsthaft mehrere Streams parallel bedienen will, landet bei der 5090 mit 32 GB oder direkt bei H100/H200. Und genau hier sitzt das, was viele Teams unterschätzen: MTP ist eine Antwort für den Einzel-Stream-Fall, nicht für den Hochlast-Mehrkunden-Betrieb. Im Rechenzentrum bleibt H100 die ehrlichere Lösung. Auf der Engineer-Workstation oder im kleinen Inhouse-Cluster wird die 4090 mit MTP plötzlich interessanter, als sie noch vor drei Wochen war.

Wann lokale Inferenz gegen Hyperscaler wirklich rechnet

Die naheliegende Rechnung wirkt zunächst einfach. Eine 4090 kostet rund 1.700 Euro im Inhouse-Einkauf. Strom dazu, Wartung dazu, AfA über drei Jahre. Wenn das Setup pro Tag mehrere Millionen Tokens stemmt, ist das günstiger als jede API-Stunde von OpenAI, Anthropic oder AWS Bedrock. So lautet die Folie. So ehrlich ist sie nicht.

Was die Folien selten zeigen, ist die operative Realität. Lokale Inferenz ist nie nur die Karte. Sie ist auch das Team, das das Modell updatet. Es ist die Verantwortung für Quantisierungs-Updates, für die Frage, ob Q4_K_M oder Q8_0 die richtige Stufe für den nächsten Quartalsbedarf ist. Es ist die Logging-Pipeline, die monitoringtauglich werden muss. Es ist die Bereitschaft jemandes, der den Inferenz-Stack pflegt, statt ihn nur zu nutzen.

Ich habe lokale Inferenz schon einmal zu früh ernsthaft betrieben. Das war 2024, mit einem 13B-Modell auf einer 3090. Der Cost-Vergleich auf dem Papier sah gut aus, in der Realität haben drei Engineering-Stunden pro Woche an Wartung den Cost-Vorteil aufgefressen. Heute, mit MTP und mit Modellen, die ihren Job in 27B zuverlässiger machen, ändert sich die Rechnung. Aber sie ändert sich nicht von allein.

Der ehrliche Korridor sieht aus meiner Sicht so aus. Lokale Inferenz mit MTP-fähigem 27B-Modell lohnt sich, wenn das Team mindestens einen Quartals-Tag pro Monat Engineering-Zeit für den Stack investieren kann, wenn die Workloads sich auf wenige Streams pro Stunde konzentrieren und wenn die Antworten nicht in jeder Sekunde der absoluten Spitze konkurrieren müssen. Sie lohnt sich nicht, wenn die Antwort-Qualität von GPT-5 oder Claude 4 erwartet wird, wenn Multi-Tenant-Concurrency erforderlich ist und wenn das Team nicht bereit ist, GGUFs als laufende Aufgabe zu sehen.

Häufige Fragen

Was ist Multi-Token Prediction in llama.cpp konkret?

MTP ist eine Form von Speculative Decoding, bei der ein zusätzlicher Output-Kopf direkt im Hauptmodell mehrere Token gleichzeitig vorschlägt. Das Hauptmodell verifiziert diese im nächsten Forward-Pass und nimmt sie an oder verwirft sie. Anders als beim klassischen Speculative Decoding wird kein zweites Draft-Modell parallel geladen.

Welche Modelle kann ich mit MTP heute beschleunigen?

Modelle, die einen MTP-Head im Pretraining bekommen haben. Konkret sind das aktuell Qwen3.5 ab 7B, Qwen3.6 inklusive 27B und A3B-MoE, DeepSeek V3, DeepSeek R1 und Gemma 4 26B-A4B. Llama 3, Mistral und ältere Gemma-Stände haben keinen MTP-Head und profitieren nicht.

Wie groß ist der Speedup wirklich?

Die häufig zitierte 1,7x-Zahl stammt von einem Qwen3.6-27B-Benchmark auf RTX 3090 mit 38 zu 65 Tokens pro Sekunde. Auf anderen Karten und mit anderen Modellen liegt der Korridor laut Community-Berichten zwischen 1,4x und 2x. Gemma 4 26B liegt eher bei 1,4x.

Welcher Flag in llama.cpp aktiviert MTP?

Seit dem Merge von PR #22673 am 16. Mai 2026 heißt der Flag –spec-type draft-mtp. Voraussetzung ist, dass das geladene Modell tatsächlich einen MTP-Head im Checkpoint hat. Ohne Head greift der Flag nicht.

Reicht MTP, um Hyperscaler-APIs abzulösen?

Für Einzel-Stream-Workloads auf einer Engineering-Workstation oder einem kleinen Inhouse-Cluster verschiebt MTP die Kosten-Rechnung deutlich. Für Multi-Tenant-Hochlast oder für absolute Spitzen-Qualität bleiben API-Modelle vorerst die ehrlichere Wahl. Die operative Realität, also das Pflegen der GGUFs, das Quantisierungs-Tuning, das Monitoring, kostet weiterhin Engineering-Zeit.

Bildquelle: KI-generiert (Mai 2026), C2PA-Zertifikat im Bild hinterlegt

Mehr aus dem MBF Media Netzwerk

Quelle Titelbild: Pexels / panumas nikhomkhai

Ein Magazin der Evernine Media GmbH