Gemma 4 lokal deployen: Open-Source für Cloud-Architekturen

3 April 2026

7 Min. Lesezeit

Google hat mit Gemma 4 vier Open-Source-Modelle veröffentlicht, die auf Consumer-Hardware laufen und in Benchmarks an deutlich größere Modelle heranreichen. Für Cloud-Architekturen verschiebt das die Grenze zwischen Edge und Cloud – und macht hybride KI-Deployments erstmals für den breiten Einsatz realistisch.

Das Wichtigste in Kürze

Gemma 4 umfasst vier Modellgrößen (2B bis 31B Parameter), die lokal auf GPUs ab 16 GB VRAM lauffähig sind.
Das 31B-Modell belegt Platz 3 unter allen offenen Modellen auf dem Arena AI Text Leaderboard (ELO 1452).
Apache-2.0-Lizenz erlaubt kommerziellen Einsatz ohne Einschränkungen – auch On-Premise und Air-Gapped.
Native Function Calling und strukturierter JSON-Output machen die Modelle direkt für Agentic Workflows einsetzbar.
Für DACH-Unternehmen entsteht eine echte Alternative zu API-basierten KI-Diensten der großen US- und China-Provider.

Vier Modelle, ein Ziel: KI vom Rechenzentrum auf den Schreibtisch

Googles Gemma-Familie war von Anfang an auf lokale Ausführung ausgelegt. Mit der vierten Generation setzt Google diesen Kurs konsequent fort – und liefert dabei Modelle, die in ihrer Größenklasse neue Maßstäbe setzen.

Die vier Varianten im Überblick:

E2B

2B effektiv, Mobil/IoT

E4B

4B effektiv, Edge

26B MoE

4B aktiv, Workstation

31B

Dense, höchste Qualität

Die beiden kleineren Modelle (E2B, E4B) nutzen Per-Layer Embeddings (PLE), eine Technik die jeder Decoder-Schicht eigene Token-Embeddings zuweist. Das Ergebnis: große Embedding-Tabellen, aber minimaler RAM-Verbrauch zur Inferenzzeit. Google hat diese Modelle zusammen mit Qualcomm und MediaTek für den Betrieb auf Smartphones, Raspberry Pi und Nvidia Jetson Orin Nano optimiert. 128K Token Kontext, Multimodal inklusive Audio-Input.

Die beiden größeren Modelle zielen auf Workstations und lokale Server. Das 26B-MoE-Modell aktiviert nur 4 Milliarden Parameter pro Inferenz-Schritt – bei annähernd gleicher Qualität wie das 31B-Dense-Modell. Beide unterstützen 256K Token Kontext und verarbeiten nativ Video, Bilder und strukturierte Daten.

KENNZAHL

85,2%

AME 2026 bei 89%, LiveCodeBench 80%, T2 Bench 86% und GPQA

KENNZAHL

89%

LiveCodeBench 80%, T2 Bench 86% und GPQA Diamond 84,3%. Be

KENNZAHL

80%

T2 Bench 86% und GPQA Diamond 84,3%. Bei Tool Calling – ei

Benchmarks: Wo steht Gemma 4 wirklich?

Die Benchmark-Ergebnisse sind für ein Modell dieser Größe bemerkenswert. Auf dem Arena AI Text Leaderboard erreicht Gemma 4 31B einen ELO-Score von 1452 – Platz 3 unter allen offenen Modellen, hinter GLM-5 und Kimi K2.5, die beide ein Vielfaches an Parametern benötigen.

Im Detail: MMLU 85,2%, AME 2026 bei 89%, LiveCodeBench 80%, T2 Bench 86% und GPQA Diamond 84,3%. Bei Tool Calling – einem entscheidenden Kriterium für automatisierte Workflows – erreicht das 31B-Modell in unabhängigen Tests ein perfektes Ergebnis.

Der relevante Vergleichspunkt für lokale Deployments: Alibabas Qwen 3.5 liefert ähnliche Benchmark-Werte, benötigt dafür aber 397 Milliarden Parameter mit 17 Milliarden aktiven. Das ist auf Consumer-Hardware nicht lauffähig. Gemma 4 31B läuft auf einer einzelnen GPU mit 24 GB VRAM – eine RTX 4090 oder vergleichbar reicht aus.

Lokaler Betrieb: Was braucht man konkret?

Gemma 4 ist über alle gängigen Inference-Frameworks verfügbar: Ollama, LM Studio, llama.cpp, MLX (für Apple Silicon), vLLM und Nvidia NIMs. Die Einstiegshürde für den lokalen Betrieb ist damit so niedrig wie nie.

Für das 31B-Dense-Modell in Q4-Quantisierung sollte man mit etwa 18-20 GB VRAM rechnen. Das E4B-Modell läuft problemlos auf einer GPU mit 8 GB oder direkt auf dem Smartphone. Die Inference-Geschwindigkeit hängt vom gewählten Framework und der Quantisierungsstufe ab – erste Community-Tests berichten von 15-25 Token pro Sekunde auf einer RTX 4090 für das 31B-Modell.

„Open-Source-Modelle werden kleiner, besser und schneller. Das ist der Grund, warum ich so optimistisch für Edge Compute bin – dieses Hybrid-Modell zwischen gehosteten Frontier-Modellen für die schwierigsten Aufgaben und lokaler Inferenz für den Großteil der Workloads.“
– Matthew Berman, KI-Analyst (YouTube, April 2026)

Ein Punkt verdient Beachtung: Der KV-Cache der Gemma-Modelle ist vergleichsweise groß. Wer lange Kontextfenster nutzen will, braucht entsprechend mehr RAM. Für produktive Deployments mit vollem 256K-Kontext sollte das 31B-Modell auf Hardware mit mindestens 48 GB VRAM oder Unified Memory betrieben werden.

Was das für Cloud-Architekturen bedeutet

Die eigentliche Nachricht ist nicht, dass es ein weiteres Open-Source-Modell gibt. Es ist, dass die Qualitätslücke zwischen lokalen und gehosteten Modellen für die Mehrheit der Anwendungsfälle geschlossen wird.

Die Implikation für Cloud-Architekten: Nicht jeder KI-Workload muss in die Cloud. Klassifizierung, Zusammenfassungen, strukturierte Datenextraktion, Code-Assistenz, Dokument-Analyse – all das ist mit Gemma 4 lokal abbildbar, ohne dass sensible Daten das Unternehmensnetz verlassen.

Das Hybrid-Modell, das sich abzeichnet: Lokale Modelle für den Großteil der täglichen Inferenz, gehostete Frontier-Modelle (GPT-5, Claude Opus) für die komplexesten Aufgaben. Die Routing-Logik dazwischen wird zur neuen Kernkompetenz in MLOps-Teams.

Für DACH-Unternehmen kommt ein weiterer Faktor hinzu: Datenhoheit. Wer KI-Workloads ausschließlich über US- oder chinesische APIs betreibt, gibt Kontrolle über Verarbeitungsort und Datenflüsse ab. Lokale Modelle unter Apache-2.0-Lizenz eliminieren dieses Risiko vollständig. Das ist keine ideologische Frage – es ist eine architektonische Entscheidung die DSGVO-Konformität vereinfacht und Latenz reduziert.

Einschätzung: Ein Wendepunkt für Edge-KI

Gemma 4 ist kein Durchbruch im Sinne einer völlig neuen Technologie. Es ist die konsequente Bestätigung eines Trends: Die besten offenen Modelle werden klein genug für lokale Hardware und gut genug für Produktiveinsatz. Google investiert massiv in dieses Segment – und mit Apache 2.0 gibt es keine Lizenzfallen.

Wer heute Cloud-KI-Strategien plant, sollte lokale Inferenz als Architektur-Baustein einplanen. Nicht als Ersatz für Frontier-Modelle, sondern als komplementäre Schicht, die 70-80% der Standard-Inferenz-Workloads abfangen kann – schneller, günstiger und ohne Datenabfluss.

Die Frage ist nicht mehr ob lokale KI produktionsreif ist. Die Frage ist, wie schnell Infrastruktur-Teams ihre GPU-Beschaffung und MLOps-Pipelines darauf ausrichten.

Häufige Fragen

Welche Hardware brauche ich für Gemma 4 31B?

Für das 31B-Dense-Modell in Q4-Quantisierung werden etwa 18-20 GB VRAM benötigt. Eine Nvidia RTX 4090 (24 GB), RTX 5090 oder ein Apple-Silicon-Mac mit 32 GB Unified Memory reichen aus. Für den vollen 256K-Kontext sollten es 48 GB oder mehr sein.

Ist Gemma 4 für kommerzielle Nutzung freigegeben?

Ja. Gemma 4 steht unter der Apache-2.0-Lizenz, einer der permissivsten Open-Source-Lizenzen. Kommerzieller Einsatz, Modifikation und Redistribution sind ohne Einschränkungen erlaubt – auch in Air-Gapped-Umgebungen und für proprietäre Produkte.

Wie verhält sich Gemma 4 im Vergleich zu Qwen 3.5 und Llama?

Gemma 4 31B erreicht ähnliche ELO-Scores wie Qwen 3.5 (397B/17B aktiv), ist aber mit 31B Parametern deutlich kleiner und auf Consumer-Hardware lauffähig. Gegenüber Metas Llama-Modellen bietet Gemma 4 stärkere Tool-Calling-Fähigkeiten und native Multimodalität. Die Modellwahl hängt vom konkreten Einsatzzweck ab – für Agentic Workflows hat Gemma 4 aktuell die Nase vorn.

Ersetzt lokale KI die Cloud-KI-Dienste?

Nicht vollständig. Frontier-Modelle wie Claude Opus oder GPT-5 bleiben für die komplexesten Aufgaben überlegen. Lokale Modelle wie Gemma 4 eignen sich aber für die Mehrheit der Standard-Workloads: Klassifizierung, Zusammenfassung, Datenextraktion, Code-Assistenz. Der effiziente Ansatz ist ein hybrides Routing: Lokal wo möglich, Cloud wo nötig.

Welche Inference-Frameworks unterstützen Gemma 4?

Gemma 4 ist ab Veröffentlichung verfügbar über Ollama, LM Studio, llama.cpp, MLX (Apple Silicon), vLLM, Nvidia NIMs, HuggingFace und Unsloth. Die Integration in bestehende MLOps-Pipelines ist damit ohne Custom-Adapter möglich.

Quelle Titelbild: Pexels

Auch verfügbar in

Français Español English