10 Min. Lesezeit
Lokale KI-Inferenz wird 2026 zum Standard-Workflow. Code-Completion, Spracherkennung, Bildgenerierung, LLM-Experimente: Alles läuft schneller und datenschutzkonformer auf der eigenen Hardware. Doch welche Grafikkarte braucht man wirklich? VRAM ist der entscheidende Faktor, nicht die reine Rechenleistung. Ein Vergleich von NVIDIA RTX 5090, RTX 4090, gebrauchter RTX 3090 und AMD RX 7900 XTX, mit konkreten Empfehlungen für verschiedene Budgets und Anwendungsfälle.
Das Wichtigste in Kürze
- VRAM ist der Flaschenhals für lokale KI-Modelle. Faustformel: 2 GB VRAM pro Milliarde Parameter bei FP16-Präzision. Ein 70B-Modell braucht mindestens 24 GB.
- Die RTX 5090 mit 32 GB GDDR7 ist die einzige Consumer-Karte, die 70B-Modelle in voller Q4-Quantisierung lokal ausführt. Preis: ab 1.999 US-Dollar.
- Die RTX 4090 mit 24 GB bleibt das beste Preis-Leistungs-Verhältnis für ernsthafte lokale KI-Arbeit. Sie schafft 8B-Modelle mit 128 Token pro Sekunde.
- Eine gebrauchte RTX 3090 mit 24 GB VRAM für unter 800 Euro bietet identische Modellkapazität wie die RTX 4090 bei einem Drittel des Preises.
- Cloud-GPUs lohnen sich für sporadische Nutzung. Ab 4 Stunden täglicher GPU-Auslastung ist lokale Hardware günstiger als jeder Cloud-Provider.
Warum VRAM wichtiger ist als TFLOPS
Bei Gaming-Benchmarks zählt rohe Rechenleistung. Bei KI-Inferenz zählt zuerst der Speicher. Ein Large Language Model wie Llama 3 70B braucht bei Q4-Quantisierung etwa 40 GB Speicher. Passt das Modell nicht komplett in den VRAM, muss es auf CPU-RAM ausgelagert werden. Das verlangsamt die Inferenz um den Faktor 10 bis 20. Praktisch bedeutet das: Ein 70B-Modell auf einer 24-GB-Karte läuft, aber mit so viel Offloading, dass die Antwortzeiten kaum noch brauchbar sind.
Die Speicherbandbreite bestimmt, wie schnell das Modell Daten zwischen GPU-Speicher und Recheneinheiten bewegen kann. Die RTX 5090 erreicht hier 1,79 TB/s, ein Plus von 78 Prozent gegenüber der RTX 4090 mit rund 1 TB/s. Für Modelle, die komplett in den VRAM passen, übersetzt sich das direkt in schnellere Token-Generierung. Die RTX 5090 schafft 185 Token pro Sekunde bei 8B-Modellen, die RTX 4090 liegt bei 128. Bei 70B-Modellen in Q4 liefert die RTX 5090 15 bis 20 Token pro Sekunde, was für interaktive Chat-Anwendungen ausreicht.
NVIDIA RTX 5090: Die Referenz mit 32 GB
Die RTX 5090 basiert auf NVIDIAs Blackwell-Architektur, gefertigt im TSMC 4NP-Prozess. 21.760 CUDA-Cores, 680 Tensor-Cores der fünften Generation, 32 GB GDDR7 auf einem 512-Bit-Bus. Der offizielle Preis liegt bei 1.999 US-Dollar, real sind die Karten seit dem Launch im Januar 2025 selten unter 2.500 Euro zu bekommen.
Für lokale KI-Arbeit ist die RTX 5090 die einzige Consumer-Karte, die 70B-Modelle in voller Q4-Quantisierung ohne Offloading ausführt. Das macht sie zum Referenzgerät für Entwickler, die regelmäßig mit großen Sprachmodellen experimentieren. Llama 3 70B läuft flüssig, Whisper Large transkribiert Audio in Echtzeit und Stable Diffusion XL generiert Bilder in unter 5 Sekunden.
Der Haken: 575 Watt TDP. Das erfordert ein entsprechendes Netzteil (mindestens 1.000 Watt empfohlen), gute Gehäusebelüftung und höhere Stromkosten. Über ein Jahr summiert sich der Stromverbrauch bei vier Stunden täglicher Nutzung auf etwa 200 bis 250 Euro. Das relativiert den Kostenvorteil gegenüber Cloud-GPUs, eliminiert ihn aber nicht.
RTX 4090: Das beste Preis-Leistungs-Verhältnis
Die RTX 4090 mit 24 GB GDDR6X bleibt Anfang 2026 die vernünftigste Wahl für ernsthafte lokale KI-Arbeit. Die Karte schafft 128 Token pro Sekunde bei 8B-Modellen und 52 Token pro Sekunde bei Llama 3.1 70B in Q4. Seit dem Launch der RTX 5090 sind die Preise für neue RTX 4090 auf 1.400 bis 1.600 Euro gefallen. Gebrauchte Exemplare gibt es ab 1.100 Euro.
24 GB VRAM reichen für die meisten praktischen Anwendungsfälle: 8B- und 13B-Modelle laufen problemlos, 30B-Modelle in Q4 passen gerade noch, 70B erfordert aggressives Quantisieren auf Q2 oder Offloading. Wer primär mit Modellen bis 30B arbeitet, mit Stable Diffusion XL Bilder generiert oder Whisper für Transkription nutzt, braucht die 32 GB der RTX 5090 nicht. Die 24 GB der RTX 4090 decken diesen Bedarf vollständig ab.
Budget-Tipp: Gebrauchte RTX 3090 unter 800 Euro
Die RTX 3090 bietet identische 24 GB VRAM wie die RTX 4090, bei deutlich niedrigerer Rechenleistung. Im Gebrauchtmarkt liegt sie bei 600 bis 800 Euro. Die Token-Rate bei 8B-Modellen liegt bei etwa 112 Token pro Sekunde, bei 70B Q4 bei rund 35 Token pro Sekunde. Das ist langsamer als die 4090, aber für viele Workflows ausreichend.
Der Business Case ist klar: Für ein Drittel des Preises bekommt man die gleiche Modellkapazität. Wer nicht auf maximale Inferenz-Geschwindigkeit angewiesen ist, sondern lokale KI-Modelle für Batch-Verarbeitung, Offline-Transkription oder gelegentliche LLM-Experimente nutzt, fährt mit einer gebrauchten 3090 am günstigsten. Der höhere Stromverbrauch (350W TDP vs. 450W bei der 4090) ist bei sporadischer Nutzung vernachlässigbar.
Ein Hinweis zur Langlebigkeit: Mining-Karten, die häufig gebraucht angeboten werden, sind entgegen der verbreiteten Meinung nicht zwangsläufig verschlissen. Mining betreibt GPUs bei konstanter, moderater Last mit stabilen Temperaturen. Das ist schonender als Gaming-Sessions mit ständigen Lastwechseln. Trotzdem empfiehlt sich eine Karte mit nachweisbarer Herkunft und idealerweise Restgarantie.
AMD Alternative: RX 7900 XTX mit 24 GB
AMDs RX 7900 XTX bietet 24 GB VRAM für unter 900 Euro und ist damit die beste VRAM-pro-Euro-Karte im aktuellen Angebot. Die Inferenz-Performance liegt bei etwa 78 Token pro Sekunde auf Llama 3 8B. Das ist langsamer als NVIDIAs Karten, aber für viele Workflows ausreichend.
Die Einschränkung liegt im Software-Ökosystem. CUDA dominiert die KI-Landschaft. Die meisten Frameworks sind für NVIDIA optimiert. ROCm, AMDs Pendant zu CUDA, hat in den letzten Monaten deutliche Fortschritte gemacht, ist aber noch nicht auf dem gleichen Kompatibilitätsniveau. PyTorch läuft stabil auf ROCm, aber spezialisierte Tools wie TensorRT und einige Quantisierungs-Frameworks erfordern Workarounds oder funktionieren nicht. Wer primär mit Ollama und llama.cpp arbeitet, findet auf AMD eine brauchbare Umgebung. Wer auf das volle NVIDIA-Ökosystem angewiesen ist, sollte bei GeForce bleiben.
AMDs kommende RX 9070 XT setzt auf die neue RDNA-4-Architektur mit verbesserter KI-Performance. Die Karte wird voraussichtlich 16 GB VRAM mitbringen, was sie für Modelle bis 13B positioniert. Als Budget-Einstieg in lokale KI-Inferenz könnte sie interessant werden, allerdings hängt der praktische Nutzen davon ab, wie schnell das ROCm-Ökosystem nachzieht. Für Entwickler, die heute kaufen müssen, ist die RX 7900 XTX die sichere AMD-Wahl.
Cloud-GPU vs. lokale Hardware: Die FinOps-Rechnung
Cloud-GPUs kosten je nach Provider und Modell zwischen 0,50 und 3,50 Euro pro Stunde. Eine RTX 4090-Instanz bei Lambda Labs liegt bei etwa 0,75 Euro pro Stunde, eine A100 80 GB bei rund 2,00 Euro. Lokale Hardware hat Anschaffungskosten, aber keine laufenden Mietgebühren.
Die Break-even-Rechnung ist einfach: Eine RTX 4090 für 1.500 Euro amortisiert sich bei 4 Stunden täglicher Nutzung (zu Cloud-Preisen von 0,75 Euro/h) nach etwa 500 Tagen, also knapp 1,5 Jahren. Bei sporadischer Nutzung von weniger als einer Stunde pro Tag lohnt sich die Cloud. Wer täglich mehrere Stunden mit lokalen Modellen arbeitet, spart mit eigener Hardware erheblich. Dazu kommt der Datenschutz-Vorteil: Lokale Inferenz bedeutet keine Daten in der Cloud, keine API-Abhängigkeiten, keine laufenden Kosten bei steigender Nutzung.
Ein oft übersehener Faktor ist die Verfügbarkeit. Cloud-GPU-Instanzen sind nicht immer sofort verfügbar, besonders bei populären Modellen wie der A100 oder H100. Wartezeiten von Minuten bis Stunden sind keine Seltenheit. Lokale Hardware steht immer bereit, ohne Provisionierungszeit. Für Entwicklungsteams, die iterativ mit verschiedenen Modellen experimentieren und dabei schnelle Feedback-Zyklen brauchen, ist das ein relevanter Produktivitätsfaktor.
Die TCO-Betrachtung (Total Cost of Ownership) über drei Jahre: Eine RTX 4090 kostet 1.500 Euro Anschaffung plus etwa 400 Euro Strom bei täglicher 4-Stunden-Nutzung. Cloud-Äquivalent bei gleicher Nutzung: 0,75 Euro mal 4 Stunden mal 365 Tage mal 3 Jahre ergibt 3.285 Euro. Die lokale Variante spart über drei Jahre rund 1.400 Euro ein. Die RTX 5090 mit höheren Anschaffungskosten amortisiert sich nach etwa zwei Jahren, spart dann aber umso stärker.
„Die Frage ist nicht ob lokale KI-Inferenz sich lohnt, sondern ab wann. Vier Stunden GPU-Nutzung pro Tag sind der Kipppunkt. Darunter ist Cloud günstiger. Darüber fährt lokale Hardware die Kosten runter, mit jedem Monat mehr.“
Empfehlung nach Anwendungsfall
Für Entwickler, die Llama 3 8B oder vergleichbare Modelle für Code-Completion und Chat nutzen, reicht eine Karte mit 16 GB VRAM. Die RTX 4070 Ti Super (16 GB) ab 650 Euro ist hier der Sweet Spot. Whisper läuft lokal in Echtzeit, Stable Diffusion generiert Bilder in akzeptabler Zeit und kleinere LLMs antworten flüssig.
Wer regelmäßig mit 30B- bis 70B-Modellen arbeitet oder Multi-Modell-Setups betreibt, braucht 24 GB. RTX 4090 (neu oder gebraucht) oder AMD RX 7900 XTX sind hier die Optionen. Die 4090 ist schneller, die AMD günstiger.
Für Power-User, die 70B-Modelle ohne Quantisierungskompromisse lokal laufen lassen wollen oder mit mehreren Modellen parallel arbeiten, ist die RTX 5090 mit 32 GB die einzige Consumer-Option. Wer noch mehr VRAM braucht, muss auf Profi-Karten wie die NVIDIA A6000 (48 GB) oder Apple Silicon Macs mit Unified Memory ausweichen. Ein MacBook Pro M5 Max mit 128 GB Unified Memory kann theoretisch sogar 405B-Modelle laden, bei deutlich niedrigerer Inferenz-Geschwindigkeit als eine dedizierte GPU.
Ein pragmatischer Tipp für Teams: Nicht jeder Entwickler braucht eine Top-GPU. Ein Team-Setup mit einer oder zwei RTX 4090/5090 als geteilte Inferenz-Server (über Ollama oder vLLM im Netzwerk) und Standard-Workstations für die tägliche Arbeit ist oft kosteneffizienter als jede Workstation mit einer High-End-Karte auszustatten. Das spart Budget, zentralisiert die GPU-Verwaltung und vereinfacht Updates. Modelle werden einmal zentral auf dem Server aktualisiert statt auf jeder einzelnen Workstation.
Häufige Fragen
Kann ich ein 70B-Modell auf einer 24-GB-Karte laufen lassen?
Ja, aber mit Einschränkungen. Bei Q4-Quantisierung braucht Llama 3 70B etwa 40 GB. Auf einer 24-GB-Karte wird ein Teil des Modells auf den CPU-RAM ausgelagert (Offloading), was die Inferenz-Geschwindigkeit auf 5 bis 10 Token pro Sekunde reduziert. Für interaktive Nutzung ist das grenzwertig, für Batch-Verarbeitung akzeptabel.
Lohnt sich eine gebrauchte Mining-GPU für KI-Inferenz?
Grundsätzlich ja. Mining betreibt GPUs bei konstanter, moderater Last, was schonender ist als Gaming mit ständigen Lastwechseln. Eine gebrauchte RTX 3090 aus dem Mining-Bereich bietet 24 GB VRAM für 600 bis 800 Euro. Achten Sie auf nachweisbare Herkunft, Restgarantie und testen Sie die Karte mit einem Stresstest vor dem Kauf.
Reichen 8 GB VRAM für lokale KI-Modelle?
Für kleine Modelle bis 7B Parameter in Q4-Quantisierung ja. Llama 3 8B läuft bei aggressiver Quantisierung auf 8 GB. Whisper Small ebenfalls. Für ernsthafte Arbeit mit größeren Modellen, Bildgenerierung oder Multi-Modell-Setups sind 8 GB zu wenig. 16 GB sollten das Minimum sein.
Ist ein Apple Silicon Mac eine Alternative zu einer dedizierten GPU?
Für Inferenz ja, mit Einschränkungen. Apple Silicon nutzt Unified Memory, das zwischen CPU und GPU geteilt wird. Ein M5 Max mit 128 GB kann theoretisch sehr große Modelle laden. Die Inferenz-Geschwindigkeit liegt aber deutlich unter einer dedizierten NVIDIA-GPU, weil die Speicherbandbreite geringer ist. Für gelegentliche LLM-Nutzung eine praktische Lösung, für professionelle KI-Workflows kein Ersatz.
Lesetipps der Redaktion
MacBook Pro M5 im Praxistest: ARM-Chip gegen Windows on ARM
Serverless KI ist überbewertet – hier ist was stattdessen zählt
Mehr aus dem MBF Media Netzwerk
Data Act: Was IoT-Hersteller im Mittelstand wissen müssen (MyBusinessFuture)
Cyber Resilience Act: Die 24-Stunden-Meldepflicht ab September 2026 (SecurityToday)
Quelle Titelbild: Pexels / Elias Gamez (px:10558582)