25 April 2026
TIEFANALYSE · AI-INFRASTRUKTUR
9 Min. Lesezeit

Am 22. April 2026 um 03:35 UTC hat Sysdig den ersten realen Exploit-Versuch gegen CVE-2026-33626 in einem Honeypot beobachtet, 12 Stunden und 31 Minuten nach der Veröffentlichung des GitHub-Advisories. Der Angriffspfad in einer Vision-Language-Model-Installation von LMDeploy führte in weniger als acht Minuten durch die AWS-Instance-Metadata-Service, eine lokale Redis-Instanz und einen MySQL-Backend-Port. Für Cloud-Architekten ist der Fall weniger ein LMDeploy-Problem als eine architektonische Frage: Warum stehen Inference-Server überhaupt im gleichen VPC-Segment wie Stateful-Backends; wer trägt die operative Verantwortung für diese Segmentierung im KI-Stack 2026?

Das Wichtigste in Kürze (Stand 24.04.2026):
  • CVE-2026-33626 in LMDeploy (CVSS 7.5): Vision-LLM-SSRF über die load_image()-Funktion, Exploit binnen 12,5 Stunden nach Advisory durch Sysdig-Honeypot dokumentiert (22.04.2026, 03:35 UTC).
  • Angriffskette: Vision-API-Endpunkt lädt beliebige URL, ohne Private-IP-Validierung. Folge: IMDS-Zugriff (169.254.169.254), interne Service-Enumeration, Cloud-Credential-Exfiltration.
  • Der Exploit nutzt Request-Repo-Callbacks und wechselnde Modelle (internlm-xcomposer2, InternVL2-8B) zur Verschleierung. Tool-getrieben, nicht handgemacht.
  • Die strukturelle Lehre: Model-Server gehören nicht ins gleiche VPC-Segment wie Stateful-Backends. Private-IP-Blocker allein reichen als Schutzmaßnahme 2026 nicht mehr.
  • Für DACH-Cloud-Architekten heißt das drei konkrete Hausaufgaben: Netzwerk-Segmentierung, IMDSv2-Enforcement und LLM-spezifisches Egress-Monitoring in der nächsten Sprint-Planung.

Was CVE-2026-33626 technisch erzeugt

Was ist Server-Side Request Forgery (SSRF)? SSRF bezeichnet eine Klasse von Schwachstellen, bei denen ein Angreifer den Server dazu bringt, HTTP-Requests zu Zielen zu senden, die für den Angreifer direkt nicht erreichbar sind. Klassisch nutzen Angreifer das, um interne Dienste (Metadata-Endpunkte, Datenbanken, Admin-Oberflächen) anzusprechen, die vom öffentlichen Internet isoliert sein sollten. In Inference-Stacks wird SSRF besonders gefährlich, weil Vision-LLM-Server architektonisch dafür gebaut sind, Bilder von beliebigen URLs zu laden – und genau dieser Standardfall ist der Angriffspfad.

In LMDeploy liegt die Schwachstelle in der load_image()-Funktion im Modul lmdeploy/vl/utils.py. Die Funktion nimmt eine URL entgegen und lädt das Bild für die nachgelagerte Vision-Pipeline. Eine Private-IP-Validierung fehlt in der betroffenen Version. Ein Angreifer schickt eine normale Vision-Request mit einer URL wie http://169.254.169.254/latest/meta-data/iam/security-credentials/ und bekommt, solange der Inference-Server AWS-IAM-Credentials hat, die entsprechenden Response-Metadaten zurück. Der Vision-LLM wird zum Bote, der den eigenen Cloud-Credential-Store veröffentlicht.

Die von Sysdig beobachtete Angriffskette ist methodisch und tool-gesteuert. Phase eins: Aufruf des AWS-IMDS zur Credential-Exfiltration. Phase zwei: Probes gegen localhost Redis (Port 6379), um lose konfigurierte Key-Value-Caches zu enumerieren. Phase drei: MySQL-Port-3306-Scans auf internen Adressen, flankiert von Out-of-Band-DNS-Callbacks via requestrepo.com zur Bestätigung blinder SSRF-Pfade. Der gesamte Ablauf passt laut Sysdig in weniger als acht Minuten und ist aufgrund der Modell-Rotationen schwerer zu detektieren als eine klassische Skript-Kiddie-Attacke.

Warum Inference-Stacks systematisch anfällig sind

Vision-Language-Model-Server haben eine Eigenschaft, die in der klassischen Backend-Welt selten so stark auftritt: Ihre funktionale Aufgabe ist es, externe Inhalte einzuladen und zu verarbeiten. Das ist ein geborener SSRF-Vektor. Gleichzeitig werden diese Server in vielen DACH-Inference-Stacks in denselben VPC-Segmenten betrieben wie Vector-Datenbanken, Feature-Stores und Anwendungs-Caches, weil die Latenz optimiert werden soll und die Architektur am Whiteboard „logisch“ wirkt. Genau diese Co-Location ist 2026 nicht mehr tragbar.

Drei Kennzahlen aus dem Sysdig-Advisory

12,5 h
vom GitHub-Advisory zum ersten Exploit-Versuch laut Sysdig-Honeypot-Daten. 22.04.2026, 03:35 UTC.
CVSS 7.5
Schweregrad der Schwachstelle, getrieben von hoher Ausnutzbarkeit und typischer Impact-Dimension (Credential-Exfiltration, interner Scan).
3 Phasen
Angriffsablauf: IMDS-Zugriff, lokale Service-Enumeration (Redis, MySQL), Out-of-Band-Callback-Bestätigung über requestrepo.com.
Der Unterschied zwischen „security by design“ und „security by incident“ ist ungefähr eine Woche Schlaf. Bei Inference-Stacks ist die Differenz geschrumpft auf die 12,5 Stunden zwischen Advisory und erstem Exploit.

Die drei Hausaufgaben für Cloud-Architekten

Hausaufgabe 1: Inference-Server in eigene VPC-Segmente

Die erste und wichtigste Maßnahme: Vision- und Language-Model-Server gehören in dedizierte VPC-Segmente ohne direkte Route zu Stateful-Backends wie Redis, MySQL, Postgres, MongoDB oder internen Admin-Oberflächen. Das ist keine Theorie, sondern eine Konsequenz aus der funktionalen Eigenschaft des Model-Servers (beliebige URLs laden). In Terraform-Konfigurationen bedeutet das konkret: Eigene Subnetze, eigene Security-Groups mit expliziten Egress-Regeln, keine Peering-Routen zu Datenbank-Subnetzen. Wer diese Segmentierung nicht hat, kann den LMDeploy-Exploit nicht abschließend verhindern, egal wie schnell der Patch eingespielt wird.

Ein pragmatischer Zwischenschritt: Einführung einer „AI-Zone“ als drittes Sicherheitsgebiet neben DMZ und internem Netz. In der AI-Zone laufen Modell-Server, Model-Gateways und Vector-DB-Replikate. Stateful-Backends bleiben im internen Netz. Traffic zwischen den Zonen läuft ausschließlich über Service-Accounts mit engen Policies. Wir sehen in unseren Mandaten, dass diese Topologie in vier bis sechs Wochen einführbar ist, auch in Brownfield-Umgebungen mit bestehender Infrastruktur.

Hausaufgabe 2: IMDSv2 erzwingen, keine v1-Reste zulassen

Der LMDeploy-Exploit hat IAM-Credentials über den IMDSv1-Pfad (Simple HTTP GET auf 169.254.169.254) abgerufen. AWS hat seit 2023 IMDSv2 als Standard definiert, viele Legacy-Deployments laufen aber noch auf v1. In Azure und GCP gibt es analoge Metadata-Services mit ähnlichen Schutzmechanismen. Die operative Konsequenz: IMDSv2 in allen EC2-Launch-Templates erzwingen (HttpTokens = „required“), Azure-Instance-Metadata-Service mit Header-Anforderungen sichern und GCP-Metadata mit Metadata-Flavor-Header-Prüfung absichern. Für DACH-Teams mit mehreren AWS-Accounts empfehlen wir eine SCP-Policy auf Organisation-Ebene, die IMDSv1 global verbietet. Das fängt auch die Legacy-Workloads ab, die in Einzel-Account-Konfigurationen durch die Roste rutschen.

Hausaufgabe 3: LLM-spezifisches Egress-Monitoring

Klassisches SIEM erkennt einen SSRF-Angriff auf einen Vision-LLM oft nicht, weil die Requests als normale Bild-Loads aussehen. Die Detection läuft besser auf Egress-Ebene: Welche Ziele hat der Inference-Server wirklich angesprochen? Wenn ein Vision-LLM in der letzten Stunde 15 Anfragen auf 169.254.169.254 gemacht hat, ist das ein Signal. Wenn derselbe Server Requests an requestrepo.com, oast.pro oder burpcollaborator.net schickt, ist das ein anderes. Die konkrete Implementierung: Ein Egress-Proxy mit allowlist-basiertem Routing und Alerting auf Anomalien im ausgehenden Traffic. Wer das nicht hat, sieht den Angriff erst in den Billing-Reports, wenn die Credentials bereits exfiltriert sind.

Der Blick auf die Supply-Chain von Inference-Komponenten

Ein weiterer Aspekt, der im aktuellen Fall verdeckt bleibt, ist die Supply-Chain-Dimension. LMDeploy ist eine Open-Source-Komponente, die in vielen DACH-Produktions-Stacks genutzt wird, oft als transitive Abhängigkeit in selbst gebauten Inference-Pipelines oder als Teil von Kubernetes-Deployments aus Helm-Charts Dritter. Wer keinen klaren SBOM (Software Bill of Materials) für die eigene AI-Infrastruktur hat, weiß im Ernstfall nicht, wo LMDeploy überall aktiv ist. Das macht Patchen zum Schnitzeljagd-Spiel und verzögert die Reaktionszeit dramatisch.

Der pragmatische Gegen-Schritt: Ein SBOM für den gesamten AI-Stack, idealerweise automatisiert durch CycloneDX oder SPDX-Generierung in der CI-Pipeline. Für Mittelstands-Teams reicht in Jahr eins ein wöchentlicher SBOM-Snapshot mit Delta-Report, der kritische CVEs gegen die eigene Komponenten-Liste spiegelt. Das Tool-Set dafür ist verfügbar (Trivy, Syft, Dependency-Track), die Organisation muss es nur einführen. Wer das jetzt macht, ist für den nächsten CVE in drei Wochen deutlich besser aufgestellt als die Organisationen, die LMDeploy manuell suchen mussten.

Was das für den eigenen Patch-Prozess bedeutet

Die Rapid-Exploitation-Beobachtung bei LMDeploy ist kein Ausreißer. CVE-2026-33626 reiht sich in eine Serie von Inference-Stack-Vulnerabilities, die 2026 in Stunden statt in Wochen ausgenutzt wurden. Das hat Konsequenzen für den Patch-Prozess. Ein klassisches 30-Tage-Patch-SLA ist für Inference-Stacks nicht mehr angemessen. Die neue Erwartung: Kritische Patches in AI-Server-Komponenten innerhalb von 24 bis 72 Stunden, idealerweise automatisiert über Helm-Chart-Updates mit Policy-Gated-Rollouts.

Für DACH-Organisationen bedeutet das eine Investition in die Patch-Pipeline: Kontinuierliches CVE-Monitoring für das gesamte AI-Stack-Inventar (LMDeploy, vLLM, TGI, Ray Serve, Triton, Ollama, LiteLLM), klare Ownership pro Komponente und automatische Rollouts mit Canary-Strategie. Wer diese Pipeline nicht hat, ist strukturell außerhalb der 24-Stunden-Antwort, die 2026 gebraucht wird.

Die organisatorische Seite ist oft anspruchsvoller als die technische. Viele DACH-Teams haben den Patch-Prozess für Application-Server und Datenbanken gut im Griff, weil die Verantwortlichkeiten dort klar sind. AI-Stacks sitzen organisatorisch zwischen Plattform-Engineering, Data Science und Security, und jede Seite glaubt, die andere sei zuständig. Die Konsequenz für Leader in diesem Umfeld: Ein Patch-Owner pro AI-Komponente schriftlich festlegen, mit Eskalations-SLAs und Verantwortlichkeit im Operations-Dashboard. Wer das Thema als Zwischen-Angelegenheit führt, hat den nächsten CVE nicht schneller gefixt, sondern später. Die Ownership-Frage ist die, an der sich die Patch-Fähigkeit der eigenen Organisation in den nächsten drei Quartalen entscheidet. Wer sie ungeklärt lässt, verzögert jeden weiteren Exploit-Case um exakt so lange, wie die Abstimmung zwischen den drei Teams dauert.

Welche Rolle der Model-Gateway in der neuen Topologie spielt

Ein Thema, das in der laufenden Diskussion um LMDeploy oft fehlt: Die Rolle des Model-Gateways als Architektur-Schicht. Ein Model-Gateway (Kong AI-Gateway, LiteLLM, Portkey, Vercel AI Gateway) sitzt idealerweise vor dem eigentlichen Model-Server und übernimmt Authentication, Rate-Limiting, PII-Filterung und Observability. Für SSRF-Angriffe hat der Gateway eine weitere Funktion: Er kann Bild-URLs vor der Weitergabe an den Model-Server validieren, Private-IP-Ranges filtern und Egress-Regeln erzwingen. Wer einen Gateway in die Topologie einbaut, bekommt einen zweiten Abwehrring, der unabhängig vom eigentlichen Model-Server-Code arbeitet.

Die Integration eines Model-Gateways kostet in einem typischen Mittelstands-Setup zwischen 30.000 und 90.000 Euro im ersten Jahr (Lizenz, Integration, Operations-Training). Die Investition amortisiert sich im Wesentlichen durch zwei Effekte. Erstens, die Reduktion des Blast-Radius bei Model-Server-Schwachstellen wie CVE-2026-33626. Zweitens, die vereinheitlichte Observability über mehrere Model-Server hinweg, die in heterogenen Setups sonst mühsam pro Anbieter aufgebaut werden muss. Wer 2026 einen Model-Gateway noch nicht hat, sollte ihn spätestens im Q3 einführen.

Was der Security-Kollege aus der App-Dev-Welt dazu sagt

Ein kurzer Reality-Check aus der Praxis aus Cloud-Ops-Perspektive: Wer in der App-Dev-Welt groß geworden ist, kennt SSRF seit Jahren aus OWASP Top 10. Die klassischen Gegenmaßnahmen (URL-Validierung, Private-IP-Blockierung, DNS-Rebinding-Schutz) sind in Web-Frameworks häufig als Middleware verfügbar. In Inference-Stacks 2024 und 2025 wurde diese Schicht häufig übersehen oder war als „AI-spezifisch“ deklariert. Der LMDeploy-Exploit zeigt: Die App-Dev-Lessons gelten für AI-Stacks unverändert, nur mit kleineren Anpassungen. Wer seine Security-Organisation bittet, einen SSRF-Review auf alle AI-Komponenten zu machen, bekommt in der Regel innerhalb von zwei Wochen eine belastbare Gap-Analyse. Das ist der schnellste ROI in der Post-LMDeploy-Woche.

Häufige Fragen

Welche LMDeploy-Versionen sind betroffen?

Das GitHub-Advisory listet alle Versionen vor der gepatchten Release-Version. Konkrete Version-Strings finden sich im Advisory und in den Security-Trackern GitLab und NIST. Wer LMDeploy produktiv einsetzt, sollte umgehend die aktuelle Version einspielen und den Load-Image-Pfad validieren.

Sind andere Inference-Stacks vergleichbar verwundbar?

Jeder Inference-Stack mit Vision- oder Multi-Modal-Fähigkeit und Bild-Loading-Funktion sollte auf SSRF-Risiken geprüft werden. vLLM, Ray Serve und Text Generation Inference haben ähnliche funktionale Muster. Eine interne SSRF-Audit-Runde über den gesamten AI-Stack ist 2026 angebracht.

Hilft ein Web Application Firewall (WAF)?

Eingeschränkt. WAF-Regeln gegen Private-IP-Ranges in HTTP-Bodies fangen einen Teil der Angriffe ab, greifen aber oft zu kurz, weil Angreifer IPv6-Private-Ranges, DNS-Rebinding und URL-Encoding kombinieren. WAF ist eine Ergänzung, kein Ersatz für saubere Netzwerk-Segmentierung und Patch-Prozesse.

Was ist die Mindest-Detektions-Strategie für diese Klasse von Angriffen?

Drei Signale bewähren sich in der Praxis: Ungewöhnliche Zielgruppen im Egress (169.254.*, 10.*, 172.16-31.*, 192.168.*), Callback-Domains (requestrepo.com, oast.pro, burpcollaborator.net), sowie plötzliche Latenz-Spitzen in Model-Server-Logs durch getätigte HTTP-Aufrufe zu unbekannten Zielen. Die drei Signale in ein SIEM- oder Observability-Setup zu integrieren, ist ein Sprint-Thema.

Wie verhält sich das zu Zero-Trust-Architekturen?

Zero-Trust-Architekturen adressieren den Kern dieses Angriffs sauber: Jede Verbindung authentifizieren, jeden Zugriff autorisieren, Vertrauen niemals auf Netzwerkebene annehmen. Wer Zero-Trust konsequent umsetzt, hat den LMDeploy-Exploit strukturell entschärft, weil der Inference-Server auch bei SSRF keine impliziten Rechte auf Stateful-Backends hätte.

Müssen wir unsere Inference-Stack-Lieferanten-Verträge anpassen?

Für viele Unternehmen ja. Die Advisory-zu-Exploit-Zeit von 12,5 Stunden heißt, dass Lieferanten-SLAs mit Patch-Zeiten von 30 Tagen oder mehr nicht tragbar sind. Eine Nachverhandlung auf 72-Stunden-Patches für kritische Schwachstellen in AI-Stack-Komponenten ist 2026 angemessen. Wer das nicht anpasst, trägt strukturelles Risiko im Produktionsbetrieb.

Netzwerk: Weiterlesen im cloudmagazin

Quelle Titelbild: Pexels / Christina Morillo (px:1181263)

Ein Magazin der Evernine Media GmbH