23 Mai 2026

8 Min. Lesezeit

Google Gemini ist in der Unternehmens-Cloud angekommen, der AI Act ist zur gleichen Zeit anwendbar geworden. Wer Inferenz-Pipelines aufbaut, ohne die Pflichten für General-Purpose-AI-Modelle einzuplanen, baut Architektur, die spätestens im Audit gekippt wird.

Das Wichtigste in Kürze

  • AI-Act-Pflichten sind keine GDPR-Erweiterung. GPAI-Modelle haben eigene Transparenz-, Dokumentations- und Risikopflichten. Ein DPA mit Google deckt sie nicht ab.
  • Vertex AI ist nicht automatisch compliant. Der Managed-Service erleichtert Logging und Region-Pinning, lässt aber Modell-Karten, Use-Case-Bewertung und FRIA in der Verantwortung des Auftraggebers.
  • Self-Hosted Gemma kostet GPU-Stunden plus Cluster-Overhead. Wer Gemini per Modell-Garden auf eigene GPUs zieht, übernimmt den Compliance-Aufwand und die laufende GPU-OPEX. Das rechnet sich erst ab klarem Volumen.

Verwandt:Android 17 schiebt Gemini unter das Betriebssystem  /  EKS 1.36 wird teuer ohne FinOps-Disziplin

Was Google Gemini in der Unternehmens-Cloud regulatorisch verändert

Was ist eine AI-Act-konforme Inference-Architektur? Eine Inference-Architektur ist AI-Act-konform, wenn sie die Pflichten aus dem EU AI Act für General-Purpose-AI-Modelle und Hochrisiko-Anwendungen technisch abbildet. Dazu gehören Modell-Transparenz, Logging der Eingaben und Ausgaben in regulierten Use-Cases, Risiko-Bewertung pro Einsatzfall, Fundamental-Rights-Impact-Assessment bei öffentlichen Stellen und eine klare Trennung zwischen Trainings- und Inferenz-Daten.

Der AI Act adressiert Google Gemini nicht als Produkt, sondern als General-Purpose AI Model. Die Pflichten treffen den Anbieter und den Deployer. Anbieter ist Google. Deployer ist jedes Unternehmen, das Gemini in einem konkreten Use-Case einsetzt. Das verschiebt einen Teil der Verantwortung zurück auf die DACH-Cloud-Teams, die das Modell konsumieren. Im Audit reicht es nicht zu sagen „Google ist verantwortlich“. Wer das Modell aufruft, muss den Aufruf einordnen, dokumentieren und in eine Risiko-Klasse einsortieren.

Das ist keine Theorie. Die ersten Bußgeld-Verfahren laufen, EU-AI-Office-Veröffentlichungen sind explizit. Wer Inferenz-Architektur ohne AI-Act-Dimension plant, plant Schulden.

Wo Vertex AI Compliance erleichtert und wo nicht

Vertex AI ist die Google-managed Inferenz-Plattform mit Gemini-Modellen. Sie löst drei Probleme automatisch: Region-Pinning auf EU-Standorte, Logging mit Cloud-Audit-Logs und vertragliche Standardvertragsklauseln im Data Processing Addendum. Was Vertex AI nicht löst: Modell-Transparenz für den eigenen Anwendungsfall, Risiko-Klassifizierung gegen den AI Act, Fundamental-Rights-Impact-Assessment bei Hochrisiko-Anwendungen.

Das bedeutet konkret: Eine HR-Anwendung mit Gemini zur Sichtung von Bewerbungen ist eine Hochrisiko-Anwendung nach Anhang III des AI Acts. Vertex AI gibt diese Klassifizierung nicht aus. Der Deployer muss sie selbst vornehmen, das Logging der Modell-Entscheidungen pro Bewerbung sicherstellen und die Übersicht über False-Positive- und False-Negative-Raten dokumentieren. Wenn die Aufsicht fragt, ist die Antwort „Vertex AI loggt das alles“ zu wenig.

Vertex AI gibt die Infrastruktur, der AI Act verlangt die Einordnung. Die Lücke dazwischen schließt nur der Deployer.

Self-Hosted Gemini-Endpoints: wann sie sich rechnen

Google bietet Gemini-Modelle in mehreren Varianten an, darunter offene Modell-Familien wie Gemma 2 und 3 und proprietäre Endpoints, die nur in Vertex AI laufen. Self-Hosted ist also keine Eins-zu-Eins-Wahl. Für Gemma-Varianten gibt es echte On-Premise-Pfade über Triton Inference Server oder vLLM auf eigenen GPUs. Für die proprietären Gemini-Pro-Klassen gibt es das nicht, sie bleiben Vertex-gebunden.

Die Frage „self-hosted oder managed“ reduziert sich damit für die meisten Workloads auf Gemma. Für die proprietären Modelle bleibt nur Vertex, und die Compliance-Frage verlagert sich auf das Endpoint-Setup im Projekt: Region, Logging, IAM-Bindings, Audit-Trail.

Dimension Vertex AI Managed Self-Hosted Gemma auf GKE
Kostenmodell Pro Token, ab ca. 0,3 Cent pro 1.000 Output-Token für Gemini Flash, deutlich höher für Gemini Pro GPU-Stundenpreis plus Cluster-Overhead, ab ca. 3 Euro pro H100-Stunde On-Demand
Compliance-Aufwand Region und Logging Out-of-the-Box, AI-Act-Einordnung beim Kunden Komplette Compliance-Pipeline beim Kunden, kein Anbieter-Logging
Modell-Karte Von Google publiziert, vom Deployer einzuordnen Gemma-Modell-Karte plus eigene Custom-Tuning-Dokumentation
Daten-Hoheit Region-Pinning auf EU, Behörden-Zugriff nach US-Recht möglich Volle Kontrolle, sofern GPU-Provider nicht US-rechtlich greifbar
Sinnvoll ab Sofort, für die meisten Use-Cases Ab ca. 10 Mio. Token pro Tag oder bei klarer Daten-Hoheits-Anforderung

Quelle: Google Cloud Pricing-Seiten und eigene Auswertung Hyperscaler-GPU-Preise Stand Mai 2026.

In der Praxis lohnt sich der Self-Hosted-Pfad selten unterhalb von 10 Millionen Token pro Tag. Darunter ist die Mehrarbeit für DevOps, MLOps und Compliance teurer als die zusätzlichen Token-Kosten bei Vertex. Über dieser Schwelle drehen sich die Verhältnisse, vor allem wenn Daten-Hoheit verlangt wird oder spezifische Tuning-Pfade nötig sind, die Vertex nicht zulässt.

Die fünf AI-Act-Pflichten, die in jeder Gemini-Architektur abgebildet werden müssen

Pflicht-Cluster für den Deployer
Risiko-Klasse
Jeder Use-Case wird einer Klasse zugeordnet: verboten, hochriskant, transparenzpflichtig, minimales Risiko. Diese Einordnung ist Voraussetzung für alle weiteren Pflichten.
Logging
Bei Hochrisiko-Anwendungen mindestens sechs Monate, in der Finanzbranche oder im Gesundheitswesen länger. Eingaben, Ausgaben, Modell-Version, Confidence-Werte müssen erhalten bleiben.
FRIA
Fundamental-Rights-Impact-Assessment bei öffentlichen Stellen und in regulierten Sektoren. Wird vor dem Produktiv-Betrieb erstellt und vor Änderungen aktualisiert.
Transparenz
Wenn Nutzer mit KI interagieren oder KI-generierte Inhalte sehen, ist das offenzulegen. Synthetische Inhalte sind als solche zu kennzeichnen, Watermarking ist Stand der Technik.
Monitoring
Modell-Drift, Bias-Indikatoren und Fehlerquoten werden kontinuierlich gemessen. Die Verantwortung dafür liegt nicht bei Google, sie liegt beim Deployer.

Diese fünf Pflichten lassen sich technisch abbilden, aber nicht ohne Aufwand. Logging ist die billigste Disziplin, FRIA und Risiko-Klassifizierung sind die teuersten, weil sie juristische Mitarbeit verlangen. Eine Inferenz-Architektur, die diese Pflichten nicht im Setup einplant, baut sie später unter Druck nach.

Warum GPU-Kosten die Architektur-Entscheidung treiben

3,80 €
kostet eine H100-Stunde On-Demand auf GKE in europäischen Regionen. Für ein 24/7-Setup mit Hochverfügbarkeit ergibt das einen sechsstelligen GPU-OPEX pro Jahr, bevor Cluster-Overhead und Personal eingerechnet sind.
Quelle: Google Cloud Pricing-Seite, On-Demand-Listenpreise Mai 2026.

Wer Gemma in Eigenregie hostet, kauft GPU-Kapazität, die nicht ausfallen darf. Eine H100 als Single-Node ist keine produktive Architektur. Hochverfügbarkeit verlangt mindestens drei Knoten in zwei Zonen, Backup-Kapazität für Trainings- und Tuning-Läufe, einen Load-Balancer mit Affinity. Die nominellen 3,80 Euro pro Stunde werden in einer realen Produktion zu sechs bis acht Euro effektiv, je nach Auslastung.

Das ist nicht falsch, es ist nur teuer. Wer ein klares Inferenz-Volumen mit Sechs-bis-Siebenstelligen-Token-Zahlen pro Tag fährt, kann den Self-Hosted-Pfad rechnen. Wer experimentell startet, fährt mit Vertex schneller und billiger und gewinnt Zeit, die Compliance-Grundlage zu legen, bevor die GPU-Frage entschieden wird.

Was DACH-Cloud-Teams in den nächsten sechs Monaten verankern müssen

Drei Festlegungen entscheiden, ob die Gemini-Integration eines Unternehmens AI-Act-tauglich ist. Erstens: Use-Case-Inventar mit Risiko-Klasse pro Anwendung, dokumentiert und im Audit auffindbar. Zweitens: Plattform-Entscheidung, ob Vertex AI als Default gilt oder bestimmte Use-Cases auf Self-Hosted Gemma ausgelagert werden. Drittens: Verantwortungsmatrix, die explizit macht, was Google liefert und was der Deployer verantwortet.

Ohne diese drei Festlegungen entsteht eine Architektur, die in Reaktion auf jedes neue Bedürfnis wächst, ohne dass die Compliance-Substanz mitwächst. Das ist die häufigste Fehlerquelle. Wer die Festlegungen vor dem zweiten Use-Case trifft, baut tragfähig. Wer wartet, baut nach.

Häufige Fragen

Reicht der EU-Daten-Standort von Vertex AI für DSGVO-Konformität aus?

Der EU-Daten-Standort ist eine notwendige, aber keine hinreichende Bedingung. Google bleibt als US-Unternehmen dem CLOUD Act unterworfen, was zusätzliche vertragliche und technische Schutzmaßnahmen nötig macht. Standardvertragsklauseln plus Verschlüsselung mit kundenverwalteten Schlüsseln über Cloud KMS oder External Key Manager sind der gängige Pfad. Ohne diese Ergänzung ist die DSGVO-Konformität bei sensiblen Daten angreifbar.

Welche Gemini-Use-Cases gelten als Hochrisiko nach AI Act?

Anhang III des AI Acts listet konkrete Bereiche: kritische Infrastruktur, Bildung und Berufsbildung, Beschäftigung und Personalentscheidungen, Zugang zu öffentlichen Diensten und Sozialleistungen, Strafverfolgung, Grenzkontrolle, Justizverwaltung. Wer Gemini in einem dieser Bereiche einsetzt, baut eine Hochrisiko-Anwendung, mit FRIA-Pflicht, verschärftem Logging und Behörden-Anzeige.

Müssen Unternehmen mit weniger als 250 Mitarbeitenden den AI Act einhalten?

Ja, der AI Act differenziert nicht primär nach Unternehmensgröße, sondern nach Risiko-Klasse des Einsatzfalls. KMU erhalten in einigen Punkten Erleichterungen bei der Dokumentation, aber die Kernpflichten gelten. Ein Drei-Personen-Startup, das Gemini für die Vorselektion von Bewerbungen nutzt, baut eine Hochrisiko-Anwendung mit allen Pflichten.

Wie unterscheidet sich der AI Act von der GDPR im Logging-Anspruch?

GDPR fordert ein Verzeichnis von Verarbeitungstätigkeiten und Audit-Logs für sensible Daten. AI Act fordert zusätzlich ein Modell-Aktivitäts-Logging mit Eingaben, Ausgaben, Confidence-Werten und Versionsangaben, das speziell die Nachvollziehbarkeit der KI-Entscheidung sichern soll. Die Pflichten überschneiden sich, sind aber nicht deckungsgleich. Wer nur GDPR-Logging fährt, hat AI-Act-konformes Logging nicht automatisch.

Titelbild: KI-generiert (Mai 2026)

Bildquelle: KI-generiert (Mai 2026), C2PA-Zertifikat im Bild hinterlegt

Ein Magazin der Evernine Media GmbH