7 Min. Lesezeit
Die meistdiskutierte Folie der WWDC 2026 war eine schlichte Geräteliste. Mit der neuen Siri hatte sie wenig zu tun. Apple zog am 8. Juni eine scharfe Linie: Das stärkste Sprachmodell läuft nur auf Geräten mit 12 Gigabyte Arbeitsspeicher, alles Rechenintensive wandert in die eigene Server-Cloud. Wer Inferenz plant, schaut besser auf diese Aufteilung als auf die Assistentin selbst.
Das Wichtigste in Kürze
- RAM wird zum harten Edge-Gate: Das fortschrittlichste On-Device-Modell verlangt 12 GB Unified Memory. Nur iPhone 17 Pro, 17 Pro Max und das iPhone Air erfüllen das, das reguläre iPhone 17 mit 8 GB fällt raus.
- Private Cloud Compute trägt die Spitzenlast: Schwere Aufgaben laufen serverseitig über Apples eigene Cloud-Modelle. Entwickler erreichen beide Ebenen über eine einzige Swift-Schnittstelle.
- Die Architektur ist die eigentliche Lektion: Siri AI startet zunächst nicht in der EU. Das Muster dahinter bleibt das sauberste Anschauungsbeispiel für hybride Inferenz, das aktuell auf dem Markt liegt.
Verwandt:KI-Souveränität beginnt bei der Infrastruktur / FinOps sieht alles, darf aber nichts
Zwei Modelle, eine Schnittstelle
Im Saal in Cupertino lief der gewohnte Ablauf: neue Animationen, eine gesprächigere Siri, eine Handvoll Foto-Tricks. Spannender war die Begründung, die Apple gleich mitlieferte. Die neue Siri und das überarbeitete Apple Intelligence stehen auf neuen Apple Foundation Models. Diese Modelle laufen an zwei Orten gleichzeitig: lokal auf dem Gerät und auf Apples Servern über Private Cloud Compute.
Für Entwickler ist der interessante Teil die Klammer darüber. Beide Ebenen, das On-Device-Modell und das Server-Modell, hängen an einer einzigen Swift-Schnittstelle. Eine Anwendung spricht dieselbe Schnittstelle an und kann lokale wie serverseitige Modelle nutzen, ohne zwei getrennte Integrationen zu pflegen. Die Architektur hat Apple nach eigenen Angaben gemeinsam mit Google entwickelt, ein Teil der serverseitigen Siri-Antworten stützt sich auf Googles Gemini.
Was ist hybride KI-Inferenz? Inferenz ist der Moment, in dem ein trainiertes Modell eine Anfrage beantwortet. Hybrid heißt: Ein Teil der Anfragen läuft lokal auf dem Endgerät, der rechenintensive Rest auf Servern. Ein Router entscheidet pro Anfrage, welcher Weg günstiger, schneller oder datenschutzkonform ist.
Diese Zahl ist die eigentliche Nachricht für jeden, der Inferenz auf Endgeräten plant. Hier limitiert der Arbeitsspeicher, lange bevor die Rechenleistung knapp wird. Ein großes Sprachmodell muss seine Gewichte im Arbeitsspeicher halten, sonst läuft es schlicht nicht. Apple zieht die Grenze bei 12 GB und nimmt damit in Kauf, dass selbst das hauseigene iPhone 17 mit 8 GB außen vor bleibt. Bei iPad gilt M4 oder neuer mit 12 GB, beim Mac M3 oder neuer mit derselben Speicheruntergrenze.
Wer die Spitzenlast zahlt
Die Aufteilung hat eine Ökonomie. Standardlast, also die ständigen kleinen Anfragen, soll lokal laufen: kostenlos für Apple, schnell für den Nutzer und ohne dass Daten das Gerät verlassen. Teuer wird die Spitzenlast. Die neuen Foto-Werkzeuge zeigen das deutlich. Spatial Reframing, das die Perspektive eines Bildes nachträglich verschiebt, und das Extend-Werkzeug, das Bildränder auffüllt, laufen über Private Cloud Compute.
Genau dort sitzt der Hebel. Cloud-Inferenz dieser Größenordnung kostet pro Anfrage echtes Geld, und Apple deckelt die schweren Funktionen mit Nutzungsgrenzen. Wer regelmäßig mehr braucht, wird nach den Eindrücken von der Keynote auf ein höheres iCloud-Paket verwiesen. Die Einstiegsstufen in Deutschland liegen bei 0,99 Euro im Monat für 50 GB und 2,99 Euro für 200 GB. Aus der gedrosselten Cloud wird so eine Umsatzlinie.
Für die eigene Planung ist das die ehrlichere Lektion als jede Modell-Benchmark. Eine hybride Architektur ist in erster Linie eine Kostenentscheidung. Mit Modell-Qualität hat die Aufteilung wenig zu tun. Die billige, private Ebene fängt die Masse ab, die teure Ebene bleibt der Spitze vorbehalten und wird bewusst rationiert. In einem eigenen Stack baut man dieselbe Mengensteuerung ein, nur ohne iCloud-Abo als Inkasso-Schicht.
Was DACH-Teams aus dem Split mitnehmen
Eines vorweg: Siri AI kommt vorerst nicht in die EU. Apple verweist auf den Digital Markets Act und liefert die Funktion zunächst nur in englischsprachigen Märkten aus, mit Start als Beta im Herbst. Für ein deutsches Team ist das fertige Feature damit erst einmal nicht buchbar. Die lokale Foundation-Models-Schnittstelle für Entwickler steht davon unabhängig bereit, der serverseitige Teil über Private Cloud Compute hängt dagegen an Verfügbarkeit und Freigabe pro Markt.
Drei Punkte lassen sich direkt übertragen. Erstens: Speicher ist das Edge-Gate. Wer Inferenz auf Endgeräte oder Edge-Knoten verlagern will, rechnet zuerst den verfügbaren RAM pro Geräteklasse durch, denn die Rechenleistung ist selten das Limit. Zweitens: Eine Schicht wie Private Cloud Compute ist primär eine Datenschutz-Architektur. Sie erlaubt schwere Modelle, ohne dass Roh-Daten dauerhaft in einer fremden Cloud liegen, und genau das ist im DACH-Umfeld oft der Knackpunkt. Drittens: Die einheitliche Schnittstelle über beide Ebenen versteckt die Komplexität. Die eigentliche Kunst steckt im Routing, das entscheidet, wann lokal und wann remote gerechnet wird, während das Modell selbst der einfachere Teil bleibt.
Apple verkauft die Aufteilung als Komfort. Für Teams, die selbst über On-Device gegen Cloud entscheiden, ist sie eine Vorlage mit Preisschild. Die teure Ebene wird rationiert, die billige trägt die Last, und der ganze Apparat hängt an einer Schnittstelle, die diese Entscheidung trifft. Das lässt sich nachbauen, lange bevor die erste deutsche Siri-Antwort kommt.
Häufige Fragen
Was unterscheidet On-Device-Inferenz von Cloud-Inferenz?
On-Device-Inferenz rechnet das Modell lokal auf dem Endgerät. Das ist schnell, kostet den Anbieter nichts pro Anfrage und hält Daten im Gerät. Cloud-Inferenz läuft auf Servern, erlaubt deutlich größere Modelle, verursacht aber laufende Kosten und schickt Daten aus dem Gerät heraus.
Warum verlangt Apple ausgerechnet 12 GB Arbeitsspeicher?
Ein leistungsfähiges Sprachmodell muss seine Gewichte komplett im Arbeitsspeicher halten. Reicht der RAM nicht, läuft das Modell nicht oder nur stark beschnitten. 12 GB ist die Schwelle, ab der Apple das stärkste lokale Modell freigibt, weshalb das iPhone 17 mit 8 GB ausgeschlossen bleibt.
Was ist Private Cloud Compute in diesem Kontext?
Private Cloud Compute ist Apples Server-Schicht für KI-Aufgaben, die zu groß fürs Gerät sind. Sie ist als Datenschutz-Architektur gebaut: Daten werden für die Berechnung verarbeitet, sollen aber nicht dauerhaft gespeichert oder ausgewertet werden. Sie trägt die Spitzenlast, die lokal nicht zu schaffen ist.
Kommt die neue Siri in die EU?
Zunächst nicht. Apple verweist auf den Digital Markets Act und liefert Siri AI ab Herbst erst in englischsprachigen Märkten aus. Ein EU-Termin ist offen. Die zugrunde liegende Entwickler-Schnittstelle für die Foundation Models ist davon aber nicht betroffen.
Was lässt sich für den eigenen Stack daraus ableiten?
Drei Dinge: RAM als hartes Limit für Edge-Inferenz einplanen, eine private Cloud-Schicht als Datenschutz-Baustein für schwere Modelle vorsehen und vor allem den Routing-Mechanismus bauen, der pro Anfrage zwischen lokal und remote entscheidet. Letzteres ist der eigentliche Hebel für Kosten und Privatsphäre.
Mehr aus dem MBF Media Netzwerk
Quelle Titelbild: Pexels / Jakub Zerdzicki (px:32583519)