Apple divise l’inférence IA : appareil contre cloud

Apple sépare l'IA locale et l'IA cloud lors de la WWDC 2026 : 12 Go de RAM comme passerelle Edge et Private Cloud Compute pour les pics de charge.

Par Alec Chizhik 9 juin 2026 7 min de lecture

Apple divise l’inférence IA : appareil contre cloud

La diapositive la plus discutée de la WWDC 2026 était une simple liste d’appareils. Elle avait peu à voir avec la nouvelle Siri. Le 8 juin, Apple a tracé une ligne claire : le modèle de langage le plus puissant ne fonctionne que sur les appareils dotés de 12 gigaoctets de mémoire vive, tout calcul intensif étant transféré vers le propre cloud serveur de l’entreprise. Ceux qui prévoient de l’inférence feraient mieux de prêter attention à cette répartition qu’à l’assistante elle-même.

Les points clés en bref

La RAM devient un critère strict pour l’edge : Le modèle le plus avancé en local exige 12 Go de mémoire unifiée. Seuls l’iPhone 17 Pro, le 17 Pro Max et l’iPhone Air répondent à cette exigence, l’iPhone 17 standard avec ses 8 Go est exclu.
Private Cloud Compute supporte la charge maximale : Les tâches lourdes s’exécutent côté serveur via les modèles cloud d’Apple. Les développeurs accèdent aux deux niveaux via une seule interface Swift.
L’architecture est la véritable leçon : Siri AI ne sera pas lancée initialement dans l’UE. Le schéma sous-jacent reste l’exemple le plus abouti d’inférence hybride actuellement disponible sur le marché.

En relation :La souveraineté de l’IA commence par l’infrastructure / FinOps voit tout, mais n’a aucun pouvoir

Deux modèles, une seule interface

Dans la salle de Cupertino, le déroulement était classique : de nouvelles animations, une Siri plus loquace, quelques astuces photo. Plus intéressante était la justification apportée par Apple. La nouvelle Siri et Apple Intelligence remanié reposent sur de nouveaux Apple Foundation Models. Ces modèles fonctionnent simultanément en deux endroits : localement sur l’appareil et sur les serveurs d’Apple via Private Cloud Compute.

Pour les développeurs, la partie intéressante réside dans ce qui les relie. Les deux niveaux, le modèle embarqué et le modèle serveur, sont accessibles via une seule interface Swift. Une application utilise la même interface et peut exploiter les modèles locaux comme ceux côté serveur, sans avoir à gérer deux intégrations distinctes. Selon Apple, cette architecture a été développée en collaboration avec Google, une partie des réponses serveur de Siri s’appuyant sur Gemini.

Qu’est-ce que l’inférence hybride en IA ? L’inférence est le moment où un modèle entraîné répond à une requête. Hybride signifie qu’une partie des requêtes s’exécute localement sur l’appareil, tandis que le reste, plus gourmand en calcul, est traité sur des serveurs. Un routeur décide pour chaque requête quel chemin est le plus économique, rapide ou conforme aux exigences de protection des données.

12 Go

C’est la quantité de mémoire unifiée qu’Apple exige pour son modèle embarqué le plus puissant. Cela devient une ligne de démarcation stricte entre les appareils autorisés à effectuer des calculs locaux et les autres.

Source : Apple WWDC 2026 Keynote, 8 juin 2026

Ce chiffre est le véritable message pour quiconque envisage l’inférence sur des appareils. Ici, c’est la mémoire vive qui constitue la limite, bien avant que la puissance de calcul ne devienne un problème. Un grand modèle de langage doit conserver ses poids en mémoire vive, sans quoi il ne peut tout simplement pas fonctionner. Apple fixe la limite à 12 Go, assumant ainsi que même son propre iPhone 17 avec 8 Go reste exclu. Pour l’iPad, il faut un M4 ou plus récent avec 12 Go, et pour le Mac, un M3 ou plus récent avec la même limite de mémoire.

Qui paie la charge de pointe

Cette répartition repose sur une logique économique. La charge standard, c’est-à-dire les petites requêtes constantes, doit s’exécuter localement : gratuit pour Apple, rapide pour l’utilisateur et sans que les données quittent l’appareil. La charge de pointe, en revanche, devient coûteuse. Les nouveaux outils photo en sont une illustration claire. Le *Spatial Reframing*, qui modifie a posteriori la perspective d’une image, et l’outil *Extend*, qui comble les bords d’une photo, fonctionnent via *Private Cloud Compute*.

C’est précisément là que se situe le levier. L’inférence dans le cloud à cette échelle coûte de l’argent réel par requête, et Apple limite les fonctions les plus gourmandes par des plafonds d’utilisation. Ceux qui ont régulièrement besoin de davantage seront, selon les impressions de la keynote, orientés vers un forfait iCloud supérieur. Les tarifs d’entrée en Allemagne commencent à 0,99 Euro par mois pour 50 Go et 2,99 Euro pour 200 Go. Ainsi, le cloud bridé devient une source de revenus.

Pour sa propre planification, c’est une leçon plus honnête que n’importe quel benchmark de modèle. Une architecture hybride est avant tout une décision de coûts. La répartition n’a que peu à voir avec la qualité du modèle. Le niveau bon marché et privé absorbe la masse, tandis que le niveau coûteux reste réservé aux pics et est délibérément rationné. Dans une stack maison, on intègre le même contrôle des volumes, mais sans l’abonnement iCloud comme couche de facturation.

Ce que les équipes DACH peuvent retenir de cette répartition

Un point d’emblée : Siri AI ne sera pas disponible dans l’UE dans un premier temps. Apple invoque le *Digital Markets Act* et déploie la fonctionnalité uniquement sur les marchés anglophones, avec un lancement en bêta à l’automne. Pour une équipe allemande, cette fonctionnalité aboutie n’est donc pas encore accessible. L’interface des *Foundation Models* locale pour les développeurs est, quant à elle, déjà disponible indépendamment, tandis que la partie serveur via *Private Cloud Compute* dépend de la disponibilité et de l’autorisation par marché.

Trois enseignements peuvent être directement transposés. Premièrement : la mémoire est le *gate* de l’*edge*. Quiconque souhaite déplacer l’inférence vers des appareils finaux ou des nœuds *edge* doit d’abord calculer la RAM disponible par classe d’appareil, car la puissance de calcul est rarement le facteur limitant. Deuxièmement : une couche comme *Private Cloud Compute* est avant tout une architecture de protection des données. Elle permet d’utiliser des modèles lourds sans que les données brutes ne résident en permanence dans un cloud tiers – et c’est souvent là que le bât blesse dans l’environnement DACH. Troisièmement : l’interface unifiée sur les deux niveaux masque la complexité. Le véritable défi réside dans le *routing*, qui décide quand calculer en local et quand recourir au cloud, tandis que le modèle lui-même reste la partie la plus simple.

Feuille de route

septembre 2026

iOS 27, iPadOS 27 et macOS Golden Gate sont publiés, Siri AI est lancé en bêta en anglais.

par la suite

D’autres langues seront ajoutées progressivement, le lancement dans l’UE reste en suspens en raison du Digital Markets Act.

aujourd’hui

L’interface des Foundation Models est déjà disponible pour les développeurs, indépendamment du déploiement grand public.

Apple présente cette répartition comme un confort. Pour les équipes qui doivent elles-mêmes arbitrer entre *on-device* et cloud, elle constitue un modèle avec une étiquette de prix. Le niveau coûteux est rationné, le niveau bon marché supporte la charge, et l’ensemble du système repose sur une interface qui prend cette décision. On peut le reproduire bien avant que la première réponse de Siri en allemand ne voie le jour.

Foire aux questions

Qu’est-ce qui distingue l’inférence sur appareil de l’inférence dans le cloud ?

L’inférence sur appareil exécute le modèle localement sur l’appareil final. Cela est rapide, ne coûte rien par requête au fournisseur et maintient les données sur l’appareil. L’inférence dans le cloud s’exécute sur des serveurs, permet des modèles nettement plus grands, mais engendre des coûts récurrents et envoie les données hors de l’appareil.

Pourquoi Apple exige-t-il précisément 12 Go de mémoire vive ?

Un modèle de langage performant doit conserver l’intégralité de ses poids en mémoire vive. Si la RAM est insuffisante, le modèle ne fonctionne pas ou seulement de manière très limitée. 12 Go est le seuil à partir duquel Apple active le modèle local le plus puissant, c’est pourquoi l’iPhone 17 avec ses 8 Go reste exclu.

Qu’est-ce que Private Cloud Compute dans ce contexte ?

Private Cloud Compute est la couche serveur d’Apple dédiée aux tâches d’IA trop lourdes pour l’appareil. Elle est conçue comme une architecture de protection des données : les données sont traitées pour le calcul, mais ne doivent pas être stockées ou analysées de manière permanente. Elle absorbe les pics de charge impossibles à gérer localement.

La nouvelle Siri sera-t-elle disponible dans l’UE ?

Pas dans un premier temps. Apple invoque le Digital Markets Act et déploiera Siri AI à partir de l’automne d’abord sur les marchés anglophones. Une date pour l’UE n’est pas encore fixée. L’interface de développement sous-jacente pour les modèles de fondation n’est cependant pas concernée par cette restriction.

Que peut-on en déduire pour sa propre stack technique ?

Trois éléments : prévoir la RAM comme limite stricte pour l’inférence en périphérie, intégrer une couche cloud privée comme composant de protection des données pour les modèles lourds, et surtout construire le mécanisme de routage qui décide, pour chaque requête, entre traitement local et distant. Ce dernier point est le véritable levier pour les coûts et la confidentialité.

Plus d’articles du réseau MBF Media

Plus du réseau MBF Media

MyBusinessFutureMake-or-Buy en IA : développer soi-même ou acheter ?Digital Chiefs20 % des entreprises captent 74 % de la rentabilité de l’IA SecurityTodaySécurité des API : l’angle mort derrière chaque intégration

Source de l’image : Pexels / Jakub Zerdzicki (px:32583519)

Aussi disponible en

Español English Deutsch

Les points clés en bref

Deux modèles, une seule interface

Qui paie la charge de pointe

Ce que les équipes DACH peuvent retenir de cette répartition

Foire aux questions

Le briefing mensuel pour les décideurs