
Comment Apple fait tourner une IA géante dans l’iPhone sans saturer la RAM
Apple a publié lors de la WWDC 2026 un billet de recherche détaillant une technique d'ingénierie inédite pour faire tourner son modèle d'IA le plus puissant directement sur iPhone, sans surcharger la mémoire vive. L'approche consiste à stocker les poids du modèle dans la mémoire flash de l'appareil plutôt qu'en RAM, puis à les charger dynamiquement à la demande, par petits blocs, au moment de l'inférence. Cette méthode, baptisée inférence par déchargement flash, permet de faire fonctionner localement un modèle dont la taille dépasse largement la capacité RAM disponible sur un smartphone.
L'enjeu est considérable pour Apple, qui a fait de la confidentialité un argument commercial central. Faire tourner l'IA entièrement on-device signifie que les données de l'utilisateur ne quittent jamais l'appareil, contrairement aux architectures cloud ou hybrides. Pour les centaines de millions d'utilisateurs d'iPhone, cela implique des fonctionnalités IA avancées disponibles hors connexion, sans latence réseau, et sans que les requêtes soient transmises à des serveurs tiers.
Cette avancée s'inscrit dans une course technologique où Apple, Google et Qualcomm cherchent chacun à maximiser les capacités d'inférence locale sur puces mobiles. Apple avait déjà franchi un cap avec les puces M et A-series, mais la contrainte mémoire restait le goulot d'étranglement principal pour les grands modèles. En résolvant partiellement ce verrou par le logiciel plutôt que par le seul matériel, Apple ouvre la voie à des modèles encore plus ambitieux embarqués dans les prochaines générations d'iPhone.
Les utilisateurs français d'iPhone bénéficieront de fonctionnalités IA plus avancées en local, renforçant la confidentialité des données personnelles sans recours au cloud.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




