LLMsVentureBeat AI · 9 juin 2026, 20:49· 2 min de lecture

Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture

Apple a annoncé lors de la WWDC26 sa troisième génération de modèles de fondation, la famille AFM 3, développée en collaboration avec Google. Cette famille comprend cinq modèles : deux fonctionnant en local sur l'appareil et trois hébergés côté serveur, dont AFM 3 Cloud Pro, dédié aux tâches agentiques complexes et s'exécutant sur des GPU Nvidia dans Google Cloud. La pièce maîtresse de l'annonce est AFM 3 Core Advanced, un modèle de 20 milliards de paramètres conçu pour tourner directement sur les appareils Apple, et dont l'architecture rompt radicalement avec les contraintes habituelles de l'IA embarquée. Plutôt que de stocker l'ensemble des poids du modèle en mémoire vive (DRAM), Apple les place en mémoire flash NAND, la même technologie utilisée pour le stockage interne des iPhone et Mac. Un petit modèle auxiliaire prédit, à partir du prompt, quels "experts" charger depuis la flash vers la RAM avant de générer la réponse. Le nombre de paramètres actifs varie ainsi entre 1 et 4 milliards selon la complexité de la tâche, tous puisés dans le réservoir de 20 milliards stocké en flash.

Cette approche lève un verrou fondamental qui bridait l'IA on-device depuis ses débuts : la capacité limitée de la DRAM contraint aujourd'hui les modèles embarqués à quelques milliards de paramètres au maximum, très loin des capacités des modèles cloud. En déplaçant le stockage vers la flash et en ne chargeant en RAM que les experts pertinents pour chaque requête, Apple ouvre la voie à des modèles locaux sensiblement plus puissants, sans dépendance permanente au réseau. Pour les développeurs d'applications, cela signifie potentiellement accéder à des capacités de raisonnement et d'outil use jusqu'ici réservées au cloud, tout en conservant les garanties de confidentialité du Private Cloud Compute d'Apple.

La contrainte technique centrale que l'architecture contourne est celle de la bande passante flash-vers-RAM : dans un modèle Mixture of Experts classique, le routeur sélectionne des experts différents à chaque token généré, une cadence bien trop rapide pour la NAND. Apple résout ce problème en effectuant le routage une seule fois par prompt, chargeant un ensemble fixe d'experts pour toute la génération de la réponse. Awni Hannun, chercheur chez Anthropic et ancien scientifique chez Apple, a salué l'approche sur X tout en soulignant son caractère "exotique par rapport aux standards actuels". Des zones d'ombre demeurent cependant : selon Marco Abis, développeur du profileur Ziraph pour Apple Silicon, la documentation d'Apple ne précise ni la consommation énergétique, ni la bande passante mémoire, ni le comportement thermique du modèle, ni les conditions dans lesquelles une requête locale est silencieusement redirigée vers le cloud.

Impact France/UE

La fonctionnalité de traitement on-device avec garanties de confidentialité intégrées facilite potentiellement la conformité RGPD pour les développeurs européens déployant des applications IA sur appareils Apple.

Dans nos dossiers

Agents IA Google Cloud Anthropic NVIDIA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Next INpact

Apple détaille ses cinq nouveaux modèles d’IA et admet à demi-mot ses ratés

À l'occasion de la WWDC 2026, Apple a présenté la troisième génération de ses modèles d'IA maison, les Apple Foundation Models (AFM 3), qui alimenteront Apple Intelligence sous iOS 27 et les autres systèmes d'exploitation en version 27. La famille compte cinq modèles distincts : deux fonctionnent directement sur l'appareil, AFM 3 Core (3 milliards de paramètres) et AFM 3 Core Advanced (20 milliards de paramètres, mais n'en activant dynamiquement qu'1 à 4 milliards selon les requêtes), et trois dans le cloud, AFM 3 Cloud pour les tâches courantes, ADM 3 Cloud pour la génération et l'édition d'images, et AFM 3 Cloud Pro pour le raisonnement complexe et les outils agentiques. Ce dernier tourne sur des serveurs NVIDIA hébergés dans Google Cloud, une infrastructure étendue au système Private Cloud Compute d'Apple. Les modèles reposent sur une base Gemini de Google, conformément à l'accord conclu entre les deux entreprises en janvier 2026. Pour profiter du modèle local le plus puissant, il faut un iPhone Air, un iPhone 17 Pro, un Mac M3 ou un iPad M4 avec au moins 12 Go de RAM, l'iPhone 17 standard, limité à 8 Go, est exclu. Cette annonce est importante à plusieurs égards. Sur le plan technique, la méthode d'activation dynamique des paramètres d'AFM 3 Core Advanced est une innovation notable : elle permet à Apple de faire tourner un modèle de 20 milliards de paramètres en puisant dans la mémoire flash plutôt que dans la RAM, contournant ainsi les limites physiques des appareils mobiles. Concrètement, cela se traduit par un Siri plus expressif, des voix personnalisables et une dictée vocale améliorée. Mais au-delà des performances annoncées, l'aveu implicite d'Apple est révélateur : en ne comparant plus ses nouveaux modèles aux benchmarks sectoriels standardisés utilisés l'an dernier face à GPT-4o ou Gemma, la firme de Cupertino semble reconnaître discrètement que la génération précédente était en deçà des attentes, ce que le retard du nouveau Siri et les critiques répétées autour d'Apple Intelligence avaient déjà largement signalé. Cette troisième génération d'AFM s'inscrit dans un contexte de rattrapage accéléré pour Apple, qui accuse un retard structurel sur ses rivaux en matière d'IA générative. L'accord avec Google pour baser ses modèles sur Gemini, combiné à l'utilisation de GPU NVIDIA dans le cloud, marque une dépendance rare pour une entreprise qui a bâti son identité sur la maîtrise totale de sa chaîne technologique, du silicium au logiciel. Apple se retrouve ainsi tributaire de deux de ses principaux concurrents stratégiques. La question qui se pose désormais est celle de la durabilité de ce positionnement : soit Apple accélère le développement de ses propres modèles fondamentaux, soit elle consolide ces partenariats, au risque de perdre encore davantage de souveraineté sur la couche IA, qui deviendra centrale dans tous ses produits.

UELes millions d'utilisateurs européens d'appareils Apple seront directement concernés par le traitement de leurs données via l'infrastructure Google Cloud sous iOS 27, soulevant des questions de conformité RGPD pour Apple Intelligence.

💬 La partie la plus révélatrice, c'est le silence sur les benchmarks. L'an dernier ils s'y comparaient fièrement, cette année le tableau de chasse a disparu, et tout le monde a compris le message. Baser ses modèles sur Gemini et faire tourner le tout sur des GPU NVIDIA dans Google Cloud, c'est peut-être le chemin le plus rapide, mais c'est le genre de dépendance qu'Apple a passé vingt ans à éviter, et là ils la construisent vis-à-vis de deux rivaux directs.

LLMsOpinion

1 source

2MarkTechPost

Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée

Google DeepMind a publié de nouveaux checkpoints de quantification pour sa famille de modèles Gemma 4, en utilisant une technique appelée Quantization-Aware Training (QAT). Cette publication intervient quelques semaines après le lancement de Gemma 4 en avril 2026 et deux jours après la sortie d'un modèle 12B. La gamme cible deux variantes principales, E2B et E4B, proposées dans trois formats : BF16 pleine précision, Q40 QAT et un nouveau schéma mobile optimisé. En BF16, E2B requiert 9,6 Go de VRAM et E4B 15 Go. En Q40 QAT, ces empreintes tombent respectivement à 3,2 Go et 5 Go. Le format mobile va plus loin encore : E2B y occupe environ 1 Go de mémoire, et en version texte seul, sans encodeurs audio et vision, le modèle passe sous la barre du gigaoctet. La distinction avec la quantification classique post-entraînement (PTQ) est centrale. Là où la PTQ compresse un modèle achevé au risque de dégrader ses performances, le QAT simule la quantification pendant l'entraînement lui-même : le modèle apprend à compenser la perte de précision avant même d'être déployé. Google affirme que ses résultats QAT surpassent les baselines PTQ équivalentes en qualité, une affirmation cohérente avec les données Gemma 3 où le QAT avait réduit de 54 % la dégradation de perplexité en Q40. Concrètement, les formats Q40 QAT sont compatibles avec les outils les plus répandus : llama.cpp, Ollama, LM Studio, vLLM et MLX, permettant un déploiement sur GPU grand public, voire sur un Raspberry Pi 5. Le schéma mobile, lui, mobilise quatre techniques spécifiques : activation statique pré-calculée à l'entraînement, quantification par canal adaptée aux accélérateurs mobiles, compression ciblée en 2 bits sur les seules couches de génération de tokens, et optimisation des embeddings et du cache KV. Les couches de raisonnement central restent à précision plus élevée, préservant les capacités du modèle tout en réduisant l'empreinte mémoire. Cette publication s'inscrit dans une tendance de fond : depuis 2023, la course à l'efficacité sur les appareils edge s'est intensifiée, portée par les contraintes de latence, de confidentialité et de coût d'inférence cloud. Google, avec Gemma, positionne ses modèles ouverts face à Meta (Llama), Microsoft (Phi) et Apple (les modèles embarqués dans iOS). Le format mobile QAT ouvre la voie à des déploiements sur smartphones Android via LiteRT-LM, ainsi que dans des applications web légères avec Transformers.js. L'absence de scores de benchmark publiés pour Gemma 4 QAT dans l'annonce officielle constitue une limite notable : les déclarations de Google restent qualitatives. La prochaine étape logique sera la publication de mesures indépendantes sur des benchmarks standardisés comme MMLU ou HellaSwag, qui permettront de vérifier si la promesse de qualité préservée à 1 Go tient face aux alternatives déjà sur le marché.

UELes développeurs et entreprises européens peuvent déployer des modèles d'IA open source compétitifs directement sur appareils edge (smartphones Android, Raspberry Pi) sans cloud, réduisant latence et coûts d'inférence, avec des outils déjà populaires comme Ollama et llama.cpp.

💬 Un gigaoctet pour un modèle qui raisonne, ça ouvre vraiment le edge. Le QAT, c'est pas de la compression post-entraînement qu'on croise les doigts, c'est le modèle qui apprend à compenser sa propre perte de précision pendant l'entraînement, et sur Gemma 3 ça avait réduit la dégradation de 54 %. Pas de benchmarks publiés pour l'instant, on verra si ça tient.

LLMsOpinion

1 source

3MIT Technology Review

Le passage à la personnalisation des modèles d'IA est une nécessité architecturale

Les grands modèles de langage (LLM) généralistes ont connu leur âge d'or : des bonds de performance spectaculaires à chaque nouvelle version. Cette ère touche à sa fin. Les progrès s'accumulent désormais de façon incrémentale sur les benchmarks généraux, tandis qu'une exception subsiste — l'intelligence de domaine. Mistral AI, la startup française spécialisée en IA, documente plusieurs déploiements concrets de modèles sur mesure : un fabricant d'équipements réseau a entraîné un modèle sur ses propres langages et bases de code propriétaires, obtenant une maîtrise que les modèles standards ne pouvaient atteindre ; un grand constructeur automobile a automatisé l'analyse comparative entre simulations numériques et tests physiques de crash, réduisant à quelques minutes ce qui mobilisait autrefois des journées entières de travail spécialisé ; enfin, une agence gouvernementale en Asie du Sud-Est a commandité un modèle fondation calibré sur les langues régionales et les contextes culturels locaux pour créer une infrastructure d'IA souveraine, indépendante des modèles occidentaux. L'enjeu central est la création d'un avantage concurrentiel durable. Lorsqu'un modèle est entraîné sur les données propriétaires d'une organisation — ses processus internes, sa terminologie métier, son historique décisionnel —, il encode la logique de l'entreprise directement dans ses poids. Cela va bien au-delà du fine-tuning classique : c'est l'institutionnalisation de l'expertise dans un système automatisé. Pour l'industrie automobile, cela signifie un copilote capable de proposer des ajustements de conception en temps réel. Pour le secteur public, c'est la garantie que des données sensibles restent sous gouvernance nationale tout en alimentant des services citoyens efficaces. La customisation transforme l'IA d'outil générique en actif stratégique différenciant. Ce changement de paradigme intervient alors que les organisations réalisent les limites des approches expérimentales menées en silos. Les pilotes isolés produisent des pipelines fragiles, une gouvernance improvisée et une portabilité réduite. La vraie rupture exige de traiter l'IA comme une infrastructure d'entreprise — au même titre qu'une base de données ou un système ERP — et non comme un projet ponctuel. Mistral AI se positionne comme partenaire de cette transition en intégrant l'expertise métier dans ses écosystèmes d'entraînement. La course à la personnalisation redéfinit les rapports de force : les entreprises capables d'encoder leur savoir institutionnel dans un modèle construisent une barrière à l'entrée que les acteurs généralistes ne peuvent pas répliquer, car ce fossé se creuse à mesure que le modèle apprend et s'affine avec les données nouvelles de l'organisation.

UEMistral AI, startup française de référence, se positionne comme partenaire stratégique pour les entreprises et institutions européennes souhaitant développer des modèles sur mesure garantissant la souveraineté de leurs données.

LLMsActu

1 source

4The Information AI

Kimi K3, nouveau modele : ce qu'il revele vraiment de la course a l'IA entre Etats-Unis et Chine

Jeudi, la startup pékinoise Moonshot AI a dévoilé Kimi K3, un nouveau modèle d'intelligence artificielle open source qui relance le débat sur l'écart réel entre les laboratoires chinois et américains. Avec 2 800 milliards de paramètres, Kimi K3 devient le plus grand modèle open source au monde. Ses performances ont particulièrement marqué les esprits sur le classement de codage d'Arena, où il devance à la fois GPT-5.6 d'OpenAI et Claude Fable 5, le modèle le plus puissant d'Anthropic. Interrogé sur TITV, l'émission de The Information, Anastasios Angelopoulos, cofondateur et directeur général d'Arena, a qualifié cette sortie de tournant : selon lui, c'est la première fois que les résultats contredisent aussi clairement l'idée que les laboratoires chinois progressent uniquement en distillant les modèles américains, c'est à dire en s'entraînant à partir de leurs sorties. Cette annonce a une portée qui dépasse le simple classement technique. Si les résultats de Kimi K3 se confirment dans des évaluations indépendantes, ils suggèrent que des équipes chinoises comme Moonshot développent désormais une expertise propre en conception et entraînement de grands modèles, plutôt que de se contenter de copier les avancées occidentales. Pour l'industrie, cela change la donne stratégique : les entreprises et développeurs du monde entier disposent d'une alternative open source extrêmement performante, gratuite à utiliser et à modifier, ce qui pourrait accélérer l'adoption de modèles chinois dans des produits commerciaux hors de Chine, tout en intensifiant la pression concurrentielle sur OpenAI et Anthropic. Le sujet s'inscrit dans une rivalité technologique plus large entre les États-Unis et la Chine, où l'IA est devenue un terrain d'affrontement stratégique autant qu'économique. Depuis l'irruption de DeepSeek début 2025, plusieurs laboratoires chinois, dont Moonshot, ont multiplié les sorties de modèles open source performants et peu coûteux à entraîner, remettant en question l'avance supposée des géants américains. La question de la distillation, c'est à dire de l'utilisation de sorties de modèles concurrents pour entraîner les siens, reste un point de friction juridique et éthique majeur. La sortie de Kimi K3 devrait relancer les discussions sur les restrictions à l'export de puces, les investissements en recherche fondamentale et la capacité des laboratoires chinois à innover de façon autonome.

UELes entreprises europeennes disposent d'une alternative open source performante, ce qui pourrait accelerer leur adoption de modeles chinois hors des solutions americaines dominantes.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic