Aller au contenu principal
Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture
LLMsVentureBeat AI5h

Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture

Résumé IASource uniqueImpact UE
Source originale ↗·

Apple a annoncé lors de la WWDC26 sa troisième génération de modèles de fondation, la famille AFM 3, développée en collaboration avec Google. Cette famille comprend cinq modèles : deux fonctionnant en local sur l'appareil et trois hébergés côté serveur, dont AFM 3 Cloud Pro, dédié aux tâches agentiques complexes et s'exécutant sur des GPU Nvidia dans Google Cloud. La pièce maîtresse de l'annonce est AFM 3 Core Advanced, un modèle de 20 milliards de paramètres conçu pour tourner directement sur les appareils Apple, et dont l'architecture rompt radicalement avec les contraintes habituelles de l'IA embarquée. Plutôt que de stocker l'ensemble des poids du modèle en mémoire vive (DRAM), Apple les place en mémoire flash NAND, la même technologie utilisée pour le stockage interne des iPhone et Mac. Un petit modèle auxiliaire prédit, à partir du prompt, quels "experts" charger depuis la flash vers la RAM avant de générer la réponse. Le nombre de paramètres actifs varie ainsi entre 1 et 4 milliards selon la complexité de la tâche, tous puisés dans le réservoir de 20 milliards stocké en flash.

Cette approche lève un verrou fondamental qui bridait l'IA on-device depuis ses débuts : la capacité limitée de la DRAM contraint aujourd'hui les modèles embarqués à quelques milliards de paramètres au maximum, très loin des capacités des modèles cloud. En déplaçant le stockage vers la flash et en ne chargeant en RAM que les experts pertinents pour chaque requête, Apple ouvre la voie à des modèles locaux sensiblement plus puissants, sans dépendance permanente au réseau. Pour les développeurs d'applications, cela signifie potentiellement accéder à des capacités de raisonnement et d'outil use jusqu'ici réservées au cloud, tout en conservant les garanties de confidentialité du Private Cloud Compute d'Apple.

La contrainte technique centrale que l'architecture contourne est celle de la bande passante flash-vers-RAM : dans un modèle Mixture of Experts classique, le routeur sélectionne des experts différents à chaque token généré, une cadence bien trop rapide pour la NAND. Apple résout ce problème en effectuant le routage une seule fois par prompt, chargeant un ensemble fixe d'experts pour toute la génération de la réponse. Awni Hannun, chercheur chez Anthropic et ancien scientifique chez Apple, a salué l'approche sur X tout en soulignant son caractère "exotique par rapport aux standards actuels". Des zones d'ombre demeurent cependant : selon Marco Abis, développeur du profileur Ziraph pour Apple Silicon, la documentation d'Apple ne précise ni la consommation énergétique, ni la bande passante mémoire, ni le comportement thermique du modèle, ni les conditions dans lesquelles une requête locale est silencieusement redirigée vers le cloud.

Impact France/UE

La fonctionnalité de traitement on-device avec garanties de confidentialité intégrées facilite potentiellement la conformité RGPD pour les développeurs européens déployant des applications IA sur appareils Apple.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée
1MarkTechPost 

Google DeepMind publie les checkpoints QAT de Gemma 4 : Q4_0 et un nouveau format mobile réduisent la mémoire embarquée

Google DeepMind a publié de nouveaux checkpoints de quantification pour sa famille de modèles Gemma 4, en utilisant une technique appelée Quantization-Aware Training (QAT). Cette publication intervient quelques semaines après le lancement de Gemma 4 en avril 2026 et deux jours après la sortie d'un modèle 12B. La gamme cible deux variantes principales, E2B et E4B, proposées dans trois formats : BF16 pleine précision, Q40 QAT et un nouveau schéma mobile optimisé. En BF16, E2B requiert 9,6 Go de VRAM et E4B 15 Go. En Q40 QAT, ces empreintes tombent respectivement à 3,2 Go et 5 Go. Le format mobile va plus loin encore : E2B y occupe environ 1 Go de mémoire, et en version texte seul, sans encodeurs audio et vision, le modèle passe sous la barre du gigaoctet. La distinction avec la quantification classique post-entraînement (PTQ) est centrale. Là où la PTQ compresse un modèle achevé au risque de dégrader ses performances, le QAT simule la quantification pendant l'entraînement lui-même : le modèle apprend à compenser la perte de précision avant même d'être déployé. Google affirme que ses résultats QAT surpassent les baselines PTQ équivalentes en qualité, une affirmation cohérente avec les données Gemma 3 où le QAT avait réduit de 54 % la dégradation de perplexité en Q40. Concrètement, les formats Q40 QAT sont compatibles avec les outils les plus répandus : llama.cpp, Ollama, LM Studio, vLLM et MLX, permettant un déploiement sur GPU grand public, voire sur un Raspberry Pi 5. Le schéma mobile, lui, mobilise quatre techniques spécifiques : activation statique pré-calculée à l'entraînement, quantification par canal adaptée aux accélérateurs mobiles, compression ciblée en 2 bits sur les seules couches de génération de tokens, et optimisation des embeddings et du cache KV. Les couches de raisonnement central restent à précision plus élevée, préservant les capacités du modèle tout en réduisant l'empreinte mémoire. Cette publication s'inscrit dans une tendance de fond : depuis 2023, la course à l'efficacité sur les appareils edge s'est intensifiée, portée par les contraintes de latence, de confidentialité et de coût d'inférence cloud. Google, avec Gemma, positionne ses modèles ouverts face à Meta (Llama), Microsoft (Phi) et Apple (les modèles embarqués dans iOS). Le format mobile QAT ouvre la voie à des déploiements sur smartphones Android via LiteRT-LM, ainsi que dans des applications web légères avec Transformers.js. L'absence de scores de benchmark publiés pour Gemma 4 QAT dans l'annonce officielle constitue une limite notable : les déclarations de Google restent qualitatives. La prochaine étape logique sera la publication de mesures indépendantes sur des benchmarks standardisés comme MMLU ou HellaSwag, qui permettront de vérifier si la promesse de qualité préservée à 1 Go tient face aux alternatives déjà sur le marché.

UELes développeurs et entreprises européens peuvent déployer des modèles d'IA open source compétitifs directement sur appareils edge (smartphones Android, Raspberry Pi) sans cloud, réduisant latence et coûts d'inférence, avec des outils déjà populaires comme Ollama et llama.cpp.

💬 Un gigaoctet pour un modèle qui raisonne, ça ouvre vraiment le edge. Le QAT, c'est pas de la compression post-entraînement qu'on croise les doigts, c'est le modèle qui apprend à compenser sa propre perte de précision pendant l'entraînement, et sur Gemma 3 ça avait réduit la dégradation de 54 %. Pas de benchmarks publiés pour l'instant, on verra si ça tient.

LLMsOpinion
1 source
Le passage à la personnalisation des modèles d'IA est une nécessité architecturale
2MIT Technology Review 

Le passage à la personnalisation des modèles d'IA est une nécessité architecturale

Les grands modèles de langage (LLM) généralistes ont connu leur âge d'or : des bonds de performance spectaculaires à chaque nouvelle version. Cette ère touche à sa fin. Les progrès s'accumulent désormais de façon incrémentale sur les benchmarks généraux, tandis qu'une exception subsiste — l'intelligence de domaine. Mistral AI, la startup française spécialisée en IA, documente plusieurs déploiements concrets de modèles sur mesure : un fabricant d'équipements réseau a entraîné un modèle sur ses propres langages et bases de code propriétaires, obtenant une maîtrise que les modèles standards ne pouvaient atteindre ; un grand constructeur automobile a automatisé l'analyse comparative entre simulations numériques et tests physiques de crash, réduisant à quelques minutes ce qui mobilisait autrefois des journées entières de travail spécialisé ; enfin, une agence gouvernementale en Asie du Sud-Est a commandité un modèle fondation calibré sur les langues régionales et les contextes culturels locaux pour créer une infrastructure d'IA souveraine, indépendante des modèles occidentaux. L'enjeu central est la création d'un avantage concurrentiel durable. Lorsqu'un modèle est entraîné sur les données propriétaires d'une organisation — ses processus internes, sa terminologie métier, son historique décisionnel —, il encode la logique de l'entreprise directement dans ses poids. Cela va bien au-delà du fine-tuning classique : c'est l'institutionnalisation de l'expertise dans un système automatisé. Pour l'industrie automobile, cela signifie un copilote capable de proposer des ajustements de conception en temps réel. Pour le secteur public, c'est la garantie que des données sensibles restent sous gouvernance nationale tout en alimentant des services citoyens efficaces. La customisation transforme l'IA d'outil générique en actif stratégique différenciant. Ce changement de paradigme intervient alors que les organisations réalisent les limites des approches expérimentales menées en silos. Les pilotes isolés produisent des pipelines fragiles, une gouvernance improvisée et une portabilité réduite. La vraie rupture exige de traiter l'IA comme une infrastructure d'entreprise — au même titre qu'une base de données ou un système ERP — et non comme un projet ponctuel. Mistral AI se positionne comme partenaire de cette transition en intégrant l'expertise métier dans ses écosystèmes d'entraînement. La course à la personnalisation redéfinit les rapports de force : les entreprises capables d'encoder leur savoir institutionnel dans un modèle construisent une barrière à l'entrée que les acteurs généralistes ne peuvent pas répliquer, car ce fossé se creuse à mesure que le modèle apprend et s'affine avec les données nouvelles de l'organisation.

UEMistral AI, startup française de référence, se positionne comme partenaire stratégique pour les entreprises et institutions européennes souhaitant développer des modèles sur mesure garantissant la souveraineté de leurs données.

LLMsActu
1 source
Meta revient dans la course à l'IA avec un nouveau modèle appelé "Muse Spark
3The Verge AI 

Meta revient dans la course à l'IA avec un nouveau modèle appelé "Muse Spark

Meta Superintelligence Labs lance son premier modèle d'intelligence artificielle depuis la refonte massive des ambitions IA de Mark Zuckerberg, qui a investi des milliards dans ce virage stratégique. Baptisé Muse Spark, ce modèle alimente désormais l'application Meta AI et le site meta.ai aux États-Unis. Dans les prochaines semaines, il sera intégré à WhatsApp, Instagram, Facebook, Messenger et les lunettes connectées de Meta, avec un déploiement progressif dans d'autres pays. Une version privée sera également mise à disposition de certains partenaires sélectionnés par l'entreprise. Muse Spark représente le premier modèle d'une nouvelle série et positionne Meta comme un concurrent direct de Google Gemini sur le terrain de l'intégration native dans un écosystème produit. Comme Google l'a fait avec ses propres services, Meta parie sur une IA "conçue spécifiquement pour ses produits", ce qui lui permet de toucher instantanément plusieurs milliards d'utilisateurs actifs sur ses plateformes. Cette intégration transversale donne à Meta un avantage de distribution considérable face aux modèles indépendants comme GPT-4o ou Claude. Ce lancement intervient après des mois de restructuration interne chez Meta, marqués par la création de Meta Superintelligence Labs et le recrutement agressif de chercheurs de pointe. Zuckerberg avait publiquement reconnu que Meta accusait un retard sur OpenAI et Google dans la course aux modèles frontier. Muse Spark est la réponse directe à cette lacune, avec l'ambition de transformer les milliards d'interactions quotidiennes sur les applications Meta en terrain d'apprentissage et de déploiement à grande échelle.

UELe déploiement progressif de Muse Spark sur WhatsApp, Instagram et Facebook touchera des centaines de millions d'utilisateurs européens dans les prochaines semaines.

💬 Meta joue pas dans la même cour que les labos de recherche pure, et ça tombe bien parce qu'ils jouent un autre jeu. Intégrer un modèle maison dans WhatsApp, Instagram et les Ray-Ban d'un coup, c'est une approche que même Google galère encore à coordonner à cette échelle. Si Muse Spark est juste "bon", la distribution fait le reste.

LLMsActu
1 source
Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA
4MarkTechPost 

Thinking Machines Lab lance Interaction Models, une architecture multimodale native pour la collaboration humain-IA

Le Thinking Machines Lab, le laboratoire de recherche fondé par Mira Murati, ancienne directrice technique d'OpenAI, a présenté une préversion publique de ce qu'il appelle des "modèles d'interaction" (interaction models). Cette architecture repose sur deux composants fonctionnant en parallèle : un modèle d'interaction actif en permanence, qui traite en continu flux audio, vidéo et texte par tranches de 200 millisecondes, et un modèle de raisonnement en arrière-plan qui prend en charge les tâches plus complexes comme la recherche web, l'utilisation d'outils ou la planification à long terme. Les deux modèles partagent le même contexte conversationnel à tout moment, et les résultats produits en arrière-plan sont réintégrés dans la conversation de façon fluide, au moment jugé opportun par le modèle principal. Cette approche rompt avec la logique tour par tour qui structure aujourd'hui la quasi-totalité des systèmes d'IA conversationnelle. Dans ce paradigme classique, le modèle reste aveugle pendant que l'utilisateur parle ou tape, puis gèle toute perception pendant sa propre génération. Pour contourner cette limitation, les systèmes temps réel actuels s'appuient sur des composants auxiliaires assemblés en façade, comme la détection d'activité vocale (VAD), qui sont intrinsèquement moins intelligents que le modèle lui-même. Thinking Machines Lab soutient que cette architecture en patchwork est un plafond structurel : tant que l'interactivité reste une surcouche externe, elle ne bénéficie pas des gains en intelligence apportés par l'augmentation des paramètres. En intégrant la réactivité directement dans l'architecture du modèle, la collaboration humain-IA peut, selon eux, s'améliorer proportionnellement à la montée en puissance du modèle. Mira Murati a quitté OpenAI en septembre 2024, après y avoir supervisé le lancement de GPT-4 et d'autres produits phares. Son nouveau laboratoire positionne explicitement cette recherche comme une réponse à la "bitter lesson" de l'apprentissage automatique : les systèmes conçus à la main finissent toujours par être dépassés par ceux qui généralisent à plus grande échelle. L'architecture sans encodeur (encoder-free early fusion) constitue le choix technique central permettant au modèle de traiter audio et vidéo sans passer par des modules préentraînés séparés, ce qui est la condition pour maintenir une cadence de 200 ms. La préversion présentée démontre des capacités concrètes : parler et écouter simultanément, réagir à des indices visuels sans sollicitation verbale, traiter plusieurs flux de parole en parallèle. Le laboratoire n'a pas encore annoncé de calendrier de déploiement ni de partenariats commerciaux, mais la publication intervient dans un contexte de course intense entre laboratoires pour définir ce que sera la prochaine génération d'interfaces IA.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour