Aller au contenu principal
Apple obtient un accès complet à Gemini et utilise la distillation pour créer une IA légère embarquée
LLMsThe Decoder12sem· 1 min de lecture

Apple obtient un accès complet à Gemini et utilise la distillation pour créer une IA légère embarquée

Source originale ↗·

Apple a officiellement conclu un accord avec Google pour obtenir un accès complet à Gemini, dans le but de distiller des modèles d'IA plus compacts destinés à fonctionner directement sur ses appareils. Cette approche, connue sous le nom de distillation de modèles, consiste à entraîner un modèle plus léger en s'appuyant sur les sorties d'un modèle plus puissant — une technique qui permet d'obtenir des performances élevées sans la puissance de calcul d'un grand modèle.

L'enjeu est considérable pour Apple, qui mise sur l'IA embarquée comme différenciateur clé face à la concurrence. Plutôt que de dépendre exclusivement du cloud ou de licencier directement des modèles tiers, la firme de Cupertino cherche à produire des modèles propriétaires suffisamment performants pour tourner sur iPhone, iPad et Mac, tout en préservant la confidentialité des données utilisateurs — un argument central dans sa communication.

Ce qui rend cet accord notable, c'est sa dimension stratégique : Apple paie légalement pour un accès que plusieurs entreprises chinoises auraient obtenu de façon non autorisée, en utilisant les sorties de modèles comme ChatGPT ou Gemini pour entraîner leurs propres systèmes. En formalisant cette relation avec Google, Apple s'inscrit dans une démarche de conformité tout en accélérant le développement de Siri et des fonctionnalités Apple Intelligence.

La distillation à partir de Gemini pourrait permettre à Apple de combler rapidement son retard sur Google, Microsoft et OpenAI dans la course aux assistants IA, sans avoir à construire from scratch des modèles de la taille de ceux de ses concurrents — une voie pragmatique qui repose sur la puissance des géants du secteur pour alimenter son propre écosystème.

Impact France/UE

Les utilisateurs européens d'appareils Apple bénéficieront indirectement d'une IA embarquée plus performante sur Siri, sans impact réglementaire direct sur la France ou l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Apple peut « distiller » le grand modèle Gemini de Google
1The Information AI 

Apple peut « distiller » le grand modèle Gemini de Google

Apple et Google ont conclu un accord de partenariat IA bien plus profond qu'il n'y paraissait. Au-delà du simple ajustement (fine-tuning) du modèle Gemini, Apple dispose d'un accès complet au modèle dans ses propres infrastructures de data centers. Cet accès permet à Apple de produire des modèles plus petits, optimisés pour des tâches spécifiques ou suffisamment légers pour tourner directement sur les appareils Apple — une technique appelée « distillation ». Cela change considérablement la donne pour Siri et les fonctionnalités IA promises depuis longtemps. En exécutant des modèles distillés localement, Apple gagne en vitesse de traitement et en confidentialité, deux avantages cruciaux pour sa clientèle. La dépendance aux serveurs distants diminue, ce qui réduit aussi les coûts d'infrastructure — un enjeu d'autant plus pressant que les capacités serveur sont actuellement en tension dans tout le secteur. En parallèle, OpenAI traverse sa propre restructuration : son PDG Sam Altman vient de réorganiser l'entreprise, lancé un nouveau modèle baptisé « Spud » et mis fin à l'application vidéo Sora — jugée trop gourmande en serveurs dans le cadre d'une stratégie de recentrage sur les produits prioritaires.

LLMsOpinion
1 source
Apple tente d'intégrer le grand modèle Gemini dans l'iPhone pour améliorer Siri
2Ars Technica AI 

Apple tente d'intégrer le grand modèle Gemini dans l'iPhone pour améliorer Siri

Apple travaille à intégrer le modèle d'intelligence artificielle Gemini de Google directement dans l'iPhone pour transformer Siri en profondeur, selon un rapport de The Information publié à l'approche de la Worldwide Developers Conference (WWDC) prévue début juin 2026. Promis une première fois en 2024, le nouveau Siri dopé à l'IA générative a été repoussé à plusieurs reprises. La version finale s'appuiera sur un fonctionnement hybride : une partie du traitement se fera sur l'appareil, mais la majorité des opérations complexes sera déléguée aux serveurs cloud de Google et de Nvidia. Ce virage représente un recul significatif par rapport à la position historique d'Apple sur la confidentialité. La marque à la pomme a longtemps mis en avant le traitement local des données comme garantie de vie privée, en opposant son approche à celle des concurrents qui centralisent tout dans le cloud. Confier l'essentiel du traitement IA à Google soulève des questions concrètes pour les utilisateurs soucieux de leurs données personnelles : chaque requête adressée à Siri pourrait transiter par des infrastructures tierces. Pour l'industrie, cela confirme que même Apple, avec ses puces Neural Engine réputées optimisées pour l'IA, ne peut pas faire tourner des modèles de grande taille uniquement en local. Le problème technique est fondamental : les smartphones actuels manquent de RAM pour charger des modèles d'IA massifs en mémoire, et les NPUs (unités de traitement neuronal) restent moins performants que les GPU pour inférer de gros modèles, contrairement à ce que les discours marketing laissent entendre. Apple se retrouve dans une position délicate, coincée entre son positionnement premium sur la vie privée et la course aux capacités IA imposée par ses concurrents. Le partenariat avec Google, déjà actif pour le moteur de recherche sur Safari, s'étend ainsi au coeur de l'assistant vocal, renforçant une dépendance que la firme de Cupertino cherchait pourtant à réduire.

UELes utilisateurs européens d'iPhone pourraient voir leurs requêtes Siri transiter par les serveurs de Google, soulevant des questions de conformité RGPD et de protection des données personnelles sous le droit européen.

LLMsOpinion
1 source
Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA
3Frandroid 

Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Google a présenté TurboQuant, une méthode de quantification avancée capable de réduire drastiquement l'empreinte mémoire des grands modèles de langage, sans dévoiler le code source. Face à cette rétention, un développeur indépendant a décidé d'agir seul : en sept jours seulement, en s'appuyant sur l'assistant IA Claude d'Anthropic, il a réimplémenté la technique à partir des seules informations disponibles dans l'article scientifique de Google. Le résultat est fonctionnel et permet de faire tourner des modèles de plusieurs dizaines de milliards de paramètres sur un MacBook Air standard. Cet exploit illustre un changement de paradigme majeur dans l'accès à l'IA. Jusqu'ici, les modèles les plus puissants exigeaient des GPU professionnels avec des dizaines de gigaoctets de VRAM, réservant leur usage aux entreprises ou aux chercheurs disposant d'infrastructure lourde. TurboQuant contourne cette contrainte en compressant les poids des modèles avec une précision inédite, préservant les performances tout en divisant l'occupation mémoire. Si la méthode se généralise, elle pourrait démocratiser l'inférence locale pour des millions d'utilisateurs. La situation s'inscrit dans une tension croissante entre les laboratoires qui publient des recherches sans ouvrir le code — pratique de plus en plus courante chez Google, OpenAI ou Anthropic — et une communauté open source réactive, capable de combler les lacunes à vitesse record. Ce cas rappelle celui de llama.cpp ou d'autres réimplémentations communautaires qui ont précédé des publications officielles. La prochaine étape sera d'intégrer cette technique dans des outils grand public comme Ollama ou LM Studio, accélérant encore la course vers l'IA locale accessible à tous.

LLMsPaper
1 source
Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture
4VentureBeat AI 

Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture

Apple a annoncé lors de la WWDC26 sa troisième génération de modèles de fondation, la famille AFM 3, développée en collaboration avec Google. Cette famille comprend cinq modèles : deux fonctionnant en local sur l'appareil et trois hébergés côté serveur, dont AFM 3 Cloud Pro, dédié aux tâches agentiques complexes et s'exécutant sur des GPU Nvidia dans Google Cloud. La pièce maîtresse de l'annonce est AFM 3 Core Advanced, un modèle de 20 milliards de paramètres conçu pour tourner directement sur les appareils Apple, et dont l'architecture rompt radicalement avec les contraintes habituelles de l'IA embarquée. Plutôt que de stocker l'ensemble des poids du modèle en mémoire vive (DRAM), Apple les place en mémoire flash NAND, la même technologie utilisée pour le stockage interne des iPhone et Mac. Un petit modèle auxiliaire prédit, à partir du prompt, quels "experts" charger depuis la flash vers la RAM avant de générer la réponse. Le nombre de paramètres actifs varie ainsi entre 1 et 4 milliards selon la complexité de la tâche, tous puisés dans le réservoir de 20 milliards stocké en flash. Cette approche lève un verrou fondamental qui bridait l'IA on-device depuis ses débuts : la capacité limitée de la DRAM contraint aujourd'hui les modèles embarqués à quelques milliards de paramètres au maximum, très loin des capacités des modèles cloud. En déplaçant le stockage vers la flash et en ne chargeant en RAM que les experts pertinents pour chaque requête, Apple ouvre la voie à des modèles locaux sensiblement plus puissants, sans dépendance permanente au réseau. Pour les développeurs d'applications, cela signifie potentiellement accéder à des capacités de raisonnement et d'outil use jusqu'ici réservées au cloud, tout en conservant les garanties de confidentialité du Private Cloud Compute d'Apple. La contrainte technique centrale que l'architecture contourne est celle de la bande passante flash-vers-RAM : dans un modèle Mixture of Experts classique, le routeur sélectionne des experts différents à chaque token généré, une cadence bien trop rapide pour la NAND. Apple résout ce problème en effectuant le routage une seule fois par prompt, chargeant un ensemble fixe d'experts pour toute la génération de la réponse. Awni Hannun, chercheur chez Anthropic et ancien scientifique chez Apple, a salué l'approche sur X tout en soulignant son caractère "exotique par rapport aux standards actuels". Des zones d'ombre demeurent cependant : selon Marco Abis, développeur du profileur Ziraph pour Apple Silicon, la documentation d'Apple ne précise ni la consommation énergétique, ni la bande passante mémoire, ni le comportement thermique du modèle, ni les conditions dans lesquelles une requête locale est silencieusement redirigée vers le cloud.

UELa fonctionnalité de traitement on-device avec garanties de confidentialité intégrées facilite potentiellement la conformité RGPD pour les développeurs européens déployant des applications IA sur appareils Apple.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic