Aller au contenu principal
LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte
RechercheApple Machine Learning6sem

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

Résumé IASource uniqueImpact UE
Source originale ↗·

Une étude présentée au workshop "Memory for LLM-Based Agentic Systems" de la conférence ICLR 2025 s'attaque à une question fondamentale pour les petits modèles de langage (SLM) : que doivent-ils apprendre lors du préentraînement, et que doivent-ils déléguer à des sources externes ? Les chercheurs ont développé LaCy, un cadre théorique et expérimental qui questionne la fonction de perte standard utilisée pour entraîner ces modèles, en montrant qu'optimiser uniquement la vraisemblance des données n'est pas suffisant pour des SLM efficaces et fiables.

Le problème est structurel : contrairement aux grands modèles comme GPT-4 ou Llama 3, les SLM disposent d'une capacité paramétrique limitée, ce qui les contraint à faire des choix sur les connaissances à mémoriser. Sans mécanisme adapté, ils génèrent des faits incorrects plutôt que d'admettre leur ignorance et de consulter une base de données ou un modèle plus puissant. LaCy propose de reformuler ce que le modèle "devrait" apprendre en tenant compte explicitement de la disponibilité de sources externes, comme des documents récupérés par RAG ou des API spécialisées.

Ce travail s'inscrit dans la tendance croissante à déployer des agents IA embarqués sur des appareils à faible puissance, où les gros modèles ne peuvent pas tourner localement. Alors que des entreprises comme Google, Apple ou Mistral misent sur des SLM pour l'edge computing et les assistants embarqués, la question de la frontière entre mémoire paramétrique et mémoire externe devient stratégique. LaCy ouvre la voie à des entraînements plus ciblés, où le modèle apprend à savoir ce qu'il ne sait pas.

Impact France/UE

Mistral, entreprise française en pointe sur les petits modèles pour l'edge computing, est directement concernée par les conclusions de LaCy sur l'optimisation de l'entraînement des SLM.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques
1Microsoft Research 

AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques

Des chercheurs de Microsoft Research ont publié AutoAdapt, un cadre automatisé destiné à adapter les grands modèles de langage (LLM) à des domaines spécialisés à forts enjeux, comme le droit, la médecine ou la gestion d'incidents cloud. Présenté dans un article intitulé "AutoAdapt: An Automated Domain Adaptation Framework for Large Language Models", le système prend en entrée un objectif défini en langage naturel, des données de domaine et des contraintes pratiques (latence, matériel, budget, confidentialité), puis construit automatiquement un pipeline d'adaptation complet et reproductible. Pour y parvenir, AutoAdapt s'appuie sur trois composants : un graphe de configuration appelé Adaptation Configuration Graph (ACG) qui cartographie l'espace des possibles, un agent planificateur qui sélectionne et séquence les bonnes étapes, et une boucle d'optimisation budgétaire nommée AutoRefine qui affine le résultat dans les limites imposées. L'enjeu est considérable pour les équipes qui déploient des LLM en production. Aujourd'hui, spécialiser un modèle généraliste implique de choisir manuellement entre des approches comme la génération augmentée par récupération (RAG), le fine-tuning supervisé ou des méthodes à efficacité paramétrique comme LoRA, puis d'ajuster des dizaines d'hyperparamètres dans un espace de décision vaste et peu lisible. Ce processus prend des semaines, sans garantie de résultat reproductible. Pour une équipe qui gère une panne critique, un modèle qui dérive de ses exigences de domaine n'est tout simplement pas une option. AutoAdapt transforme ce tâtonnement coûteux en un pipeline exécutable en une fraction du temps, rendant les LLM fiables et prévisibles dans des contextes où les erreurs ont des conséquences réelles. Cette publication s'inscrit dans une tendance de fond qui vise à industrialiser le déploiement des LLM, au-delà de la simple performance sur des benchmarks génériques. Les entreprises qui adoptent ces modèles dans des secteurs régulés ou techniques se heurtent systématiquement au même mur : la spécialisation est longue, chère et fragile. Microsoft Research, qui présente ce travail dans le cadre de son Microsoft Research Forum, positionne AutoAdapt comme une réponse structurée à ce goulot d'étranglement. Le système ouvre la voie à une standardisation des pratiques d'adaptation, là où chaque équipe réinventait jusqu'ici sa propre méthode. La prochaine étape logique sera de voir si ce cadre peut être intégré directement dans des plateformes cloud comme Azure AI Studio, ce qui accélérerait son adoption à grande échelle.

UELes entreprises européennes déployant des LLM dans des secteurs réglementés (santé, droit, finance) pourraient réduire significativement leurs coûts et délais de spécialisation grâce à ce type de framework d'adaptation automatisé.

RecherchePaper
1 source
Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité
2Ars Technica AI 

Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité

Google Research a dévoilé TurboQuant, un nouvel algorithme de compression conçu pour réduire l'empreinte mémoire des grands modèles de langage (LLM) tout en améliorant leur vitesse. Selon les premiers résultats publiés par Google, TurboQuant permet une réduction de la mémoire jusqu'à 6 fois et un gain de performance jusqu'à 8 fois dans certains tests, sans dégradation mesurable de la qualité des sorties. TurboQuant cible spécifiquement le cache clé-valeur, une sorte de "mémo numérique" que les LLM utilisent pour stocker des informations déjà calculées et éviter de les retraiter. Ce cache stocke des vecteurs haute dimension — des représentations mathématiques du sens des mots et des phrases — qui peuvent contenir des centaines, voire des milliers d'embeddings. Plus ces vecteurs sont complexes, plus ils occupent de mémoire, créant un goulot d'étranglement qui ralentit les modèles et alourdit leur déploiement. Jusqu'ici, les techniques de quantification classiques permettaient bien de compresser ces modèles en abaissant leur précision, mais au prix d'une baisse notable de la qualité des réponses. TurboQuant prétend résoudre ce compromis en maintenant la précision malgré la compression. La mémoire est l'une des ressources les plus contraignantes dans le déploiement des IA génératives, tant en centre de données que sur les appareils grand public. Une compression efficace sans perte de qualité représente un enjeu majeur pour rendre ces modèles plus accessibles et moins coûteux à faire tourner.

RecherchePaper
1 source
Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs
3arXiv cs.RO 

Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs

Des chercheurs ont publié une étude systématique sur le déploiement de modèles Vision-Language-Action (VLA) sur des accélérateurs matériels embarqués, une problématique centrale pour la robotique autonome à faible coût. Ces modèles, capables de combiner perception visuelle, compréhension du langage naturel et génération de commandes motrices, sont évalués jusqu'ici quasi exclusivement sur des GPU de bureau haut de gamme, ce qui masque les véritables compromis coût-performance des architectures embarquées. L'équipe a construit un tableau de comparaison multi-accélérateurs (GPU, XPU, NPU) en évaluant chaque combinaison modèle-matériel selon trois critères : coût, énergie consommée et temps d'inférence, regroupés sous l'acronyme CET. Résultat : des accélérateurs edge correctement dimensionnés se révèlent plus efficaces en coût et en énergie que des GPU phares, tout en respectant les contraintes de fréquence de contrôle requises par les robots en temps réel. L'étude apporte aussi un éclairage inédit sur le comportement interne de ces modèles lors de l'inférence. Les chercheurs ont identifié un schéma en deux phases répétable : un backbone VLM (le module vision-langage) limité par la puissance de calcul, suivi d'un module expert d'action limité par la bande passante mémoire. Cette alternance crée une sous-utilisation structurelle du matériel, source d'inefficacité. À partir de ce diagnostic, ils ont développé deux optimisations : DP-Cache, qui réduit les calculs redondants dans la diffusion, et V-AEFusion, qui introduit un parallélisme asynchrone entre les deux phases. Ces techniques permettent des accélérations allant jusqu'à 2,9x sur GPU et 6x sur NPU edge, avec une dégradation marginale des performances de contrôle. Ce travail s'inscrit dans une course plus large à l'embarquabilité des modèles d'IA généralistes dans les systèmes physiques. Les robots humanoïdes et mobiles de nouvelle génération, développés par des acteurs comme Figure, Physical Intelligence ou Boston Dynamics, font face à des contraintes énergétiques et économiques sévères dès lors qu'on les sort des laboratoires. L'approche de co-caractérisation modèle-matériel proposée ici offre un cadre méthodologique transposable, et le leaderboard public mis en ligne sur Vercel constitue une ressource ouverte pour orienter les prochains choix d'architecture dans l'IA incarnée.

UEAucune entité française ou européenne n'est directement impliquée, mais les équipes européennes de robotique autonome peuvent s'appuyer sur le leaderboard public et les optimisations en open source pour guider leurs choix d'architecture embarquée.

RecherchePaper
1 source
Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières
4The Decoder 

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Naver, le géant sud-coréen d'internet concurrent de Google en Corée du Sud, a présenté le "Seoul World Model", un modèle vidéo capable de simuler des environnements urbains réalistes à partir de données géométriques concrètes. Pour l'entraîner, l'entreprise a exploité plus d'un million d'images issues de son propre service Street View, permettant au modèle de s'ancrer dans la structure réelle des villes plutôt que dans des représentations approximatives. L'enjeu central est celui des hallucinations géographiques : les modèles génératifs ont tendance à inventer des bâtiments, des rues ou des configurations urbaines qui n'existent pas, rendant leur usage peu fiable pour des applications comme la navigation autonome, la simulation urbaine ou la planification architecturale. En contraignant le modèle avec des données de Street View réelles, Naver ancre les générations visuelles dans une géométrie vérifiable. Autre avantage notable : le modèle se généralise à d'autres villes sans nécessiter de fine-tuning spécifique, ce qui réduit considérablement les coûts de déploiement dans de nouveaux contextes géographiques. Cette approche s'inscrit dans une course plus large entre les acteurs de la cartographie et ceux de l'IA générative pour produire des jumeaux numériques urbains fiables. Naver, qui gère l'une des infrastructures cartographiques les plus denses d'Asie, dispose d'un avantage structurel rare : des données propriétaires à grande échelle. Google, avec Street View mondial, et des startups spécialisées comme Wayve ou Waymo sont également actifs sur ce terrain, où la qualité des données d'entraînement devient le facteur différenciant principal.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour