Aller au contenu principal
RechercheVentureBeat AI8h· 2 min de lecture

Nouveau framework IA d'Alibaba : évite de charger tous les outils, réduit l'usage de tokens de 99%

Source originale ↗·

Des chercheurs d'Alibaba ont développé SkillWeaver, un framework conçu pour résoudre le problème du routage d'outils dans les systèmes d'IA d'entreprise, où un agent peut disposer de centaines de compétences différentes et se retrouver incapable de choisir la bonne à chaque étape d'une tâche. Le système construit un graphe d'exécution pour chaque requête complexe et sélectionne les compétences adaptées à chaque nœud, via trois étapes baptisées Decompose, Retrieve et Compose. Les chercheurs y associent une technique appelée Skill-Aware Decomposition (SAD), qui utilise une boucle de rétroaction permettant à l'agent de récupérer et de vérifier itérativement les outils candidats, au lieu de les choisir en une seule fois comme le font la plupart des frameworks concurrents. Dans leurs expériences, cette approche de récupération et de routage a permis de réduire la consommation de tokens de plus de 99% par rapport à une méthode naïve exposant l'agent à l'intégralité de la bibliothèque d'outils, tout en améliorant sensiblement la précision des résultats.

Pour les équipes qui construisent des agents IA en entreprise, l'enjeu est concret : exposer un LLM à une bibliothèque d'outils entière consomme rapidement des centaines de milliers de tokens et sature les limites de contexte, ce qui rend les architectures actuelles difficiles à faire passer à l'échelle. C'est particulièrement critique pour les écosystèmes construits autour du Model Context Protocol (MCP), où des agents orchestrent de façon autonome de multiples outils pour exécuter des opérations métier en plusieurs étapes, comme télécharger un jeu de données, le transformer, puis générer des rapports visuels. Selon les auteurs, le principal enseignement pour les praticiens est que la granularité du découpage des tâches constitue le véritable goulot d'étranglement pour une récupération d'outils précise, plus que la taille de la bibliothèque elle-même.

Ce travail répond à une limite structurelle des approches existantes, qu'il s'agisse de récupération par API, de correspondance documentaire ou de structures hiérarchiques : elles traitent le routage comme un problème de sélection d'une seule compétence par étape, alors que les requêtes réelles sont par nature compositionnelles. Une demande classique comme "télécharger le jeu de données, le transformer et créer des rapports visuels" ne peut être satisfaite par un seul outil ; elle nécessite de décomposer la tâche, puis d'enchaîner un client API, un processeur de données et un outil de visualisation dans un plan cohérent. SkillWeaver formalise cette étape finale sous la forme d'un graphe orienté acyclique (DAG), qui cartographie les dépendances entre sous-tâches et permet, lorsque c'est possible, une exécution en parallèle des étapes indépendantes.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA
1VentureBeat AI 

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA

Des chercheurs du King's College London et de l'Alan Turing Institute ont développé xMemory, une nouvelle technique de mémoire pour les agents d'intelligence artificielle conçus pour fonctionner sur de longues durées et plusieurs sessions. Le problème qu'ils cherchent à résoudre est concret : les pipelines RAG (Retrieval-Augmented Generation) standard, qui permettent aux LLMs de puiser dans des données externes, ne sont pas adaptés aux assistants persistants. xMemory organise les conversations en une hiérarchie structurée de thèmes sémantiques, puis les recherche de haut en bas — du thème général vers les détails bruts — au lieu de faire des recherches directes dans les journaux de conversation bruts. Les résultats sont significatifs : selon les chercheurs, le système ramène la consommation de tokens de plus de 9 000 à environ 4 700 tokens par requête sur certaines tâches, tout en améliorant la qualité des réponses et le raisonnement sur le long terme. L'enjeu est majeur pour les entreprises qui déploient des agents IA dans des contextes métiers — assistants personnalisés, outils de décision multi-sessions, support client continu. Le problème fondamental du RAG classique dans ce contexte, c'est que la mémoire d'un agent n'est pas une base de données diverse, mais un flux continu et corrélé de conversations. Les passages récupérés se ressemblent souvent, contiennent des quasi-doublons, et sont liés par des coréférences et des dépendances temporelles strictes. Résultat : les systèmes classiques récupèrent trop d'informations similaires sur un même sujet — par exemple, plusieurs variantes de "j'aime les oranges" — en ratant des faits catégoriels essentiels pour répondre à la vraie question. Les tentatives de correction par filtrage ou compression après récupération aggravent souvent le problème, car elles suppriment accidentellement des éléments de contexte indispensables. L'approche xMemory repose sur un principe qu'ils appellent "découplage vers agrégation" : au lieu d'interroger directement les logs de conversation, le système décompose d'abord le flux en faits sémantiques distincts et autonomes, puis les regroupe dans une hiérarchie de thèmes. Cette structure évite la redondance — deux passages similaires assignés à des composants sémantiques différents ne seront pas récupérés ensemble. C'est une réponse directe à l'un des angles morts les plus sous-estimés du déploiement LLM en entreprise : la gestion de la mémoire à long terme. Alors que la demande pour des agents IA cohérents et personnalisés explose, xMemory propose une architecture qui réduit à la fois les coûts de calcul et les hallucinations liées à une mémoire mal gérée — un double gain qui pourrait rapidement influencer la façon dont les équipes d'ingénierie construisent leurs pipelines d'agents persistants.

UELa recherche, menée par le King's College London et l'Alan Turing Institute, pourrait influencer les architectures d'agents IA adoptées par les équipes d'ingénierie européennes cherchant à réduire les coûts de déploiement et améliorer la cohérence des assistants persistants.

RecherchePaper
1 source
Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
2VentureBeat AI 

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final. Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif. HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

RecherchePaper
1 source
Un nouveau framework de mémoire pour agents utilise 118K tokens par requête. LangMem en consomme 3,26M
3VentureBeat AI 

Un nouveau framework de mémoire pour agents utilise 118K tokens par requête. LangMem en consomme 3,26M

Des chercheurs de la National University of Singapore ont présenté MRAgent, un nouveau cadre de gestion de la mémoire pour agents d'intelligence artificielle qui consomme environ 118 000 tokens par requête, contre 3,26 millions pour LangMem, l'un des frameworks concurrents. MRAgent abandonne l'approche classique dite « retrieve-then-reason », où un agent récupère passivement des documents puis les soumet à un grand modèle de langage. À la place, il introduit un mécanisme de reconstruction mémorielle dynamique, intégré directement dans le processus de raisonnement du LLM : l'agent explore activement un graphe de mémoire structuré, évalue des preuves intermédiaires à chaque étape et ajuste sa stratégie de recherche en temps réel, comme un enquêteur qui affine ses pistes au fil des découvertes. L'enjeu est considérable pour quiconque déploie des agents IA sur des tâches longues et complexes. Les pipelines de récupération traditionnels souffrent de trois défauts majeurs : ils ne peuvent pas réviser leur stratégie en cours de raisonnement, ils inondent la fenêtre de contexte du modèle avec des résultats superficiellement similaires mais peu pertinents, et ils s'appuient sur des structures rigides comme les top-k résultats ou des fonctions de pertinence statiques. Ces limitations se traduisent concrètement par des agents qui oublient des détails cruciaux, hallucinent des connexions, ou explosent les coûts d'API à mesure que les conversations s'allongent. MRAgent réduit ce gaspillage d'un facteur proche de 28 par rapport à LangMem, ce qui représente une économie substantielle à l'échelle industrielle. L'architecture repose sur un mécanisme baptisé « Cue-Tag-Content », un graphe associatif à trois niveaux : des indices fins comme des noms d'entités ou des attributs contextuels, des étiquettes sémantiques qui résument les relations entre ces indices et les contenus stockés, et enfin les unités mémorielles elles-mêmes, organisées en couches de granularité variable, mémoire épisodique pour les événements concrets, mémoire sémantique pour les faits stables et préférences utilisateur. Ce design s'inspire directement des neurosciences cognitives, où la récupération mémorielle est un processus actif et associatif plutôt qu'une simple lecture de base de données. Dans un secteur où les coûts d'inférence et la fiabilité des agents sur les tâches longues sont devenus des critères de sélection déterminants, MRAgent ouvre une voie concrète vers des systèmes à la fois plus précis et plus économiques.

UELes développeurs et entreprises européens déployant des agents IA à grande échelle pourraient bénéficier d'une réduction substantielle des coûts d'inférence si MRAgent est intégré dans les frameworks disponibles, mais l'impact reste indirect à ce stade académique.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
4VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic