Aller au contenu principal
Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
RechercheVentureBeat AI2sem

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final.

Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif.

HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Reinforced Agent : retour d'information à l'inférence pour les agents à appel d'outils
1Apple Machine Learning 

Reinforced Agent : retour d'information à l'inférence pour les agents à appel d'outils

Des chercheurs ont publié une étude acceptée au cinquième atelier sur la génération, l'évaluation et les métriques du langage naturel, dans le cadre de la conférence ACL 2026, portant sur une nouvelle approche appelée Reinforced Agent. Leur travail s'attaque à un problème précis : les agents LLM capables d'appeler des outils externes (API, bases de données, fonctions) sont habituellement évalués sur trois critères, le choix du bon outil, la précision des paramètres transmis, et la reconnaissance du périmètre d'action. Or, ces évaluations interviennent systématiquement après l'exécution, une fois l'erreur déjà commise. L'équipe propose d'intégrer un agent évaluateur spécialisé directement dans la boucle d'exécution, au moment même de l'inférence, pour corriger le tir en temps réel. L'enjeu est considérable pour les systèmes d'agents autonomes en production. Lorsqu'un agent commet une erreur de sélection d'outil ou transmet de mauvais paramètres, les méthodes actuelles ne peuvent que constater le problème après coup, puis corriger via du prompt engineering ou du réentraînement, deux processus lents et coûteux. Un retour d'information en temps réel permettrait de réduire drastiquement les erreurs en cascade, particulièrement critiques dans des environnements où chaque appel d'outil a des effets concrets, comme la modification de données ou le déclenchement de transactions. Cette recherche s'inscrit dans une tendance forte de l'IA en 2025-2026 : faire passer les agents d'une logique réactive à une logique corrective en cours d'exécution. Des acteurs comme Anthropic, OpenAI et Google investissent massivement dans l'architecture multi-agents, où la supervision entre agents devient un levier clé de fiabilité. L'approche Reinforced Agent ouvre la voie à des systèmes capables d'auto-audit dynamique, une brique essentielle pour déployer des agents dans des environnements critiques et à haute responsabilité.

RecherchePaper
1 source
Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal
2SCMP Tech 

Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal

Alibaba Group a dévoilé mardi un nouveau modèle d'intelligence artificielle baptisé Coca, développé par son laboratoire de recherche Damo Academy, capable de détecter les cancers colorectaux à un stade précoce à partir de scanners CT sans contraste. Testé sur plus de 27 000 examens, le modèle a permis d'identifier cinq cas de cancer colorectal qui avaient été manqués par des radiologistes humains, affichant ainsi une sensibilité supérieure à celle des spécialistes pour cette tâche précise. Cette avancée représente un enjeu médical considérable : le cancer colorectal est l'un des cancers les plus meurtriers au monde, et son pronostic s'améliore drastiquement lorsqu'il est détecté tôt. Un outil capable de réduire les faux négatifs dans l'analyse de scanners de routine pourrait alléger la charge cognitive des radiologistes, accélérer les diagnostics et potentiellement sauver des vies, notamment dans les systèmes de santé où le volume d'examens dépasse la capacité humaine disponible. Alibaba s'inscrit avec Coca dans une stratégie plus large de déploiement de l'IA médicale, un secteur où les géants technologiques chinois investissent massivement pour rivaliser avec des acteurs comme Google Health ou Microsoft. La Chine fait face à une pression démographique et sanitaire croissante, avec des taux de cancer colorectal en hausse, ce qui rend ces outils particulièrement stratégiques. Coca s'appuie sur les scanners CT non contrastés, des examens courants et moins coûteux que leurs homologues avec produit de contraste, ce qui élargit son potentiel de déploiement à grande échelle dans des contextes hospitaliers variés.

RecherchePaper
1 source
L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger
3VentureBeat AI 

L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger

Des chercheurs de Redis ont publié une étude révélant qu'affiner les modèles d'embeddings pour améliorer la précision d'un système RAG peut réduire silencieusement la qualité de récupération générale jusqu'à 40 %. Le papier, intitulé "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization", a été conduit par Srijith Rajamohan, responsable de la recherche en IA chez Redis, et ses coauteurs. L'équipe a testé ce qui se produit lorsqu'on entraîne un modèle d'embedding à détecter des phrases quasi-identiques mais de sens opposé, par exemple une négation qui inverse complètement la signification d'une phrase. Résultat : cette sensibilité compositionnelle améliore effectivement la précision ciblée, mais détruit la capacité du modèle à récupérer correctement des documents sur des sujets variés qu'il n'a pas appris à traiter spécifiquement. La dégradation atteint 8 à 9 % sur les petits modèles, et jusqu'à 40 % sur un modèle d'embedding de taille intermédiaire actuellement utilisé en production dans de nombreuses entreprises. Les conséquences sont particulièrement sévères pour les pipelines agentiques, où une erreur de récupération ne renvoie pas seulement une mauvaise réponse mais déclenche une cascade d'actions incorrectes en aval. Rajamohan résume le problème central : une forte similarité sémantique ne garantit pas une correspondance exacte d'intention. Les modèles d'embeddings compressent une phrase entière en un seul point dans un espace vectoriel à haute dimension, ce qui fonctionne bien pour la correspondance thématique large, mais échoue quand deux phrases aux mots presque identiques ont des significations opposées. En affinant le modèle pour éloigner ces phrases structurellement différentes, on lui retire l'espace vectoriel qu'il utilisait pour la récupération générale. Les deux objectifs se disputent les mêmes dimensions. L'étude note également que certaines erreurs, notamment les confusions de liaisons grammaticales (quel modificateur s'applique à quel mot dans un contrat, par exemple), ne s'améliorent presque pas avec cet entraînement ciblé, précisément là où une erreur coûte le plus cher. Ce qui rend le problème difficile à diagnostiquer, c'est que les métriques d'évaluation mesurent uniquement la tâche entraînée, pas la régression sur la récupération générale. Elle n'apparaît qu'en production. Les solutions habituelles, comme la recherche hybride combinant embeddings et mots-clés, ou le passage à un modèle plus grand, ne règlent pas le problème architectural sous-jacent. Rajamohan est explicite : "On ne peut pas s'en sortir par la taille." La recherche suggère que les équipes enterprise doivent choisir explicitement entre précision compositionnelle et généralisation large, plutôt que d'optimiser pour l'une en ignorant l'impact sur l'autre. L'enjeu dépasse le seul RAG classique, car les architectures agentiques qui prolifèrent en 2025 et 2026 amplifient chaque erreur de récupération en décision opérationnelle.

UELes entreprises européennes déployant des pipelines RAG agentiques en production sont exposées à ce risque de dégradation silencieuse et doivent revoir leur stratégie d'évaluation des embeddings.

RecherchePaper
1 source
Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %
4VentureBeat AI 

Google accélère la mémoire IA de 8x avec TurboQuant, réduisant les coûts de 50 %

Google Research a publié hier TurboQuant, une suite d'algorithmes de compression qui résout l'un des principaux goulots d'étranglement des grands modèles de langage : le cache KV (Key-Value). Lorsqu'un modèle traite un long document ou une conversation complexe, il doit stocker chaque mot sous forme de vecteurs haute dimension en mémoire GPU — un espace coûteux qui se sature rapidement. TurboQuant réduit cette consommation mémoire d'un facteur 6 en moyenne, accélère le calcul des logits d'attention d'un facteur 8, et permettrait aux entreprises qui l'adoptent de réduire leurs coûts d'inférence de plus de 50 %. La solution est entièrement logicielle, ne nécessite aucun réentraînement des modèles, et ses algorithmes — dont PolarQuant et la transformée Quantized Johnson-Lindenstrauss (QJL) — sont publiés gratuitement sous un cadre de recherche ouvert, y compris pour un usage commercial. Les résultats seront présentés aux conférences ICLR 2026 à Rio de Janeiro et AISTATS 2026 à Tanger. L'impact est immédiat et concret : les entreprises qui déploient des LLMs à grande échelle font face à des coûts d'infrastructure GPU considérables, largement dictés par la taille du cache KV lors de l'inférence. Réduire ce cache d'un facteur 6 sans perte de qualité signifie qu'un même serveur peut traiter beaucoup plus de requêtes en parallèle, ou que des modèles jusqu'ici réservés aux data centers peuvent tourner sur du matériel existant. L'annonce a d'ailleurs déjà fait bouger les marchés financiers : les cours de plusieurs fabricants de mémoire ont reculé, les investisseurs anticipant une baisse de la demande en VRAM. Une lecture que nuance le paradoxe de Jevons — historiquement, les gains d'efficacité ont tendance à stimuler la consommation totale plutôt qu'à la réduire. La recherche sous-jacente remonte à 2024, avec une formalisation progressive des frameworks mathématiques en début 2025. TurboQuant s'attaque à un problème connu de longue date : la quantification classique des vecteurs introduit des erreurs d'arrondi qui s'accumulent et dégradent la cohérence sémantique des modèles — jusqu'aux hallucinations. De plus, les méthodes traditionnelles stockent des constantes de normalisation qui annulent une partie des gains de compression. PolarQuant contourne ce problème en convertissant les vecteurs en coordonnées polaires après une rotation aléatoire : la distribution des angles devient prévisible, éliminant le besoin de ces constantes coûteuses. Une seconde couche basée sur QJL corrige les erreurs résiduelles avec seulement 1 bit supplémentaire par valeur. Cette publication intervient au moment où l'IA agentique — des systèmes capables de raisonner sur de très longues séquences — devient l'enjeu central de l'industrie, et où la course à l'efficacité mémoire est aussi stratégique que la course à la puissance brute.

UELes entreprises et startups européennes déployant des LLMs à grande échelle pourraient réduire leurs coûts d'inférence de moitié en adoptant ces algorithmes open source sans réentraînement ni achat de matériel supplémentaire.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour