Aller au contenu principal
IBM et UC Berkeley diagnostiquent pourquoi les agents d'entreprise échouent avec IT-Bench et MAST
RechercheHuggingFace Blog17sem· 1 min de lecture

IBM et UC Berkeley diagnostiquent pourquoi les agents d'entreprise échouent avec IT-Bench et MAST

Source originale ↗·

IBM, en collaboration avec l'Université de Californie à Berkeley, utilise IT-Bench et MAST pour comprendre les raisons des échecs des agents d'entreprise. Ils analysent les performances et identifient les problèmes critiques, visant ainsi à améliorer l'efficacité des systèmes d'entreprise.

Résumé: IBM et l'UC Berkeley explorent les causes d'échec des agents d'entreprise grâce à l'utilisation d'IT-Bench et de MAST, vise à optimiser les performances et résoudre les problèmes critiques pour améliorer l'efficacité des systèmes d'entreprise.

Impact France/UE

IBM, via IT-Bench et MAST, analyse les échecs des agents d'entreprise en France, potentiellement améliorant l'efficacité des systèmes d'entreprises européennes, en accord avec les exigences de l'AI Act et RGPD pour la protection des données et l'utilisation responsable de l'IA.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Google AI publie Auto-Diagnose : un système basé sur des LLM pour diagnostiquer les échecs de tests d'intégration à grande échelle

Une équipe de chercheurs de Google a publié Auto-Diagnose, un outil basé sur le modèle Gemini 2.5 Flash qui analyse automatiquement les logs d'échecs de tests d'intégration, identifie la cause racine et poste un diagnostic structuré directement dans l'interface de revue de code interne de Google, appelée Critique. Évalué manuellement sur 71 pannes réelles couvrant 39 équipes distinctes, l'outil a correctement identifié la cause racine dans 90,14 % des cas. À grande échelle, il a déjà tourné sur 52 635 tests défaillants distincts, représentant 224 782 exécutions sur 131 130 changements de code écrits par 22 962 développeurs différents. Le taux de retours négatifs ("Not helpful") n'atteint que 5,8 %, tandis que 84,3 % des 517 retours reçus correspondent à des demandes "Please fix" de la part de reviewers, signe que les diagnostics sont jugés suffisamment fiables pour déclencher une action immédiate. L'enjeu est concret : diagnostiquer un échec de test d'intégration est structurellement plus difficile que de déboguer un test unitaire. Dans une enquête interne menée auprès de 116 développeurs Google, 38,4 % des échecs de tests d'intégration prenaient plus d'une heure à diagnostiquer, et 8,9 % plus d'une journée, contre respectivement 2,7 % et 0 % pour les tests unitaires. La raison est simple : les logs du pilote de test n'exposent généralement qu'un symptôme générique, un timeout ou une assertion échouée, tandis que l'erreur réelle est enfouie dans l'un des nombreux composants du système testé. Auto-Diagnose résout ce problème en agrégeant tous les logs, les triant par horodatage en un flux unique, puis en guidant le modèle via un protocole explicite étape par étape pour remonter à la source réelle de l'échec. Sur le plan technique, le système fonctionne sans fine-tuning : Gemini 2.5 Flash est appelé avec une température de 0,1 pour des résultats quasi-déterministes, à partir d'un prompt d'ingénierie pur incluant des contraintes négatives strictes, par exemple l'interdiction de tirer une conclusion si les logs du composant fautif sont absents. Chaque exécution consomme en moyenne 110 617 tokens en entrée et produit 5 962 tokens en sortie, avec une latence médiane de 56 secondes et un 90e percentile à 346 secondes, suffisamment rapide pour que le développeur voie le diagnostic avant de changer de contexte. Ce travail illustre une tendance plus large chez les grands groupes technologiques : utiliser les LLM non pas pour écrire du code, mais pour absorber la complexité observationnelle des systèmes distribués, là où l'humain peine à tenir l'ensemble des signaux en tête simultanément.

RecherchePaper
1 source
MCP vs. compétences d'agents IA : analyse approfondie des outils structurés et des directives comportementales pour les LLM
2MarkTechPost 

MCP vs. compétences d'agents IA : analyse approfondie des outils structurés et des directives comportementales pour les LLM

L'article compare le Model Context Protocol (MCP) et les compétences des agents AI, deux méthodes pour que les agents interactent avec des outils externes et accèdent à des connaissances spécifiques au domaine. Le MCP est un protocole open-source qui permet aux applications AI de se connecter à des systèmes externes comme des bases de données, des fichiers locaux, des API ou des outils spécialisés. Il offre des interactions structurées et fiables mais présente des limitations telles que la scalabilité des outils, la gestion des réponses volumineuses et des délais de latence dus aux appels réseau. Ces méthodes sont principalement destinées aux développeurs et nécessitent une configuration soigneuse pour des interactions efficaces avec des services externes.

UEL'impact concret pour la France/UE: Les entreprises européennes comme SAP et OVHcloud pourraient intégrer le Model Context Protocol (MCP) pour améliorer les interactions de leurs systèmes AI avec des bases de données et des outils spécialisés, assurant des échanges structurés et fiables entre les agents AI et les systèmes externes.

RechercheOutil
1 source
Générer des tâches synthétiques pour agents à grande échelle grâce à l'exploration
3Apple Machine Learning 

Générer des tâches synthétiques pour agents à grande échelle grâce à l'exploration

AutoPlay est une approche scalable pour générer automatiquement des datasets de tâches agentiques de haute qualité, destinés à l'entraînement de modèles multimodaux (MLLMs) pour des agents interactifs. Le système explore les environnements en aval (navigation web, utilisation d'ordinateur, robotique) pour produire des tâches diversifiées, faisables et vérifiables, sans recourir à l'annotation humaine coûteuse. Cette méthode résout la limite des approches existantes qui génèrent des tâches à faible couverture faute d'informations suffisantes sur l'environnement cible.

RecherchePaper
1 source
Les agents autonomes face au défi entre intention et exécution
4Amazon Science 

Les agents autonomes face au défi entre intention et exécution

Des chercheurs en intelligence artificielle ont publié une étude approfondie sur ce qu'ils nomment l'« écart entre intention et exécution » dans les systèmes d'agents IA, le fossé entre ce qu'un modèle de langage entend faire et ce que le logiciel qui l'entoure réalise concrètement. Pour l'illustrer : un modèle peut vouloir corriger une seule instance d'une fonction dans du code, mais le harnais, le logiciel qui orchestre ses actions et gère ses interactions avec les outils, en modifie involontairement plusieurs. Pour combler cet écart sans aucun ajustement spécifique à une tâche, les chercheurs ont développé Simple Strands Agent (SSA), un harnais léger et personnalisable à agent unique. Testé sur plusieurs benchmarks de référence, dont SWE-Pro, SWE-Verified (qui évaluent la correction automatique de dépôts de code réels) et Terminal-Bench2 (environnements de terminal interactifs), SSA obtient des gains de performance constants sur plusieurs familles de modèles. Ce travail pointe un problème structurel souvent ignoré dans l'évaluation des agents IA : les performances publiées sur les benchmarks reflètent autant la qualité de l'infrastructure d'évaluation que la capacité intrinsèque du modèle. Des facteurs apparemment triviaux, délais d'expiration lors des interactions avec l'environnement, stabilité de l'infrastructure, contraintes de ressources, provoquent des variations de performance significatives. Les auteurs baptisent ce phénomène le « benchmaxing » : la tendance à optimiser les scores publiés sans nécessairement améliorer la capacité réelle du système. Pour les équipes qui déploient des agents en production, cela signifie qu'un gain impressionnant sur un benchmark peut disparaître entièrement dans un contexte légèrement différent, rendant les comparaisons entre systèmes peu fiables. L'étude s'inscrit dans un débat plus large sur la conception des agents IA. Pendant des années, la priorité a été donnée aux optimisations spécifiques : prompts ajustés, outils sur mesure, graphes d'exécution spécialisés. Or les chercheurs montrent que ces gains sont souvent fragiles, ce qui fonctionne pour un modèle ou une version donnée se dégrade ou régresse avec les modèles suivants, car ces optimisations surajustent implicitement le comportement d'un modèle particulier. La conclusion est qu'il faut désormais identifier des principes de conception invariants, valables quel que soit le modèle sous-jacent. L'interface entre modèle et harnais devient ainsi un domaine de recherche central, à l'image du rôle d'un système d'exploitation vis-à-vis d'un processeur. Les auteurs soulignent également que cette conception n'est pas entièrement agnostique au modèle : différentes familles de modèles ont des préférences distinctes en matière d'utilisation des outils et d'interprétation du contexte, faisant de la coconception modèle-harnais un levier décisif pour atteindre des performances optimales.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic