Aller au contenu principal
IBM et UC Berkeley diagnostiquent pourquoi les agents d'entreprise échouent avec IT-Bench et MAST
RechercheHuggingFace Blog11sem

IBM et UC Berkeley diagnostiquent pourquoi les agents d'entreprise échouent avec IT-Bench et MAST

Résumé IASource uniqueImpact UE
Source originale ↗·

IBM, en collaboration avec l'Université de Californie à Berkeley, utilise IT-Bench et MAST pour comprendre les raisons des échecs des agents d'entreprise. Ils analysent les performances et identifient les problèmes critiques, visant ainsi à améliorer l'efficacité des systèmes d'entreprise.

Résumé: IBM et l'UC Berkeley explorent les causes d'échec des agents d'entreprise grâce à l'utilisation d'IT-Bench et de MAST, vise à optimiser les performances et résoudre les problèmes critiques pour améliorer l'efficacité des systèmes d'entreprise.

Impact France/UE

IBM, via IT-Bench et MAST, analyse les échecs des agents d'entreprise en France, potentiellement améliorant l'efficacité des systèmes d'entreprises européennes, en accord avec les exigences de l'AI Act et RGPD pour la protection des données et l'utilisation responsable de l'IA.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Google AI publie Auto-Diagnose : un système basé sur des LLM pour diagnostiquer les échecs de tests d'intégration à grande échelle

Une équipe de chercheurs de Google a publié Auto-Diagnose, un outil basé sur le modèle Gemini 2.5 Flash qui analyse automatiquement les logs d'échecs de tests d'intégration, identifie la cause racine et poste un diagnostic structuré directement dans l'interface de revue de code interne de Google, appelée Critique. Évalué manuellement sur 71 pannes réelles couvrant 39 équipes distinctes, l'outil a correctement identifié la cause racine dans 90,14 % des cas. À grande échelle, il a déjà tourné sur 52 635 tests défaillants distincts, représentant 224 782 exécutions sur 131 130 changements de code écrits par 22 962 développeurs différents. Le taux de retours négatifs ("Not helpful") n'atteint que 5,8 %, tandis que 84,3 % des 517 retours reçus correspondent à des demandes "Please fix" de la part de reviewers, signe que les diagnostics sont jugés suffisamment fiables pour déclencher une action immédiate. L'enjeu est concret : diagnostiquer un échec de test d'intégration est structurellement plus difficile que de déboguer un test unitaire. Dans une enquête interne menée auprès de 116 développeurs Google, 38,4 % des échecs de tests d'intégration prenaient plus d'une heure à diagnostiquer, et 8,9 % plus d'une journée, contre respectivement 2,7 % et 0 % pour les tests unitaires. La raison est simple : les logs du pilote de test n'exposent généralement qu'un symptôme générique, un timeout ou une assertion échouée, tandis que l'erreur réelle est enfouie dans l'un des nombreux composants du système testé. Auto-Diagnose résout ce problème en agrégeant tous les logs, les triant par horodatage en un flux unique, puis en guidant le modèle via un protocole explicite étape par étape pour remonter à la source réelle de l'échec. Sur le plan technique, le système fonctionne sans fine-tuning : Gemini 2.5 Flash est appelé avec une température de 0,1 pour des résultats quasi-déterministes, à partir d'un prompt d'ingénierie pur incluant des contraintes négatives strictes, par exemple l'interdiction de tirer une conclusion si les logs du composant fautif sont absents. Chaque exécution consomme en moyenne 110 617 tokens en entrée et produit 5 962 tokens en sortie, avec une latence médiane de 56 secondes et un 90e percentile à 346 secondes, suffisamment rapide pour que le développeur voie le diagnostic avant de changer de contexte. Ce travail illustre une tendance plus large chez les grands groupes technologiques : utiliser les LLM non pas pour écrire du code, mais pour absorber la complexité observationnelle des systèmes distribués, là où l'humain peine à tenir l'ensemble des signaux en tête simultanément.

RecherchePaper
1 source
MCP vs. compétences d'agents IA : analyse approfondie des outils structurés et des directives comportementales pour les LLM
2MarkTechPost 

MCP vs. compétences d'agents IA : analyse approfondie des outils structurés et des directives comportementales pour les LLM

L'article compare le Model Context Protocol (MCP) et les compétences des agents AI, deux méthodes pour que les agents interactent avec des outils externes et accèdent à des connaissances spécifiques au domaine. Le MCP est un protocole open-source qui permet aux applications AI de se connecter à des systèmes externes comme des bases de données, des fichiers locaux, des API ou des outils spécialisés. Il offre des interactions structurées et fiables mais présente des limitations telles que la scalabilité des outils, la gestion des réponses volumineuses et des délais de latence dus aux appels réseau. Ces méthodes sont principalement destinées aux développeurs et nécessitent une configuration soigneuse pour des interactions efficaces avec des services externes.

UEL'impact concret pour la France/UE: Les entreprises européennes comme SAP et OVHcloud pourraient intégrer le Model Context Protocol (MCP) pour améliorer les interactions de leurs systèmes AI avec des bases de données et des outils spécialisés, assurant des échanges structurés et fiables entre les agents AI et les systèmes externes.

RechercheOutil
1 source
Développer la maîtrise de l'IA à grande échelle avec ChatGPT Enterprise
3OpenAI Blog 

Développer la maîtrise de l'IA à grande échelle avec ChatGPT Enterprise

Commonwealth Bank of Australia collabore avec OpenAI pour déployer ChatGPT Enterprise auprès de 50 000 employés, visant à développer une compréhension de l'IA à grande échelle pour améliorer le service client et la réponse aux fraudes.

UEAucun impact direct — L'accord entre la Commonwealth Bank of Australia et OpenAI concerne uniquement les 50 000 employés australiens et n'a pas d'implications immédiates pour des entreprises françaises ou européennes spécifiques, ni pour le secteur européen de l'IA, sans référence à des collaborations ou des déploiements similaires dans l'UE.

RechercheOutil
1 source
Générer des tâches synthétiques pour agents à grande échelle grâce à l'exploration
4Apple Machine Learning 

Générer des tâches synthétiques pour agents à grande échelle grâce à l'exploration

AutoPlay est une approche scalable pour générer automatiquement des datasets de tâches agentiques de haute qualité, destinés à l'entraînement de modèles multimodaux (MLLMs) pour des agents interactifs. Le système explore les environnements en aval (navigation web, utilisation d'ordinateur, robotique) pour produire des tâches diversifiées, faisables et vérifiables, sans recourir à l'annotation humaine coûteuse. Cette méthode résout la limite des approches existantes qui génèrent des tâches à faible couverture faute d'informations suffisantes sur l'environnement cible.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour