Aller au contenu principal
Surveillez et évaluez les performances de vos agents avec Arize Phoenix
RechercheHuggingFace Blog68sem· 1 min de lecture

Surveillez et évaluez les performances de vos agents avec Arize Phoenix

Source originale ↗·

Titre: Suivi et évaluation des agents avec Arize Phoenix

Arize Phoenix est une plateforme permettant de suivre et d'évaluer les agents de machine learning. Elle offre une surveillance en temps réel, un diagnostic automatique des erreurs et une analyse des performances, aidant ainsi les équipes à améliorer la fiabilité et la transparence de leurs modèles. Les fonctionnalités incluent un suivi des données d'entraînement, des alertes sur les déviations et une visualisation des performances historiques.

Impact France/UE

Arize Phoenix aide les entreprises françaises et européennes à surveiller et évaluer les performances de leurs systèmes d'intelligence artificielle, améliorant leur fiabilité et leur transparence, en conformité avec l'AI Act, en facilitant le respect du RGPD par une surveillance précise des données.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

ADeLe : prédire et expliquer les performances de l'IA selon les tâches
1Microsoft Research 

ADeLe : prédire et expliquer les performances de l'IA selon les tâches

Des chercheurs de Microsoft, en collaboration avec l'Université de Princeton et l'Universitat Politècnica de València, ont publié dans la revue Nature une méthode inédite d'évaluation des modèles d'IA baptisée ADeLe — pour AI Evaluation with Demand Levels. Présentée dans l'article « General Scales Unlock AI Evaluation with Explanatory and Predictive Power », cette approche évalue simultanément les tâches et les modèles selon 18 capacités fondamentales — attention, raisonnement, connaissances de domaine, métacognition, entre autres — en leur attribuant un score de 0 à 5. Appliquée à 15 grands modèles de langage dont GPT-4o et Llama-3.1, la méthode permet de prédire les performances sur des tâches inédites avec une précision d'environ 88 %. Les travaux ont bénéficié du programme de financement AFMR (Accelerating Foundation Models Research) de Microsoft. L'apport concret d'ADeLe réside dans sa capacité à dépasser les scores agrégés des benchmarks classiques, qui mesurent ce qu'un modèle réussit sans expliquer pourquoi il échoue ni anticiper ses comportements sur de nouvelles tâches. En construisant un profil de capacités pour chaque modèle — une cartographie structurée de ses forces et faiblesses — et en le confrontant aux exigences précises d'une tâche donnée, ADeLe identifie les lacunes spécifiques à l'origine des erreurs. La méthode révèle également que de nombreux benchmarks largement utilisés donnent une image incomplète, voire trompeuse : un test censé mesurer le raisonnement logique peut en réalité dépendre fortement de connaissances spécialisées ou de métacognition, faussant ainsi l'interprétation des résultats. Pour les équipes qui développent ou déploient des LLMs, cette granularité change radicalement la façon d'interpréter une évaluation. L'évaluation des LLMs souffre depuis plusieurs années d'un problème structurel : les benchmarks standard comme MMLU ou HumanEval mesurent des performances globales sur des jeux de tests fixes, sans permettre de généraliser ni de diagnostiquer. ADeLe s'inscrit dans une tendance plus large de la communauté de recherche à vouloir rendre l'évaluation plus explicable et plus prédictive, à mesure que les modèles deviennent des composants critiques dans des systèmes professionnels. La publication dans Nature — une revue généraliste de premier rang, inhabituelle pour ce type de travaux en IA — signale l'ambition scientifique du projet. Les prochaines étapes pourraient inclure l'extension du cadre à des modalités au-delà du texte, et son adoption par des organismes d'évaluation indépendants cherchant des alternatives aux classements simplistes.

UELa co-participation de l'Universitat Politècnica de València positionne ADeLe comme candidat naturel pour les organismes d'évaluation européens chargés de mettre en œuvre les exigences de l'AI Act sur la transparence et la robustesse des modèles.

💬 Les benchmarks classiques te donnent un score global, mais zéro explication sur ce qui foire et pourquoi. ADeLe décompose ça en 18 capacités mesurables, confronte le profil du modèle aux exigences précises de la tâche, et prédit les perfs à 88% sur des cas inédits, ce qui est franchement solide pour de la recherche académique. Publication dans Nature en plus, c'est le genre de signal qui dit que l'évaluation des LLMs commence enfin à être traitée comme un vrai problème scientifique.

RecherchePaper
1 source
Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance
2VentureBeat AI 

Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance

Des chercheurs du Shanghai Artificial Intelligence Laboratory ont présenté Self-Harness, un paradigme permettant à un agent basé sur un grand modèle de langage d'améliorer automatiquement ses propres règles de fonctionnement. Publiés récemment, ces travaux menés par Hangfan Zhang et son équipe montrent que ce système peut accroître les performances d'un agent de jusqu'à 60 % sans intervention humaine ni recours à un modèle externe plus puissant. Le principe repose sur une boucle itérative en trois étapes : l'agent analyse d'abord ses propres traces d'exécution pour identifier des schémas d'échec récurrents, génère ensuite des modifications ciblées et minimales de son environnement d'exécution, puis valide chaque modification par des tests de régression avant de l'adopter. Seules les modifications qui améliorent les performances sans dégrader d'autres tâches sont retenues. L'enjeu est considérable pour les équipes de développement qui déploient des agents IA en production. Un agent LLM ne dépend pas uniquement de son modèle sous-jacent, mais aussi de son "harness" : le système environnant qui comprend les prompts système, les outils disponibles, la mémoire, les politiques de relance et les procédures de récupération en cas d'erreur. Des exemples bien connus incluent SWE-agent, Claude Code, Codex et OpenHands. Or, de nombreuses défaillances d'agents proviennent précisément de cette couche, et non du modèle lui-même : un agent peut déclarer succès sans vérifier le résultat, relancer indéfiniment une action échouée, ou encore souffrir d'une surcharge de contexte lorsque l'historique d'interaction devient trop long. Self-Harness permet de corriger ces failles de manière empirique et reproductible, là où la pratique actuelle repose principalement sur l'intuition des ingénieurs. Ce travail s'inscrit dans un contexte où la cadence de sortie des nouveaux modèles rend le réglage manuel des harnesses de plus en plus coûteux et difficile à maintenir. Comme le souligne Hangfan Zhang, un ingénieur expérimenté peut encore proposer de meilleures améliorations qu'un LLM dans certains cas, mais le vrai goulot d'étranglement est l'absence de boucle de rétroaction systématique et vérifiable. Les approches existantes font souvent appel à des modèles plus puissants pour améliorer des modèles cibles plus faibles, ce qui pose des problèmes de coût, de disponibilité et d'inadaptation aux modes d'échec spécifiques. Self-Harness contourne cette dépendance en rendant l'agent autonome dans son propre perfectionnement, ouvrant la voie à des systèmes capables de s'adapter en continu à l'évolution rapide des modèles de langage sous-jacents.

RecherchePaper
1 source
3The Decoder 

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

Une étude portant sur 34 000 compétences réelles utilisées par des agents d'intelligence artificielle révèle que ces modules spécialisés, censés améliorer les performances des systèmes autonomes, n'apportent en pratique que des gains marginaux. Les chercheurs ont testé des "skills", ces instructions modulaires que les agents peuvent activer à la volée pour accéder à des connaissances spécifiques, dans des conditions proches du déploiement réel. Résultat : non seulement les améliorations sont négligeables dans des scénarios réalistes, mais les modèles les plus faibles voient leurs performances se dégrader lorsqu'ils y ont recours, comparé à une utilisation sans ces modules. Ce constat remet en question une hypothèse fondamentale du développement des agents IA : l'idée qu'enrichir un modèle avec des compétences externes suffit à le rendre plus capable. Pour les entreprises qui investissent dans des architectures agentiques complexes, notamment dans les secteurs de l'automatisation, du service client ou de la productivité, ce résultat soulève des doutes sur la valeur réelle de ces surcouches techniques. Les benchmarks standards, souvent utilisés pour vendre ces solutions, semblent masquer des lacunes significatives dès que les conditions expérimentales se rapprochent de la réalité. Cette étude s'inscrit dans un débat plus large sur la fiabilité des agents IA en production. Depuis l'essor des frameworks agentiques comme LangChain ou AutoGPT, la communauté cherche à comprendre pourquoi ces systèmes échouent là où les démonstrations semblent prometteuses. L'écart entre performance en laboratoire et comportement en conditions réelles reste l'un des obstacles majeurs à l'adoption industrielle des agents autonomes, et ces travaux pourraient pousser les développeurs à revoir leurs méthodes d'évaluation.

RecherchePaper
1 source
MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%
4VentureBeat AI 

MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%

Des chercheurs issus de plusieurs universités ont publié MeMo (Memory as a Model), un cadre modulaire qui résout l'un des problèmes les plus persistants de l'IA en entreprise : mettre à jour les connaissances d'un grand modèle de langage sans le réentraîner. L'architecture repose sur deux composants distincts : un petit modèle dédié à la mémorisation, appelé MEMORY, qui encode les nouvelles informations dans ses propres paramètres ; et un LLM principal, appelé EXECUTIVE, qui reste figé et joue le rôle de moteur de raisonnement. Lorsqu'un utilisateur pose une question, le modèle EXECUTIVE interroge le modèle MEMORY comme un oracle externe, collecte les faits pertinents, puis synthétise une réponse finale. Le système s'appuie sur des paires questions-réponses générées automatiquement à partir des documents sources, ce que les auteurs appellent des "reflections", pour entraîner le modèle MEMORY à répondre sans avoir à récupérer de contexte extérieur. Les expériences montrent une amélioration des performances allant jusqu'à 26 % par rapport aux approches existantes. L'enjeu est considérable pour les entreprises qui déploient des LLMs en production. Les trois méthodes actuellement utilisées, RAG, fine-tuning et compression de contexte, présentent chacune des limites critiques. Le RAG, pourtant très répandu, souffre de la fragilité des bases vectorielles : comme l'explique Armando Solar-Lezama, co-auteur de l'article, encoder la pleine sémantique d'un texte dans un seul vecteur est une tâche fondamentalement difficile, et les passages mal récupérés dégradent directement la qualité des réponses. Le fine-tuning, lui, est prohibitif pour les grands modèles propriétaires et provoque souvent un "oubli catastrophique", le modèle perd ses capacités de raisonnement ou ses garde-fous de sécurité en assimilant de nouvelles données. MeMo contourne ces deux écueils : la mémoire est portée par un modèle léger et interchangeable, sans toucher aux poids du modèle principal. La portée de MeMo tient aussi à sa compatibilité universelle. Contrairement aux méthodes de compression latente qui lient la mémoire compressée à une architecture spécifique, MeMo fonctionne indifféremment avec des modèles open-source et des modèles propriétaires accessibles uniquement via API. Cela ouvre la voie à un scénario inédit en entreprise : changer de LLM principal, passer de GPT-4 à Claude ou à un modèle open-source, sans perdre la base de connaissances accumulée, ni engager un nouveau cycle de réentraînement coûteux. Dans un secteur où la compétition entre fournisseurs de modèles s'intensifie et où les cycles de mise à jour s'accélèrent, cette portabilité de la mémoire pourrait devenir un avantage stratégique déterminant pour les équipes techniques.

UELes entreprises européennes déployant des LLMs en production pourraient réduire leurs coûts de migration lors de changements de fournisseur de modèles, sans cycle de réentraînement.

💬 Le problème du RAG, on le connaît depuis longtemps : les vecteurs sont fragiles, et un passage mal récupéré, c'est une réponse ratée. MeMo prend le problème à l'envers en séparant la mémoire du raisonnement, et ça change beaucoup de choses sur le papier, surtout l'idée qu'on pourrait switcher de modèle sans repartir de zéro sur la base de connaissances. Reste à voir si les 26% de gains tiennent sur des données métier réelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic