Aller au contenu principal
Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals
OutilsAWS ML Blog6sem· 2 min de lecture

Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals

Source originale ↗·

Amazon a annoncé le lancement de quatre nouveaux évaluateurs multimodaux dans son SDK Strands Evals, conçus pour juger automatiquement la qualité des réponses textuelles générées à partir d'images. Baptisés Overall Quality, Correctness, Faithfulness et Instruction Following, ces évaluateurs fonctionnent sur Amazon Bedrock et s'intègrent directement dans le flux de travail Case/Experiment/Report de Strands Evals. Leur principe : envoyer l'image source, la requête et la réponse du modèle à un modèle juge multimodal, qui retourne un score (sur une échelle de Likert 1-5 ou binaire) accompagné d'un raisonnement exploitable pour le débogage. Ils supportent deux modes d'évaluation, avec ou sans réponse de référence, et peuvent être branchés directement dans des pipelines d'intégration continue pour détecter automatiquement hallucinations visuelles, erreurs factuelles et violations d'instructions.

La limitation des évaluateurs textuels classiques est au coeur de cette annonce. Un juge qui ne voit pas l'image peut valider un texte bien rédigé tout en laissant passer des erreurs critiques : un modèle qui invente une tendance dans un graphique qui ne la montre pas, hallucine un produit absent d'une photo, ou ignore une instruction de format. Ces trois types d'échecs nécessitent trois types de corrections différents, et les agréger en un seul score global rend le débogage quasi impossible. Sans évaluation multimodale automatisée, les équipes sont coincées entre la revue humaine, coûteuse et non scalable, et des proxys textuels qui manquent précisément les défaillances qui comptent, notamment dans des cas d'usage comme la lecture de factures, l'analyse de tableaux de bord ou la description de captures d'écran.

L'enjeu est considérable à l'échelle de l'industrie. Selon Gartner, 80 % des logiciels d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Cette transition rapide pousse les équipes d'ingénierie à construire des pipelines d'évaluation capables de suivre la complexité croissante des modèles déployés. Strands Evals s'inscrit dans l'écosystème d'agents IA open source qu'Amazon a commencé à assembler ces derniers mois, avec une ambition claire : fournir une chaîne d'outils complète, de la construction à l'évaluation des agents. Ces quatre évaluateurs représentent une brique manquante pour les équipes qui travaillent sur le commerce visuel, la compréhension de documents ou tout système où la vérité de terrain réside dans l'image et non dans le texte. La prochaine étape logique sera d'étendre ces mécanismes à des modalités supplémentaires, vidéo, audio, à mesure que les modèles fondamentaux gagnent en capacités.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours
1AWS ML Blog 

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours

Amazon a publié dans son SDK Strands Evaluations une fonctionnalité appelée ActorSimulator, destinée à automatiser l'évaluation des agents IA dans des conversations multi-tours. Contrairement aux tests à tour unique — où l'on fournit une entrée, on collecte une sortie et on juge le résultat — les interactions réelles s'étendent sur plusieurs échanges : l'utilisateur pose des questions de suivi, change de direction ou exprime sa frustration face à des réponses incomplètes. Un assistant de voyage qui gère correctement "Réserve-moi un vol pour Paris" peut échouer lorsque le même utilisateur enchaîne avec "En fait, peut-on regarder les trains ?" ou "Qu'en est-il des hôtels près de la tour Eiffel ?". L'ActorSimulator permet de générer des utilisateurs simulés avec des personas structurés et des objectifs définis, puis de les laisser converser naturellement avec un agent sur plusieurs tours, à grande échelle. L'enjeu est considérable pour les équipes qui développent des agents conversationnels en production. Conduire manuellement des centaines de conversations multi-tours à chaque modification d'un agent est insoutenable, et les jeux de données statiques d'entrées/sorties ne capturent pas la dynamique réelle : la "bonne" prochaine question de l'utilisateur dépend entièrement de ce que l'agent vient de répondre. Les approches artisanales consistant à demander à un LLM de "jouer l'utilisateur" sans définition structurée du persona produisent des résultats incohérents d'une exécution à l'autre, rendant impossible la détection fiable de régressions. L'ActorSimulator répond à ce problème en combinant le réalisme d'une conversation humaine avec la reproductibilité et l'échelle des tests automatisés. Ce développement s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'évaluation des agents IA, à mesure que ceux-ci quittent les démos pour entrer dans des usages critiques. AWS positionne Strands Evaluations comme une infrastructure d'évaluation systématique, comparable aux simulateurs de vol ou aux moteurs de jeu qui testent des millions de comportements avant déploiement. La difficulté fondamentale réside dans la croissance combinatoire des chemins de conversation : plus les capacités d'un agent s'étoffent, plus le nombre de scénarios possibles explose au-delà de ce que des équipes humaines peuvent explorer. En permettant la simulation structurée de personas avec des objectifs explicites et un suivi de progression, Strands Evals vise à offrir aux équipes d'évaluation un outil comparable à ce que les testeurs de logiciels ont dans d'autres disciplines d'ingénierie, avec des résultats comparables dans le temps.

OutilsOutil
1 source
Le titre traduit : « Tutoriel RAG-Anything : créer un pipeline de récupération multimodal pour texte, tableaux, équations et images dans Colab »
2MarkTechPost 

Le titre traduit : « Tutoriel RAG-Anything : créer un pipeline de récupération multimodal pour texte, tableaux, équations et images dans Colab »

Un tutoriel publié sur MarkTechPost détaille la construction d'un pipeline de récupération multimodale baptisé RAG-Anything, conçu pour traiter simultanément du texte, des tableaux, des équations et des images au sein d'un notebook Google Colab. Le processus démarre par l'installation des dépendances nécessaires, notamment les bibliothèques raganything avec les extensions image et texte, le SDK OpenAI en version 1.0.0 ou supérieure, ainsi que reportlab, pandas, matplotlib et tabulate. Une attention particulière est portée à la bibliothèque Pillow, réinstallée en version 11.3.0 pour éviter les conflits de dépendances, avec un nettoyage systématique du cache des modules Python avant et après cette opération. Le tutoriel configure ensuite un environnement de travail structuré avec des répertoires dédiés aux ressources, aux sorties, au stockage et aux journaux, tout en définissant des paramètres d'exécution comme une taille de chunk de 900 caractères, un chevauchement de 120 caractères et un délai d'expiration de 240 secondes pour les appels aux modèles. La clé API OpenAI est saisie de façon sécurisée au moment de l'exécution plutôt que stockée en dur, une pratique destinée à garder le notebook sûr à partager et à réutiliser. Ce type de démonstration importe car il illustre une tendance de fond dans le développement d'applications basées sur les grands modèles de langage : le passage de systèmes de récupération d'information limités au texte brut vers des architectures capables d'ingérer des documents complexes mêlant graphiques, tableaux de données et formules mathématiques. Pour les équipes techniques qui construisent des assistants documentaires, des outils de recherche interne ou des chatbots d'entreprise, la capacité à interroger un rapport contenant à la fois du texte narratif et des visualisations sans perte d'information représente un gain concret de fidélité et de pertinence des réponses. Le tutoriel montre également comment configurer des fonctions distinctes pour le chat, la vision et les embeddings via l'API OpenAI, une architecture modulaire qui permet d'adapter chaque composant du pipeline à un modèle spécifique selon les besoins de coût ou de performance. Le contexte plus large de ce tutoriel s'inscrit dans l'essor rapide des architectures RAG, ou génération augmentée par récupération, qui combinent des bases de connaissances externes avec la puissance générative des modèles de langage pour produire des réponses ancrées dans des données réelles et vérifiables. Alors que la première génération d'outils RAG se concentrait presque exclusivement sur des corpus textuels, la demande croissante pour des systèmes capables de traiter des rapports financiers, des articles scientifiques ou des documents techniques riches en tableaux et en schémas a poussé des projets comme RAG-Anything à émerger. Le tutoriel teste plusieurs modes de récupération, naïf, local, global et hybride, chacun offrant un compromis différent entre rapidité, précision et compréhension contextuelle. Cette diversité de modes reflète les choix auxquels sont confrontées les équipes qui déploient ces systèmes en production, où le bon équilibre dépend souvent de la nature des documents traités et du volume de requêtes à traiter.

OutilsTuto
1 source
Les agents IA apprennent en cours de tâche, mais pas pour toute l'équipe
3VentureBeat AI 

Les agents IA apprennent en cours de tâche, mais pas pour toute l'équipe

Les agents d'intelligence artificielle peinent à devenir de véritables outils d'équipe. Selon une étude interne d'Asana, 75 % des travailleurs du savoir utilisent déjà l'IA au quotidien, mais seulement 5 % des entreprises déclarent en avoir tiré des gains de productivité mesurables. La raison principale : lorsqu'un collaborateur corrige ou améliore un agent, en affinant ses instructions, en lui fournissant un contexte plus précis, cette amélioration s'évapore dès qu'un collègue ouvre le même outil. Chaque utilisateur repart de zéro, entraînant en pratique une version différente du même agent selon la personne qui l'interroge. Arnab Bose, directeur produit d'Asana, résume le problème : les fournisseurs de modèles progressent rapidement sur le raisonnement et les boucles de correction, mais échouent à intégrer le contexte de travail d'entreprise d'une manière intelligible et partageable entre humains. Ce défaut architectural a des conséquences concrètes dans les workflows multi-agents, devenus la norme dans les grandes organisations : des agents qui se contredisent, des tâches répétées inutilement, des versions incohérentes de la réalité selon les équipes. Sriharsha Chintalapani, cofondateur et directeur technique de Collate, souligne que les agents sont extrêmement sensibles à la qualité des instructions reçues : un utilisateur expérimenté obtient de meilleurs résultats parce qu'il formule des prompts plus précis et donne de meilleurs retours correctifs, que l'agent mémorise et applique aux interactions suivantes. Ce mécanisme fonctionne bien pour un usage individuel, mais devient un avantage inégalement distribué dès qu'il s'agit d'un usage collectif. Neej Gore, directeur des données de Zeta Global, défend l'idée d'une mémoire partagée qui agirait comme une intelligence composée, s'enrichissant à chaque interaction et bénéficiant à toute l'organisation. La réponse d'Asana consiste à placer la mémoire partagée au coeur de sa plateforme Agentic Work Management : toute correction apportée par un membre de l'équipe s'applique automatiquement à l'ensemble des utilisateurs, via un graphe de contexte injecté directement dans les agents opérant dans son système. Plus besoin que chaque collaborateur maîtrise l'ingénierie des prompts. Mais la question de qui contrôle cette mémoire, ce qui y est stocké et comment elle reste cohérente quand plusieurs agents et utilisateurs y écrivent simultanément reste largement sans réponse dans l'industrie. Chintalapani avance que la piste la plus prometteuse consiste à construire des agents capables de récupérer la mémoire de manière relationnelle, en fonction du contexte précis de chaque requête, une approche que seules quelques organisations disposant de ressources importantes sont aujourd'hui en mesure de mettre en oeuvre.

UELes entreprises européennes déployant des agents IA en équipe font face au même problème architectural de mémoire non partagée, mais aucune réponse réglementaire ou solution propre au marché France/UE n'est évoquée.

OutilsOutil
1 source
Des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore
4AWS ML Blog 

Des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore

Amazon a lancé les évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore Evaluations, une fonctionnalité permettant aux équipes de développement d'intégrer des fonctions AWS Lambda comme moteur d'évaluation pour leurs agents IA. Contrairement aux juges LLM classiques, ces évaluateurs produisent des résultats déterministes : le même input donne toujours le même score. Ils peuvent être utilisés en mode on-demand, comme porte de validation dans les pipelines CI/CD, ou en mode online pour scorer du trafic de production en temps réel. L'annonce a été portée par une équipe pluridisciplinaire incluant Stephanie Yuan, Lefan Zhang, Ritvika Pillai, Vivek Singh et plusieurs ingénieurs et chefs de produit d'AWS. Pour les entreprises des secteurs financiers et spécialisés, cette capacité répond à des exigences concrètes que les LLM-as-a-Judge ne couvrent pas bien. Un agent de veille de marchés financiers doit citer des cours boursiers dans une fourchette de tolérance configurable, respecter un workflow d'identification du courtier avant d'accéder aux profils clients, retourner des sorties d'outils conformes à un schéma JSON strict, et ne jamais exposer d'informations personnelles identifiables. Un LLM est sujet à des erreurs arithmétiques, peut coûter cher à chaque appel, et ne convient pas à la vérification de règles objectives. Un évaluateur en code appelle directement le système de référence, calcule l'écart de tolérance, et signale chaque anomalie avec une précision que même un écart de 0,1 % peut déclencher, un seuil qui peut influencer une décision de trading. Le lancement s'inscrit dans un problème plus large que rencontre l'industrie : la transition des agents IA du prototype vers la production. Un agent fonctionnel en démo peut, en conditions réelles, produire des données mal formées suite à un bug de parsing ou une panne d'API tierce, divulguer des données confidentielles par inadvertance, ou ne pas respecter l'ordre des appels d'outils requis par une politique interne. Amazon propose désormais quatre dimensions d'évaluation adaptées au code : la validation de schéma des réponses d'outils, la précision numérique par rapport à une source de référence, la conformité au contrat de workflow, et la détection de PII ou de secrets via des services externes comme Amazon Comprehend. Ces évaluateurs peuvent être combinés avec les évaluateurs intégrés d'AgentCore et fonctionnent indépendamment du framework agent utilisé en production. L'enjeu est de donner aux équipes un filet de sécurité déterministe là où les capacités linguistiques des LLM atteignent leurs limites.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic