Aller au contenu principal
OutilsAWS ML Blog1h

Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon a annoncé le lancement de quatre nouveaux évaluateurs multimodaux dans son SDK Strands Evals, conçus pour juger automatiquement la qualité des réponses textuelles générées à partir d'images. Baptisés Overall Quality, Correctness, Faithfulness et Instruction Following, ces évaluateurs fonctionnent sur Amazon Bedrock et s'intègrent directement dans le flux de travail Case/Experiment/Report de Strands Evals. Leur principe : envoyer l'image source, la requête et la réponse du modèle à un modèle juge multimodal, qui retourne un score (sur une échelle de Likert 1-5 ou binaire) accompagné d'un raisonnement exploitable pour le débogage. Ils supportent deux modes d'évaluation, avec ou sans réponse de référence, et peuvent être branchés directement dans des pipelines d'intégration continue pour détecter automatiquement hallucinations visuelles, erreurs factuelles et violations d'instructions.

La limitation des évaluateurs textuels classiques est au coeur de cette annonce. Un juge qui ne voit pas l'image peut valider un texte bien rédigé tout en laissant passer des erreurs critiques : un modèle qui invente une tendance dans un graphique qui ne la montre pas, hallucine un produit absent d'une photo, ou ignore une instruction de format. Ces trois types d'échecs nécessitent trois types de corrections différents, et les agréger en un seul score global rend le débogage quasi impossible. Sans évaluation multimodale automatisée, les équipes sont coincées entre la revue humaine, coûteuse et non scalable, et des proxys textuels qui manquent précisément les défaillances qui comptent, notamment dans des cas d'usage comme la lecture de factures, l'analyse de tableaux de bord ou la description de captures d'écran.

L'enjeu est considérable à l'échelle de l'industrie. Selon Gartner, 80 % des logiciels d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Cette transition rapide pousse les équipes d'ingénierie à construire des pipelines d'évaluation capables de suivre la complexité croissante des modèles déployés. Strands Evals s'inscrit dans l'écosystème d'agents IA open source qu'Amazon a commencé à assembler ces derniers mois, avec une ambition claire : fournir une chaîne d'outils complète, de la construction à l'évaluation des agents. Ces quatre évaluateurs représentent une brique manquante pour les équipes qui travaillent sur le commerce visuel, la compréhension de documents ou tout système où la vérité de terrain réside dans l'image et non dans le texte. La prochaine étape logique sera d'étendre ces mécanismes à des modalités supplémentaires, vidéo, audio, à mesure que les modèles fondamentaux gagnent en capacités.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours
1AWS ML Blog 

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours

Amazon a publié dans son SDK Strands Evaluations une fonctionnalité appelée ActorSimulator, destinée à automatiser l'évaluation des agents IA dans des conversations multi-tours. Contrairement aux tests à tour unique — où l'on fournit une entrée, on collecte une sortie et on juge le résultat — les interactions réelles s'étendent sur plusieurs échanges : l'utilisateur pose des questions de suivi, change de direction ou exprime sa frustration face à des réponses incomplètes. Un assistant de voyage qui gère correctement "Réserve-moi un vol pour Paris" peut échouer lorsque le même utilisateur enchaîne avec "En fait, peut-on regarder les trains ?" ou "Qu'en est-il des hôtels près de la tour Eiffel ?". L'ActorSimulator permet de générer des utilisateurs simulés avec des personas structurés et des objectifs définis, puis de les laisser converser naturellement avec un agent sur plusieurs tours, à grande échelle. L'enjeu est considérable pour les équipes qui développent des agents conversationnels en production. Conduire manuellement des centaines de conversations multi-tours à chaque modification d'un agent est insoutenable, et les jeux de données statiques d'entrées/sorties ne capturent pas la dynamique réelle : la "bonne" prochaine question de l'utilisateur dépend entièrement de ce que l'agent vient de répondre. Les approches artisanales consistant à demander à un LLM de "jouer l'utilisateur" sans définition structurée du persona produisent des résultats incohérents d'une exécution à l'autre, rendant impossible la détection fiable de régressions. L'ActorSimulator répond à ce problème en combinant le réalisme d'une conversation humaine avec la reproductibilité et l'échelle des tests automatisés. Ce développement s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'évaluation des agents IA, à mesure que ceux-ci quittent les démos pour entrer dans des usages critiques. AWS positionne Strands Evaluations comme une infrastructure d'évaluation systématique, comparable aux simulateurs de vol ou aux moteurs de jeu qui testent des millions de comportements avant déploiement. La difficulté fondamentale réside dans la croissance combinatoire des chemins de conversation : plus les capacités d'un agent s'étoffent, plus le nombre de scénarios possibles explose au-delà de ce que des équipes humaines peuvent explorer. En permettant la simulation structurée de personas avec des objectifs explicites et un suivi de progression, Strands Evals vise à offrir aux équipes d'évaluation un outil comparable à ce que les testeurs de logiciels ont dans d'autres disciplines d'ingénierie, avec des résultats comparables dans le temps.

OutilsOutil
1 source
Des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore
2AWS ML Blog 

Des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore

Amazon a lancé les évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore Evaluations, une fonctionnalité permettant aux équipes de développement d'intégrer des fonctions AWS Lambda comme moteur d'évaluation pour leurs agents IA. Contrairement aux juges LLM classiques, ces évaluateurs produisent des résultats déterministes : le même input donne toujours le même score. Ils peuvent être utilisés en mode on-demand, comme porte de validation dans les pipelines CI/CD, ou en mode online pour scorer du trafic de production en temps réel. L'annonce a été portée par une équipe pluridisciplinaire incluant Stephanie Yuan, Lefan Zhang, Ritvika Pillai, Vivek Singh et plusieurs ingénieurs et chefs de produit d'AWS. Pour les entreprises des secteurs financiers et spécialisés, cette capacité répond à des exigences concrètes que les LLM-as-a-Judge ne couvrent pas bien. Un agent de veille de marchés financiers doit citer des cours boursiers dans une fourchette de tolérance configurable, respecter un workflow d'identification du courtier avant d'accéder aux profils clients, retourner des sorties d'outils conformes à un schéma JSON strict, et ne jamais exposer d'informations personnelles identifiables. Un LLM est sujet à des erreurs arithmétiques, peut coûter cher à chaque appel, et ne convient pas à la vérification de règles objectives. Un évaluateur en code appelle directement le système de référence, calcule l'écart de tolérance, et signale chaque anomalie avec une précision que même un écart de 0,1 % peut déclencher, un seuil qui peut influencer une décision de trading. Le lancement s'inscrit dans un problème plus large que rencontre l'industrie : la transition des agents IA du prototype vers la production. Un agent fonctionnel en démo peut, en conditions réelles, produire des données mal formées suite à un bug de parsing ou une panne d'API tierce, divulguer des données confidentielles par inadvertance, ou ne pas respecter l'ordre des appels d'outils requis par une politique interne. Amazon propose désormais quatre dimensions d'évaluation adaptées au code : la validation de schéma des réponses d'outils, la précision numérique par rapport à une source de référence, la conformité au contrat de workflow, et la détection de PII ou de secrets via des services externes comme Amazon Comprehend. Ces évaluateurs peuvent être combinés avec les évaluateurs intégrés d'AgentCore et fonctionnent indépendamment du framework agent utilisé en production. L'enjeu est de donner aux équipes un filet de sécurité déterministe là où les capacités linguistiques des LLM atteignent leurs limites.

OutilsOutil
1 source
3AWS ML Blog 

Des heures aux minutes : comment les agents IA ont redonné du temps aux marketeurs pour l'essentiel

L'équipe Technology, AI, and Analytics (TAA) d'AWS Marketing a développé, en partenariat avec la startup Gradial, une solution d'IA agentique capable de réduire le temps de publication d'une page web de quatre heures à environ dix minutes, soit une diminution de plus de 95 %. Déployée sur Amazon Bedrock, cette solution s'appuie sur les modèles Anthropic Claude et Amazon Nova pour orchestrer l'ensemble du workflow de création de contenu : interprétation des briefs en langage naturel, assemblage des composants de page, validation des standards d'accessibilité et de conformité, jusqu'au lancement effectif sur les canaux digitaux. Le système intègre un serveur Model Context Protocol (MCP) pour la validation en temps réel et se connecte directement aux systèmes de gestion de contenu (CMS) d'entreprise. Cette accélération libère les équipes marketing, Digital Marketing Managers et Product Marketing Managers chez AWS, des tâches de coordination et d'assemblage répétitives qui monopolisaient leur temps. Auparavant, la publication d'une seule page nécessitait un appel de lancement, une file d'attente de priorisation, plusieurs allers-retours entre équipes, puis des cycles de révision successifs pour valider les textes, les visuels, les liens et la conformité technique. Un seul problème d'accessibilité sur une image suffisait à relancer un nouveau cycle complet. En automatisant cette orchestration, les équipes peuvent désormais se concentrer sur les tâches à plus forte valeur ajoutée : identifier les problèmes clients, affiner les messages et concevoir des campagnes plus efficaces. Ce projet s'inscrit dans une tendance de fond où les grandes entreprises tech cherchent à industrialiser leurs workflows marketing grâce à l'IA agentique. AWS, qui opère l'une des infrastructures digitales les plus complexes au monde, fait face à des exigences particulièrement élevées en matière de cohérence de marque, d'accessibilité et de conformité réglementaire à grande échelle. Le recours à Gradial, une startup spécialisée dans la modernisation des organisations marketing, illustre la montée en puissance des solutions verticales construites sur des plateformes d'IA fondationnelles comme Bedrock. L'enjeu dépasse AWS : toute organisation publiant du contenu web en volume est confrontée aux mêmes goulots d'étranglement. La généralisation de ce type d'agent autonome capable de piloter des CMS d'entreprise pourrait profondément transformer les métiers du marketing digital, en faisant de la coordination humaine l'exception plutôt que la règle.

OutilsOutil
1 source
Texte écrit par IA : comment les détecter facilement (et les meilleurs outils)
4Le Big Data 

Texte écrit par IA : comment les détecter facilement (et les meilleurs outils)

La prolifération des contenus générés par intelligence artificielle pose un défi croissant pour les éditeurs, les enseignants et les professionnels du référencement. Des outils comme ChatGPT-5 produisent aujourd'hui des textes suffisamment fluides pour tromper un lecteur non averti, mais ils laissent des empreintes statistiques caractéristiques. Les détecteurs de texte IA, dont GPTZero est l'un des plus répandus, s'appuient sur deux indicateurs principaux : la perplexité, qui mesure le degré de prévisibilité d'une suite de mots, et la variabilité syntaxique, qui évalue si les phrases alternent naturellement entre courtes et longues. Quand un modèle devine facilement chaque mot suivant, le texte est jugé trop régulier pour être humain. Le logiciel attribue alors un score de probabilité, non une certitude absolue, après analyse statistique du contenu segment par segment. Les enjeux dépassent largement la simple question de triche. Pour les sites web, Google ne sanctionne pas l'IA en tant que telle, mais pénalise les contenus à faible valeur ajoutée qui se contentent de répéter des banalités : un texte généré sans supervision peut voir son référencement s'effondrer rapidement si ses positions reculent dans les résultats de recherche. Dans le monde académique, la détection devient un outil indispensable pour les enseignants qui doivent évaluer des compétences réelles plutôt que la maîtrise du prompt engineering. En journalisme et dans l'édition, l'enjeu est celui de la confiance : un lecteur qui découvre qu'il consomme du contenu robotisé sans en avoir été informé se sent trahi, et cette confiance, difficile à construire, peut s'effondrer en quelques secondes. Des marques utilisent désormais ces outils pour s'assurer que leur ligne éditoriale conserve une voix authentiquement humaine. Au-delà des outils automatisés, l'oeil humain reste un premier filtre utile. Un texte généré par IA présente souvent une regularité suspecte : des phrases d'une longueur très similaire, une progression logique trop propre, une absence de digressions ou d'anecdotes personnelles, et un usage fréquent de connecteurs passe-partout. Les détecteurs algorithmiques ne lisent pas le sens des mots mais repèrent ces schémas mathématiques invisibles à première lecture. Ils restent cependant imparfaits, et les modèles les plus récents apprennent à contourner ces signatures. La meilleure approche combine donc l'intuition éditoriale et l'analyse technique, en traitant le score fourni par un outil comme GPTZero comme un signal d'alerte plutôt que comme un verdict définitif. À mesure que les modèles progressent, la course entre génération et détection s'accélère, rendant la vigilance humaine irremplaçable.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour