Aller au contenu principal
RechercheAmazon Science1h

Le ground truth est un processus, pas un jeu de données

Résumé IASource uniqueImpact UE
Source originale ↗·

Le groupe AGI d'Amazon a publié sur arXiv une étude qui remet en cause une des hypothèses fondamentales de l'évaluation des systèmes d'intelligence artificielle : l'idée que la « vérité de référence » (ground truth) est un ensemble de données fixe et fiable. Pour construire un outil capable de vérifier la fiabilité factuelle des rapports de recherche générés par l'IA, les chercheurs ont recruté des experts de niveau doctoral en informatique, théorie du contrôle, santé publique et ingénierie environnementale. Résultat inattendu : livrés à eux-mêmes, ces spécialistes n'ont obtenu que 60,8 % de précision sur un ensemble de réponses déjà connues, utilisé comme contrôle interne. Ce taux révèle non pas un manque d'expertise, mais la difficulté intrinsèque d'une tâche qui exige lecture longue, synthèse multi-documents et attention soutenue.

Ce constat a conduit l'équipe à repenser en profondeur la manière dont on construit un benchmark. Plutôt que de traiter les étiquettes initiales des experts comme une vérité incontestable, les chercheurs ont développé un protocole appelé « audit-then-score » : lorsque le système de vérification automatique, DeepFact-Eval, conteste une réponse humaine, il ne se voit pas simplement pénalisé. Il doit soumettre des preuves concrètes et une argumentation écrite. Un auditeur, humain ou automatisé, compare alors cette contestation avec la justification originale, et si le challenger l'emporte, le benchmark est corrigé avant que le modèle ne soit noté. Ce renversement de logique est significatif : dans les tâches cognitivement exigeantes, un désaccord entre le modèle et le benchmark n'est plus automatiquement interprété comme une erreur du modèle, mais comme un signal potentiel d'ambiguïté dans les données d'évaluation elles-mêmes.

L'enjeu dépasse largement Amazon. Les systèmes d'IA augmentés de recherche, capables de produire des synthèses longues combinant des dizaines de sources, se multiplient chez OpenAI, Google, Perplexity et d'autres acteurs. Ces rapports ressemblent de plus en plus à des analyses d'expert, mais leurs affirmations peuvent fusionner des éléments de plusieurs documents d'une façon qu'aucun outil de vérification classique ne sait traiter. Les outils existants sont conçus pour faire correspondre une affirmation à une courte citation ; ils échouent dès qu'une phrase dépend du contexte global d'un rapport. L'équipe publie conjointement DeepFact-Bench, un jeu de tests partagé pour comparer les systèmes, et DeepFact-Eval, le vérificateur automatique capable de planifier des recherches dans la littérature, de résumer les documents récupérés et de poser des questions complémentaires. La conclusion structurelle est claire : à mesure que les sorties de l'IA gagnent en complexité, la vérité de référence ne peut plus être un dataset statique, elle doit devenir un processus itératif.

Impact France/UE

La méthodologie d'audit itératif pourrait indirectement influencer les standards d'évaluation des systèmes IA à haut risque imposés par l'AI Act européen.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
1Apple Machine Learning 

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture. L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom. Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.

RecherchePaper
1 source
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
2arXiv cs.RO 

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes. L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés. La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

RecherchePaper
1 source
L'IA d'un jeune professionnel détecte des troubles de santé mentale
3IEEE Spectrum AI 

L'IA d'un jeune professionnel détecte des troubles de santé mentale

Abhishek Appaji, professeur associé en ingénierie de l'électronique médicale au B.M.S. College of Engineering de Bengaluru, en Inde, vient d'être désigné lauréat du prix IEEE Theodore W. Hissey Outstanding Young Professional Award 2026, qui sera remis ce mois-ci lors de la cérémonie IEEE Honors à New York. Membre senior de l'IEEE, ce chercheur de 36 ans a consacré sa carrière au développement d'outils diagnostiques alimentés par l'intelligence artificielle destinés aux communautés les moins bien desservies. Parmi ses réalisations déployées dans des zones reculées de l'Inde figurent une machine d'analyse rétinienne capable de détecter diverses pathologies, ainsi qu'un lit connecté surveillant en continu les constantes vitales des patients. Il est également co-fondateur de Glucotek, une startup basée à Brisbane, en Australie, née d'un bootcamp entrepreneurial au MIT en 2017, dont l'objectif initial était de mettre au point un dispositif non invasif de mesure de la glycémie pour gérer le diabète gestationnel. L'impact de ses travaux dépasse largement le cadre académique. En ciblant délibérément les populations éloignées des grands centres hospitaliers, Appaji cherche à combler le fossé entre innovation technologique et accès aux soins. Ses outils permettent à des médecins généralistes ou à du personnel paramédical de réaliser des diagnostics qui nécessitaient auparavant des équipements coûteux ou des spécialistes absents de ces régions. Sa thèse de doctorat, soutenue à l'Université de Maastricht aux Pays-Bas et portant sur les méthodes computationnelles d'analyse des vaisseaux rétiniens, ouvre une piste diagnostique particulièrement prometteuse : les altérations microvasculaires visibles dans la rétine refléteraient les changements neurovasculaires associés à des troubles psychiatriques comme la schizophrénie ou le trouble bipolaire, offrant potentiellement un moyen de dépistage non invasif de ces conditions. Le parcours d'Appaji illustre une tendance de fond dans la recherche en santé numérique : l'exploitation de l'IA et du deep learning pour transformer des signaux biologiques subtils en outils diagnostiques accessibles et précis. Formé en Inde avant de passer par le MIT et Maastricht, il incarne le profil du chercheur-entrepreneur capable de faire le pont entre laboratoire et marché. Son engagement bénévole au sein de l'IEEE Young Professionals Bangalore Section, où il a mis en place des programmes de mentorat et des ateliers technologiques, témoigne d'une vision plus large : former la prochaine génération d'ingénieurs à produire un impact concret. Alors que les systèmes de santé des pays à revenus intermédiaires cherchent à intégrer l'IA sans exploser leurs budgets, les approches développées par Appaji pourraient servir de modèle pour une médecine de précision véritablement inclusive.

RecherchePaper
1 source
Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts
4MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour