Aller au contenu principal
ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
RechercheApple Machine Learning9sem

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture.

L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom.

Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le ground truth est un processus, pas un jeu de données
1Amazon Science 

Le ground truth est un processus, pas un jeu de données

Le groupe AGI d'Amazon a publié sur arXiv une étude qui remet en cause une des hypothèses fondamentales de l'évaluation des systèmes d'intelligence artificielle : l'idée que la « vérité de référence » (ground truth) est un ensemble de données fixe et fiable. Pour construire un outil capable de vérifier la fiabilité factuelle des rapports de recherche générés par l'IA, les chercheurs ont recruté des experts de niveau doctoral en informatique, théorie du contrôle, santé publique et ingénierie environnementale. Résultat inattendu : livrés à eux-mêmes, ces spécialistes n'ont obtenu que 60,8 % de précision sur un ensemble de réponses déjà connues, utilisé comme contrôle interne. Ce taux révèle non pas un manque d'expertise, mais la difficulté intrinsèque d'une tâche qui exige lecture longue, synthèse multi-documents et attention soutenue. Ce constat a conduit l'équipe à repenser en profondeur la manière dont on construit un benchmark. Plutôt que de traiter les étiquettes initiales des experts comme une vérité incontestable, les chercheurs ont développé un protocole appelé « audit-then-score » : lorsque le système de vérification automatique, DeepFact-Eval, conteste une réponse humaine, il ne se voit pas simplement pénalisé. Il doit soumettre des preuves concrètes et une argumentation écrite. Un auditeur, humain ou automatisé, compare alors cette contestation avec la justification originale, et si le challenger l'emporte, le benchmark est corrigé avant que le modèle ne soit noté. Ce renversement de logique est significatif : dans les tâches cognitivement exigeantes, un désaccord entre le modèle et le benchmark n'est plus automatiquement interprété comme une erreur du modèle, mais comme un signal potentiel d'ambiguïté dans les données d'évaluation elles-mêmes. L'enjeu dépasse largement Amazon. Les systèmes d'IA augmentés de recherche, capables de produire des synthèses longues combinant des dizaines de sources, se multiplient chez OpenAI, Google, Perplexity et d'autres acteurs. Ces rapports ressemblent de plus en plus à des analyses d'expert, mais leurs affirmations peuvent fusionner des éléments de plusieurs documents d'une façon qu'aucun outil de vérification classique ne sait traiter. Les outils existants sont conçus pour faire correspondre une affirmation à une courte citation ; ils échouent dès qu'une phrase dépend du contexte global d'un rapport. L'équipe publie conjointement DeepFact-Bench, un jeu de tests partagé pour comparer les systèmes, et DeepFact-Eval, le vérificateur automatique capable de planifier des recherches dans la littérature, de résumer les documents récupérés et de poser des questions complémentaires. La conclusion structurelle est claire : à mesure que les sorties de l'IA gagnent en complexité, la vérité de référence ne peut plus être un dataset statique, elle doit devenir un processus itératif.

UELa méthodologie d'audit itératif pourrait indirectement influencer les standards d'évaluation des systèmes IA à haut risque imposés par l'AI Act européen.

RecherchePaper
1 source
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
2arXiv cs.RO 

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes. L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés. La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

RecherchePaper
1 source
Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données
3MarkTechPost 

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper
1 source
GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars
4Latent Space 

GPT-next d'OpenAI réfute le problème des distances unitaires planaires d'Erdős pour moins de 1 000 dollars

OpenAI a annoncé début mai 2026 qu'un modèle interne, vraisemblablement une version intermédiaire de GPT-5, surnommée GPT-5.6, a réfuté une conjecture mathématique vieille de 80 ans : le problème des distances unitaires planes, posé par le mathématicien hongrois Paul Erdős en 1946. Le modèle a produit ce résultat en moins de 32 heures de calcul, pour un coût estimé à moins de 1 000 dollars. Concrètement, il a découvert une nouvelle famille de constructions géométriques qui dépasse les meilleures solutions connues basées sur les grilles carrées. Le raisonnement généré s'étend sur environ 125 pages, avec un passage en page 39 qui a particulièrement attiré l'attention de la communauté mathématique. Il s'agit techniquement d'une réfutation, pas d'une preuve, ce qui, selon les auteurs, rend le résultat légèrement moins spectaculaire qu'il aurait pu être, mais significatif malgré tout. Ce qui frappe les observateurs, c'est que le modèle utilisé n'est pas un système spécialisé comme AlphaProof ou un prouveur formel de type Lean, mais un LLM généraliste. Le mathématicien Timothy Gowers, médaille Fields 1998, a qualifié ce résultat de "premier exemple vraiment clair" où une IA résout un problème mathématique ouvert de renom. Le chercheur d'OpenAI Hongxun Wu y voit une démonstration de capacités de raisonnement sur des "problèmes de la plus haute difficulté". L'implication est importante : si un modèle généraliste peut progresser sur des problèmes ouverts en géométrie discrète, le même type de raisonnement pourrait s'appliquer à d'autres domaines scientifiques, biologie, physique, chimie computationnelle. OpenAI a précisé que le modèle n'a pas été poussé à ses limites et sera mis à disposition du public. Ce résultat s'inscrit dans une dynamique plus large autour du calcul à l'inférence : l'idée que donner plus de temps de réflexion à un modèle, plutôt que d'entraîner un modèle plus grand, est le levier dominant du progrès actuel. La longueur inhabituelle du raisonnement produit (125 pages) illustre précisément cette approche. En parallèle, Cohere a publié cette même semaine Command A+, son premier modèle entièrement open source sous licence Apache 2.0 : 218 milliards de paramètres en architecture MoE avec 25 milliards actifs, multimodal, compatible 48 langues, et capable de tourner sur seulement deux GPU H100 en quantification W4A4. Les benchmarks le placent au niveau de Claude 4.5 Haiku avec de bonnes performances en évitement des hallucinations, mais en retrait sur le raisonnement scientifique et le code par rapport aux modèles de tête. Ces deux annonces confirment une semaine de mai 2026 particulièrement dense pour l'IA de frontière.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour