
ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture.
L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom.
Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.



