Aller au contenu principal
Vers une meilleure compréhension et prévention de la généralisation mal alignée
RechercheOpenAI Blog53sem· 1 min de lecture

Vers une meilleure compréhension et prévention de la généralisation mal alignée

Source originale ↗·

Cet article explore comment l'entraînement sur des réponses incorrectes peut entraîner une mauvaise alignment plus large dans les modèles de traitement du langage, identifiant une caractéristique interne qui peut être inversée avec un ajustement fin minime.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mécanismes locaux de généralisation compositionnelle dans la diffusion conditionnelle
1Apple Machine Learning 

Mécanismes locaux de généralisation compositionnelle dans la diffusion conditionnelle

Des chercheurs ont publié une étude portant sur la généralisation compositionnelle dans les modèles de diffusion conditionnels, ces systèmes capables de générer des images à partir de descriptions textuelles ou d'autres signaux. L'équipe s'est concentrée sur un cas précis : la généralisation par longueur, c'est-à-dire la capacité d'un modèle à produire des images contenant davantage d'objets que ceux rencontrés lors de l'entraînement. Pour tester cela de manière rigoureuse, les chercheurs ont utilisé le jeu de données CLEVR, un environnement de référence en vision artificielle introduit par Johnson et al. en 2017, qui représente des scènes de formes géométriques simples avec des propriétés contrôlables. Les résultats révèlent une réalité nuancée : la généralisation est possible dans certains cas, mais échoue dans d'autres. Cela suggère que ces modèles n'apprennent que ponctuellement la structure compositionnelle sous-jacente aux données, et non de manière systématique. Pour les équipes qui déploient des modèles génératifs en production, notamment dans la création visuelle ou la synthèse de données d'entraînement, cela soulève des questions importantes sur la fiabilité réelle de ces systèmes face à des entrées hors distribution. Cette recherche s'inscrit dans un débat plus large sur ce que les modèles génératifs apprennent vraiment, au-delà de la simple mémorisation de patterns. Comprendre les mécanismes locaux qui permettent ou bloquent la généralisation est essentiel pour concevoir des architectures plus robustes. Les auteurs annoncent une investigation plus poussée de ces mécanismes, ce qui devrait alimenter les travaux sur l'interprétabilité et la conception de modèles de diffusion de prochaine génération.

RecherchePaper
1 source
L'IA au service de la compréhension du cerveau : explications et expériences
2Microsoft Research 

L'IA au service de la compréhension du cerveau : explications et expériences

Des chercheurs de Microsoft Research, de l'Université de Californie à Berkeley, de l'UCSF et de Columbia University ont publié dans Nature Neuroscience un nouveau cadre méthodologique baptisé Generative Causal Testing (GCT), conçu pour rendre les modèles de prédiction cérébrale interprétables par des humains. Depuis une dizaine d'années, les grands modèles de langage sont devenus les outils les plus précis pour prédire comment le cerveau humain réagit au langage : en soumettant à un LLM le même texte qu'une personne écoute dans un scanner IRM fonctionnel, le modèle peut anticiper l'activité de zones corticales spécifiques avec une fidélité remarquable. Le problème : ces modèles ne disent pas pourquoi. Ils sont constitués de millions de paramètres opaques, incapables d'expliquer à quel concept précis une région cérébrale est sensible. GCT répond à ce vide en deux étapes. D'abord, il identifie les phrases qui activent le plus fortement le modèle prédictif d'une région donnée, puis un LLM synthétise ces signaux en une explication courte et lisible, comme "préparation culinaire" ou "noms de lieux". Ensuite, un autre LLM génère de nouvelles histoires spécifiquement conçues pour déclencher cette région, les participants les écoutent en scanner, et l'équipe vérifie si la zone ciblée s'active effectivement. Les expériences menées ont confirmé des sélectivités connues, distingué des régions voisines de traitement des lieux longtemps considérées comme interchangeables, et mis en évidence de minuscules "micro-régions" préfrontales sensibles à des concepts très précis comme les dialogues, les horaires ou les mesures. L'enjeu va bien au-delà de la neuroscience computationnelle : il s'agit de combler le fossé entre prédiction et compréhension. Un modèle qui prédit l'activité cérébrale sans l'expliquer ne produit pas de connaissance scientifique, il produit une performance. GCT transforme ces performances en hypothèses testables, c'est-à-dire en théories au sens strict du terme, des affirmations que l'on peut confirmer ou réfuter par une expérience. Pour les chercheurs en neurosciences du langage, cela change radicalement la valeur opérationnelle des LLMs : ils ne servent plus seulement à prédire, mais à formuler des questions précises sur l'organisation fonctionnelle du cortex. Pour l'industrie de l'IA, c'est une démonstration que l'interprétabilité des modèles peut être abordée de façon expérimentale, pas seulement théorique. Ce travail s'inscrit dans un mouvement plus large d'alignement entre neurosciences cognitives et intelligence artificielle, où les LLMs sont utilisés non plus comme des boîtes noires mais comme des instruments d'investigation scientifique. La crise de l'explicabilité est l'une des tensions centrales de la décennie en IA : à mesure que les modèles gagnent en précision, leur lisibilité diminue. GCT propose une réponse originale en utilisant les LLMs pour s'expliquer eux-mêmes, via une boucle de vérification empirique. Les prochaines étapes probables incluent l'extension de ce cadre à d'autres modalités sensorielles et à d'autres populations, ainsi que son application à des questions cliniques liées au traitement du langage dans des pathologies neurologiques.

💬 On savait déjà que les LLMs prédisent l'activité cérébrale mieux que n'importe quel autre outil. Ce que GCT fait, c'est utiliser ces mêmes modèles pour formuler des hypothèses qu'on va tester en scanner, transformer une prédiction opaque en théorie vérifiable. C'est le genre de travail qui devrait changer comment on pense l'interprétabilité en IA, pas juste en neurosciences.

RecherchePaper
1 source
COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène
3arXiv cs.RO 

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Des chercheurs ont présenté COMPASS, un algorithme de localisation visuelle pour robots qui exploite les plans architecturaux comme référence spatiale. Là où les méthodes existantes se limitent à la géométrie des bâtiments, COMPASS extrait simultanément les informations sémantiques contenues dans ces plans, murs, fenêtres, ouvertures, pour estimer avec précision la position et l'orientation d'un robot équipé de deux caméras fisheye. L'algorithme construit un descripteur radial à cinq canaux, inspiré du "scan context" utilisé en LiDAR, en projetant 360 rayons autour d'une position et en encodant pour chacun : la distance normalisée, le type d'obstacle rencontré, le gradient de distance, la distance inverse, et la variance locale. Cette représentation compacte est générée à la fois depuis le plan et depuis les images caméra, afin de les comparer directement. L'intérêt concret de cette approche tient à sa frugalité : les plans de bâtiments sont des ressources universellement disponibles, contrairement aux cartes 3D denses ou aux nuages de points LiDAR qui nécessitent une infrastructure coûteuse. En associant un simple plan d'étage à des caméras fisheye grand angle, COMPASS ouvre la voie à une localisation précise dans des environnements intérieurs sans déploiement de capteurs spécialisés. Les applications visées sont nombreuses : robots de livraison, assistants en milieu hospitalier, drones d'inspection, ou systèmes de navigation pour personnes malvoyantes. Le projet en est encore au stade de preuve de concept, validée sur le dataset Hilti-Trimble SLAM Challenge 2026 : les auteurs ont démontré que les signatures visuelles extraites de la première image de chaque caméra correspondent bien aux descripteurs issus du plan, confirmant la faisabilité du matching cross-modal. La prochaine étape consiste à étendre la détection d'éléments structurels au-delà des seules fenêtres, à intégrer la fusion des deux caméras fisheye, et à tester la localisation en conditions réelles sur des trajectoires complètes, un défi technique majeur qui conditionnera l'utilité pratique de la méthode.

RecherchePaper
1 source
RVPO : un alignement sensible au risque par régularisation de la variance
4Apple Machine Learning 

RVPO : un alignement sensible au risque par régularisation de la variance

Les méthodes actuelles d'alignement des grands modèles de langage par renforcement humain (RLHF), comme celles sans critique explicite, agrègent plusieurs objectifs de récompense via une simple moyenne arithmétique. Une équipe de chercheurs propose RVPO (Reward-Variance Policy Optimization), un cadre d'optimisation sensible au risque qui corrige une faille structurelle de ces approches : la "négligence des contraintes". Concrètement, un modèle peut obtenir un score global élevé en excellant sur un objectif, tout en échouant silencieusement sur un autre, comme la sécurité ou le respect du format. Ce problème n'est pas anodin : dans des déploiements réels, un modèle qui ignore systématiquement une contrainte de sécurité tout en produisant des réponses très fluentes reste dangereux, même si sa récompense moyenne paraît satisfaisante. RVPO répond à cela en pénalisant la variance entre les différentes récompenses lors de l'agrégation des avantages, déplaçant l'objectif d'un "maximiser la somme" vers un "maximiser la cohérence". Le modèle est ainsi incité à progresser de manière équilibrée sur tous les axes plutôt qu'à suroptimiser l'un d'eux. L'alignement multi-objectif est l'un des défis centraux du développement des LLM fiables, à mesure que ces systèmes doivent simultanément respecter la sécurité, la précision factuelle, les instructions de format et les préférences utilisateurs. Les approches sans modèle critique, popularisées notamment par DPO et ses dérivés, ont l'avantage d'être moins coûteuses à entraîner, mais leur agrégation naïve des signaux reste un point faible. RVPO, justifié mathématiquement via un développement de Taylor, ouvre une piste concrète pour rendre ces méthodes plus robustes face aux compromis critiques.

RechercheOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic