Des actions à la compréhension : interprétabilité…

Les modèles d'apprentissage de la compréhension vidéo égocentrique récompensés pour leur conscience temporelle

39

1Apple Machine Learning

Les modèles d'apprentissage de la compréhension vidéo égocentrique récompensés pour leur conscience temporelle

Traduction et synthèse en français, sans titres, respectant les consignes : Des chercheurs proposent une nouvelle méthode baptisée Temporal Global Policy Optimization (TGPO), conçue pour corriger un défaut récurrent des grands modèles multimodaux (MLLM) : leur incapacité à raisonner correctement sur l'ordre et l'évolution des événements dans une vidéo, en particulier dans les contenus filmés à la première personne (vidéo égocentrique, comme celle de caméras portées). Selon les auteurs, ce problème vient de la façon dont ces modèles sont entraînés : les objectifs d'apprentissage classiques ne récompensent pas explicitement le raisonnement temporel et poussent plutôt les modèles à s'appuyer sur des raccourcis purement spatiaux, image par image, sans réelle compréhension de la chronologie des faits. TGPO s'appuie sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une approche qui guide l'entraînement du modèle en validant explicitement la justesse de son raisonnement plutôt qu'en se contentant d'un résultat final. Cette avancée pourrait avoir un impact concret sur toutes les applications qui dépendent d'une compréhension fine du déroulement temporel d'une scène filmée en vue subjective : assistants intelligents pour lunettes connectées, robots capables de suivre une séquence d'actions, ou encore outils d'analyse vidéo pour la formation et la sécurité. Un modèle qui perçoit correctement l'enchaînement des événements devient nettement plus fiable pour répondre à des questions du type "que s'est-il passé avant" ou "dans quel ordre les actions ont eu lieu", un besoin critique dans les usages du monde réel où la vidéo égocentrique se généralise. Ce travail s'inscrit dans une tendance plus large de la recherche en IA, qui cherche à dépasser les limites des modèles multimodaux entraînés uniquement sur des indices visuels statiques. L'apprentissage par renforcement avec récompenses vérifiables gagne du terrain comme alternative aux méthodes d'entraînement traditionnelles, notamment pour les tâches de raisonnement complexe. À mesure que les caméras portées et les dispositifs de réalité augmentée se démocratisent, la capacité des modèles à interpréter le temps qui passe, et pas seulement l'espace visible, devient un enjeu central pour les prochaines générations d'assistants IA visuels. --- Note : le texte source fourni est tronqué (l'abstract s'arrête en milieu de phrase, sans détails sur les jeux de données, benchmarks ou résultats chiffrés obtenus par TGPO). Le résumé ci-dessus reste donc fidèle aux seules informations disponibles, si tu as l'article complet, je peux l'enrichir avec les chiffres et résultats manquants.

RecherchePaper

1 source

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

37

2Amazon Science

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

Anthropic a présenté Turnstile, un petit proxy écrit en langage Rust destiné à résoudre un problème technique précis dans l'entraînement des modèles de langage par apprentissage par renforcement (RL). Pour progresser sur des tâches complexes et prolongées, comme écrire du code, naviguer sur un site web ou mener une recherche en plusieurs étapes, un modèle est encadré par un harnais logiciel qui lui permet d'appeler des outils, d'observer les résultats et de décider de l'étape suivante. L'entraînement RL consiste à faire tenter de nombreuses tâches au modèle, à noter chaque tentative, puis à ajuster ses paramètres vers les choix qui ont fonctionné. Le problème vient du fait que les modèles ne traitent pas le texte tel quel, mais sous forme de tokens, des unités numérotées par un tokenizer propre à chaque modèle. Un simple changement de mise en forme, un espace en trop ou une manière différente d'écrire un appel d'outil en JSON peut modifier les identifiants de tokens sans changer le texte apparent, un phénomène qu'Anthropic appelle la dérive de retokenisation ou la dérive du template de conversation. Turnstile s'installe entre le harnais de l'agent et le système qui fait tourner le modèle, et enregistre l'historique exact, token par token, de chaque requête au moment précis de sa génération, le seul instant où cette information est garantie exacte. Cette précision compte parce que les mathématiques du RL par gradient de politique ne fonctionnent correctement que si l'entraînement optimise le comportement du modèle par rapport au contexte réellement vu par la version du modèle qui a produit la tentative, appelée la politique comportementale. Si le contexte est légèrement redessiné lors de la relecture, le modèle est entraîné sur un contexte qu'il n'a jamais réellement rencontré, ce qui dégrade le signal d'apprentissage de façon souvent invisible, le modèle semblant continuer à progresser normalement. Le problème s'aggrave avec des harnais complexes, qui peuvent compacter d'anciens messages pour économiser du contexte, relancer un appel d'outil mal formé, créer des sous-agents puis fusionner leurs résultats, ou résumer l'historique en cours de route, autant d'opérations qui peuvent introduire un décalage entre ce que le modèle a vu et ce que l'entraîneur croit qu'il a vu. Turnstile exporte ces trajectoires token par token dans un format générique, indépendant de tout framework, compatible avec n'importe quelle pile d'entraînement RL existante. Anthropic affirme avoir utilisé cet outil pour de véritables campagnes d'entraînement, avec deux agents différents, un agent de codage purement textuel et un agent multimodal capable d'utiliser un ordinateur, qui ont tous deux progressé de façon régulière au fil de leurs sessions de RL, sans qu'aucune modification du harnais d'origine ne soit nécessaire. Cette publication s'inscrit dans un effort plus large de l'industrie pour fiabiliser l'entraînement des agents IA, à mesure que les tâches confiées aux modèles deviennent plus longues et plus complexes, et que la moindre incohérence dans les données d'entraînement peut se traduire par des gains de performance illusoires ou instables.

💬 Turnstile, c'est le genre d'outil qui ne fera jamais la une, mais qui règle un vrai bug de fond : quand ton harnais d'agent reformate un appel d'outil ou compacte l'historique, le modèle s'entraîne sur un contexte qu'il n'a jamais vu, et ça pourrit le RL sans que personne s'en aperçoive. Le fait qu'Anthropic sorte un proxy Rust juste pour ça montre à quel point l'entraînement des agents devient une affaire de plomberie fine, pas de nouvelles architectures. Ce genre de correction invisible en dit plus sur la maturité d'un labo que ses derniers benchmarks.

RecherchePaper

1 source

Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action

40

3arXiv cs.RO

Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2504.20472) une nouvelle approche pour améliorer la fiabilité des modèles de robotique dits vision-language-action (VLA), capables d'interpréter simultanément des images, du langage et des actions physiques. Le problème qu'ils adressent est celui de la calibration de l'incertitude dans les tâches séquentielles : lorsqu'un robot exécute une tâche en plusieurs étapes, à quel point ses estimations de succès sont-elles fiables à chaque instant, sachant que le résultat final n'est connu qu'en fin d'épisode ? Les auteurs formalisent ce problème et introduisent une extension séquentielle du score de Brier, une mesure classique de calibration probabiliste, adaptée aux trajectoires partielles. Ils démontrent que, dans le cas de résultats binaires, le minimiseur de risque de ce score coïncide mathématiquement avec la fonction de valeur de la politique VLA, concept central en apprentissage par renforcement. Concrètement, ils proposent d'utiliser l'estimation de valeur par différence temporelle (TD), technique issue du reinforcement learning, comme mécanisme de calibration. Les expériences menées sur des données de robots simulés et réels montrent que cette approche surpasse les méthodes de calibration actuelles. Ce travail a des implications directes pour le déploiement de robots dans des environnements réels. Un robot mal calibré peut surestimer sa confiance et poursuivre une tâche vouée à l'échec, ou au contraire s'arrêter prématurément. Améliorer la calibration permet donc d'accroître la sécurité et la robustesse des systèmes autonomes, un enjeu critique à mesure que ces modèles quittent les laboratoires pour intégrer des usines, des entrepôts ou des environnements domestiques. Le résultat le plus surprenant de l'étude est que, une fois calibrées par TD, les probabilités d'action à chaque pas isolé du modèle VLA suffisent à produire des estimations d'incertitude compétitives, contrairement à ce que des travaux récents utilisant d'autres méthodes de calibration avaient conclu. Ce résultat s'inscrit dans une dynamique plus large d'intégration entre l'apprentissage par renforcement et les grands modèles multimodaux appliqués à la robotique. Les modèles VLA, popularisés par des projets comme RT-2 de Google DeepMind ou OpenVLA, sont devenus un axe de recherche majeur ces deux dernières années, mais la question de leur fiabilité probabiliste était restée en marge. En établissant un pont formel entre calibration et RL, les auteurs ouvrent une voie méthodologique qui pourrait influencer la conception de futurs systèmes robotiques, notamment ceux devant opérer en autonomie prolongée sans supervision humaine.

RecherchePaper

1 source

L'IA au service de la compréhension du cerveau : explications et expériences

42

4Microsoft Research

L'IA au service de la compréhension du cerveau : explications et expériences

Des chercheurs de Microsoft Research, de l'Université de Californie à Berkeley, de l'UCSF et de Columbia University ont publié dans Nature Neuroscience un nouveau cadre méthodologique baptisé Generative Causal Testing (GCT), conçu pour rendre les modèles de prédiction cérébrale interprétables par des humains. Depuis une dizaine d'années, les grands modèles de langage sont devenus les outils les plus précis pour prédire comment le cerveau humain réagit au langage : en soumettant à un LLM le même texte qu'une personne écoute dans un scanner IRM fonctionnel, le modèle peut anticiper l'activité de zones corticales spécifiques avec une fidélité remarquable. Le problème : ces modèles ne disent pas pourquoi. Ils sont constitués de millions de paramètres opaques, incapables d'expliquer à quel concept précis une région cérébrale est sensible. GCT répond à ce vide en deux étapes. D'abord, il identifie les phrases qui activent le plus fortement le modèle prédictif d'une région donnée, puis un LLM synthétise ces signaux en une explication courte et lisible, comme "préparation culinaire" ou "noms de lieux". Ensuite, un autre LLM génère de nouvelles histoires spécifiquement conçues pour déclencher cette région, les participants les écoutent en scanner, et l'équipe vérifie si la zone ciblée s'active effectivement. Les expériences menées ont confirmé des sélectivités connues, distingué des régions voisines de traitement des lieux longtemps considérées comme interchangeables, et mis en évidence de minuscules "micro-régions" préfrontales sensibles à des concepts très précis comme les dialogues, les horaires ou les mesures. L'enjeu va bien au-delà de la neuroscience computationnelle : il s'agit de combler le fossé entre prédiction et compréhension. Un modèle qui prédit l'activité cérébrale sans l'expliquer ne produit pas de connaissance scientifique, il produit une performance. GCT transforme ces performances en hypothèses testables, c'est-à-dire en théories au sens strict du terme, des affirmations que l'on peut confirmer ou réfuter par une expérience. Pour les chercheurs en neurosciences du langage, cela change radicalement la valeur opérationnelle des LLMs : ils ne servent plus seulement à prédire, mais à formuler des questions précises sur l'organisation fonctionnelle du cortex. Pour l'industrie de l'IA, c'est une démonstration que l'interprétabilité des modèles peut être abordée de façon expérimentale, pas seulement théorique. Ce travail s'inscrit dans un mouvement plus large d'alignement entre neurosciences cognitives et intelligence artificielle, où les LLMs sont utilisés non plus comme des boîtes noires mais comme des instruments d'investigation scientifique. La crise de l'explicabilité est l'une des tensions centrales de la décennie en IA : à mesure que les modèles gagnent en précision, leur lisibilité diminue. GCT propose une réponse originale en utilisant les LLMs pour s'expliquer eux-mêmes, via une boucle de vérification empirique. Les prochaines étapes probables incluent l'extension de ce cadre à d'autres modalités sensorielles et à d'autres populations, ainsi que son application à des questions cliniques liées au traitement du langage dans des pathologies neurologiques.

💬 On savait déjà que les LLMs prédisent l'activité cérébrale mieux que n'importe quel autre outil. Ce que GCT fait, c'est utiliser ces mêmes modèles pour formuler des hypothèses qu'on va tester en scanner, transformer une prédiction opaque en théorie vérifiable. C'est le genre de travail qui devrait changer comment on pense l'interprétabilité en IA, pas juste en neurosciences.

RecherchePaper

1 source

Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM

À lire aussi

Les modèles d'apprentissage de la compréhension vidéo égocentrique récompensés pour leur conscience temporelle

Capture des ID de tokens pendant les interactions à base d'agents pour améliorer l'apprentissage par renforcement

Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action

L'IA au service de la compréhension du cerveau : explications et expériences