Aller au contenu principal
On robustesse et cohérence du raisonnement en chaîne dans les VLM affinés par RL
RechercheApple Machine Learning20h· 2 min de lecture

On robustesse et cohérence du raisonnement en chaîne dans les VLM affinés par RL

Source originale ↗·

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

Une équipe de chercheurs a testé la robustesse des modèles vision-langage (VLM) entraînés par renforcement (RL), une technique de plus en plus utilisée pour améliorer le raisonnement des grands modèles de langage et désormais étendue aux modèles multimodaux. Les expériences montrent que ces VLM affinés par RL, bien que plus performants sur les benchmarks de raisonnement visuel, restent fragiles face à des perturbations textuelles simples et contrôlées: une légende trompeuse associée à une image ou une chaîne de raisonnement (chain-of-thought) volontairement erronée suffisent à faire chuter significativement leur robustesse et leur niveau de confiance dans les réponses fournies. Les chercheurs précisent que cet effet est encore plus marqué lorsque la cohérence de la chaîne de raisonnement est mise à l'épreuve, révélant une dépendance excessive au texte plutôt qu'à l'analyse réelle de l'image.

Ce résultat est important car il met en lumière une faille de sécurité et de fiabilité dans une génération de modèles présentée comme plus intelligente grâce au renforcement. Un VLM qui se laisse influencer par une légende erronée ou un raisonnement fautif peut produire des réponses fausses avec une confiance trompeuse, ce qui pose un risque concret pour toute application s'appuyant sur ces systèmes: assistance médicale, modération de contenu, véhicules autonomes ou outils d'analyse documentaire. Cela signifie aussi que les gains de performance mesurés sur les benchmarks classiques masquent une fragilité sous-jacente que les utilisateurs et les entreprises ne perçoivent pas toujours.

Le problème trouve son origine dans le fait que l'entraînement par renforcement, conçu à l'origine pour les modèles purement textuels, a été transposé aux VLM sans toujours garantir un ancrage visuel solide (weak visual grounding) ni une réduction des hallucinations. Les modèles continuent ainsi de privilégier les indices textuels au détriment de l'image elle-même. Cette étude s'inscrit dans un débat plus large sur la fiabilité des architectures multimodales et invite les développeurs à concevoir des méthodes d'entraînement et d'évaluation qui testent explicitement la cohérence entre perception visuelle et raisonnement, avant tout déploiement dans des contextes sensibles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux
1arXiv cs.RO 

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub. Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux. Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

RecherchePaper
1 source
Les traces de raisonnement variées améliorent la prise de décision des LLM
2Amazon Science 

Les traces de raisonnement variées améliorent la prise de décision des LLM

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte. L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

RecherchePaper
1 source
Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent
3Apple Machine Learning 

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Des chercheurs ont publié des travaux sur une nouvelle approche d'optimisation du raisonnement dans les grands modèles de langage (LLM), baptisée "Adaptive Thinking". Le principe : permettre aux modèles d'ajuster dynamiquement leur budget de calcul selon la complexité réelle d'une requête, plutôt que d'appliquer un niveau fixe de raisonnement à chaque réponse. L'étude exploite la technique du chain-of-thought (CoT), qui consiste à générer une chaîne de raisonnement intermédiaire avant de produire une réponse, et introduit la notion de raisonnement dans l'espace latent, une représentation interne au modèle. L'enjeu est directement économique et qualitatif : allouer trop de capacité de calcul à des questions simples est un gaspillage ; en allouer trop peu à des questions complexes dégrade la performance. Les chercheurs utilisent la "self-consistency", c'est-à-dire le degré d'accord entre plusieurs chemins de raisonnement parallèles, comme indicateur proxy de la nécessité réelle de raisonner. Cette métrique permet au modèle de détecter automatiquement si une question mérite un effort cognitif étendu ou une réponse directe. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires depuis l'émergence des modèles de type "reasoning" comme o1 d'OpenAI ou DeepSeek-R1 : comment rendre le raisonnement à l'inférence à la fois plus puissant et plus efficient. Trouver le bon équilibre entre budget de calcul et performance est devenu un axe de compétition majeur, notamment pour les applications en temps réel où la latence et le coût par requête sont critiques.

RecherchePaper
1 source
4Apple Machine Learning 

Apprentissage du raisonnement structuré par contrôle de trajectoire exploitable

Les chercheurs à l'origine du framework Ctrl-R proposent une nouvelle méthode pour entraîner les grands modèles de langage à raisonner de façon plus structurée et diversifiée. Le constat de départ est que ces modèles développent parfois spontanément des comportements de raisonnement, comme l'usage récurrent de mots tels que "wait" pour signaler une phase de vérification, mais que ces trajectoires de raisonnement complexes restent rares lorsqu'on les laisse émerger sans contrainte. Les méthodes d'apprentissage par renforcement (RL) classiques échouent généralement à garantir l'acquisition de comportements de raisonnement variés chez ces systèmes. Ctrl-R propose donc un contrôle ciblé et tractable des trajectoires, en forçant une exploration systématique de motifs de raisonnement spécifiques pendant l'entraînement par renforcement. Cette avancée compte pour l'industrie de l'IA car la qualité du raisonnement conditionne directement la fiabilité des modèles sur des tâches complexes, qu'il s'agisse de mathématiques, de programmation ou d'analyse. En orientant explicitement l'apprentissage vers une diversité de stratégies de vérification et de raisonnement plutôt que de laisser le hasard de l'échantillonnage décider, cette approche pourrait produire des modèles plus robustes et plus prévisibles, capables de mieux détecter leurs propres erreurs. Le problème que Ctrl-R cherche à résoudre s'inscrit dans un enjeu plus large de la recherche en IA : comment garantir qu'un modèle apprend réellement à raisonner, et non simplement à reproduire des schémas de surface issus de ses données d'entraînement. Les méthodes de RL actuelles, notamment celles popularisées par les modèles de raisonnement récents, peinent à structurer explicitement ce processus. En rendant les trajectoires de raisonnement contrôlables et donc mesurables, cette recherche ouvre la voie à des méthodes d'entraînement plus fines, où les développeurs pourraient cibler précisément les capacités cognitives qu'ils souhaitent renforcer chez leurs modèles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic