Aller au contenu principal
World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture
RechercheMarkTechPost6sem· 2 min de lecture

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Source originale ↗·

Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels.

Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production.

Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.

Impact France/UE

Les studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique
1MarkTechPost 

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique

Les réseaux de neurones profonds peuvent être compris comme des systèmes géométriques : chaque couche transforme l'espace d'entrée pour construire des frontières de décision de plus en plus complexes. Une étude comparative récente explore comment deux fonctions d'activation fondamentales, Sigmoid et ReLU (Rectified Linear Unit), influencent cette géométrie interne et, par conséquent, l'efficacité des modèles lors de l'inférence. L'expérience repose sur un jeu de données synthétique classique, le "two-moons", généré avec scikit-learn : 400 points répartis en deux classes non linéairement séparables, avec un bruit de 0,18 pour simuler des conditions réalistes. Les deux architectures sont strictement identiques, même nombre de couches, même largeur, seule la fonction d'activation diffère, ce qui permet une comparaison propre et isolée. Le constat central est le suivant : Sigmoid compresse toutes les valeurs d'entrée dans un intervalle étroit entre 0 et 1. Conséquence directe, les points éloignés des frontières de décision deviennent indiscernables les uns des autres, car l'information sur leur distance à ces frontières est effacée couche après couche. Ce phénomène, appelé perte de contexte géométrique, affaiblit la capacité du réseau à construire des représentations riches en profondeur. ReLU, à l'inverse, conserve la magnitude des entrées positives : l'information de distance continue de circuler à travers les couches, permettant au réseau de rester expressif sans nécessiter une largeur excessive ni une puissance de calcul démesurée. En pratique, cela se traduit par des modèles ReLU plus efficaces à l'inférence et mieux adaptés au passage à l'échelle. Ces observations s'inscrivent dans une évolution plus large du domaine du deep learning. ReLU a progressivement remplacé Sigmoid comme fonction d'activation standard dans les réseaux profonds dès les années 2010, notamment grâce aux travaux fondateurs d'Hinton, LeCun et Bengio sur le problème de la disparition du gradient. Sigmoid souffrait en effet d'un double problème : saturation des gradients lors de la rétropropagation, et perte d'information géométrique lors de la propagation avant. L'étude actuelle met l'accent précisément sur ce second aspect, moins souvent discuté que le premier. Avec la montée en puissance des grands modèles de langage et des architectures à des centaines de milliards de paramètres, l'efficacité à l'inférence est devenue un enjeu industriel majeur. Des variantes de ReLU comme GELU ou SwiGLU, utilisées dans GPT-4 ou LLaMA, héritent de cette même propriété de préservation de l'information, confirmant que le choix de la fonction d'activation reste un levier critique pour la performance et l'économie de calcul des systèmes d'IA modernes.

RecherchePaper
1 source
SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné
2The Decoder 

SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné

Microsoft, en collaboration avec trois universités chinoises, a mis au point SkillOpt, une méthode d'optimisation des documents d'instructions pour agents IA. Le principe est aussi simple qu'inattendu : un fichier Markdown soigneusement entraîné suffit à améliorer les performances de GPT-5.5 d'environ 23 points sur des tâches procédurales. La technique emprunte ses fondements aux méthodes d'entraînement classiques des grands modèles de langage, mais les applique non pas aux poids du réseau, mais au texte des instructions elles-mêmes. L'impact potentiel est considérable pour les développeurs et les entreprises qui déploient des agents IA. Le fichier Markdown optimisé ne se limite pas à GPT-5.5 : il se transfère à d'autres environnements comme Codex et Claude Code sans nécessiter de réentraînement supplémentaire. Cela signifie qu'il est possible d'améliorer substantiellement les capacités d'un agent en modifiant uniquement ses instructions textuelles, sans toucher aux modèles sous-jacents ni engager les coûts élevés d'un fine-tuning. Cette recherche reflète une dynamique croissante dans le domaine : optimiser les agents IA au niveau de leurs instructions plutôt qu'au niveau des paramètres du modèle. À mesure que les agents prolifèrent dans les environnements de développement logiciel et d'automatisation, la question de leur pilotage efficace devient centrale. SkillOpt propose une réponse légère et portable, qui pourrait redéfinir la manière dont les équipes techniques configurent et affinent leurs systèmes d'agents, quelle que soit la plateforme utilisée.

UELes développeurs européens déployant des agents IA peuvent bénéficier de cette méthode sans coût de fine-tuning, mais aucune institution ou réglementation européenne n'est directement impliquée.

💬 +23 points sur des tâches procédurales juste en optimisant un fichier Markdown, c'est le genre de résultat qui te fait relire deux fois. Ce qui m'intéresse vraiment, c'est le transfert : tu entraînes ton fichier d'instructions sur GPT-5.5 et ça marche aussi sur Claude Code sans rien changer. Reste à voir ce que ça donne sur des cas moins balisés que les benchmarks, mais la piste est sérieuse.

RecherchePaper
1 source
Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas
3VentureBeat AI 

Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas

Des chercheurs de Meta ont publié une technique de prompting structuré baptisée « raisonnement semi-formel », conçue pour améliorer significativement la capacité des grands modèles de langage à analyser du code sans l'exécuter. Dans leurs expériences, cette approche a permis d'atteindre jusqu'à 93 % de précision sur certaines tâches d'analyse de code, contre des performances bien inférieures avec les méthodes classiques. Concrètement, la technique oblige l'agent IA à remplir un « certificat logique » structuré : avant de répondre, il doit énoncer explicitement ses prémisses, tracer des chemins d'exécution concrets fonction par fonction, et formuler une conclusion basée uniquement sur des preuves vérifiables tirées du code source. L'agent ne peut plus se contenter de deviner le comportement d'une fonction à partir de son nom — il doit réellement suivre les appels et les flux de données. Pour l'industrie du développement logiciel, l'enjeu est considérable. Déployer des agents IA à l'échelle d'un dépôt entier — pour détecter des bugs, vérifier des patches ou conduire des revues de code — exige aujourd'hui de créer des environnements d'exécution isolés pour chaque projet, une infrastructure coûteuse et lourde à maintenir. Le raisonnement semi-formel contourne ce problème en permettant une analyse sémantique fiable sans jamais exécuter le code. Pour les équipes d'ingénierie qui utilisent l'IA dans leurs workflows CI/CD ou leurs processus de revue, cela représente une réduction drastique des coûts d'infrastructure tout en maintenant — voire en améliorant — la fiabilité des résultats. La technique réduit également les hallucinations, un problème chronique des LLM confrontés à du code complexe multi-fichiers. Le problème que Meta cherche à résoudre n'est pas nouveau. Deux approches dominent actuellement le domaine : les évaluateurs LLM non structurés, rapides mais sujets aux affirmations non fondées, et la vérification formelle mathématique (via des langages comme Lean ou Coq), rigoureuse mais totalement impraticable sur des bases de code d'entreprise mêlant dizaines de frameworks et de langages. Le raisonnement semi-formel se positionne délibérément entre ces deux extrêmes — plus rigoureux que le prompting libre, mais sans exiger la traduction du code en logique mathématique. Meta a évalué la technique sur trois catégories de tâches : vérification d'équivalence de patches, localisation de fautes, et questions-réponses sur des bases de code. Les résultats suggèrent une approche potentiellement généralisable à de nombreux domaines de l'ingénierie logicielle automatisée, à condition que les modèles soient suffisamment capables pour respecter les contraintes des templates structurés.

RecherchePaper
1 source
M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
4arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic