
World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture
Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels.
Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production.
Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.
Les studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




