Aller au contenu principal
World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture
RechercheMarkTechPost1sem

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels.

Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production.

Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.

Impact France/UE

Les studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique
1MarkTechPost 

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique

Les réseaux de neurones profonds peuvent être compris comme des systèmes géométriques : chaque couche transforme l'espace d'entrée pour construire des frontières de décision de plus en plus complexes. Une étude comparative récente explore comment deux fonctions d'activation fondamentales, Sigmoid et ReLU (Rectified Linear Unit), influencent cette géométrie interne et, par conséquent, l'efficacité des modèles lors de l'inférence. L'expérience repose sur un jeu de données synthétique classique, le "two-moons", généré avec scikit-learn : 400 points répartis en deux classes non linéairement séparables, avec un bruit de 0,18 pour simuler des conditions réalistes. Les deux architectures sont strictement identiques, même nombre de couches, même largeur, seule la fonction d'activation diffère, ce qui permet une comparaison propre et isolée. Le constat central est le suivant : Sigmoid compresse toutes les valeurs d'entrée dans un intervalle étroit entre 0 et 1. Conséquence directe, les points éloignés des frontières de décision deviennent indiscernables les uns des autres, car l'information sur leur distance à ces frontières est effacée couche après couche. Ce phénomène, appelé perte de contexte géométrique, affaiblit la capacité du réseau à construire des représentations riches en profondeur. ReLU, à l'inverse, conserve la magnitude des entrées positives : l'information de distance continue de circuler à travers les couches, permettant au réseau de rester expressif sans nécessiter une largeur excessive ni une puissance de calcul démesurée. En pratique, cela se traduit par des modèles ReLU plus efficaces à l'inférence et mieux adaptés au passage à l'échelle. Ces observations s'inscrivent dans une évolution plus large du domaine du deep learning. ReLU a progressivement remplacé Sigmoid comme fonction d'activation standard dans les réseaux profonds dès les années 2010, notamment grâce aux travaux fondateurs d'Hinton, LeCun et Bengio sur le problème de la disparition du gradient. Sigmoid souffrait en effet d'un double problème : saturation des gradients lors de la rétropropagation, et perte d'information géométrique lors de la propagation avant. L'étude actuelle met l'accent précisément sur ce second aspect, moins souvent discuté que le premier. Avec la montée en puissance des grands modèles de langage et des architectures à des centaines de milliards de paramètres, l'efficacité à l'inférence est devenue un enjeu industriel majeur. Des variantes de ReLU comme GELU ou SwiGLU, utilisées dans GPT-4 ou LLaMA, héritent de cette même propriété de préservation de l'information, confirmant que le choix de la fonction d'activation reste un levier critique pour la performance et l'économie de calcul des systèmes d'IA modernes.

RecherchePaper
1 source
Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas
2VentureBeat AI 

Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas

Des chercheurs de Meta ont publié une technique de prompting structuré baptisée « raisonnement semi-formel », conçue pour améliorer significativement la capacité des grands modèles de langage à analyser du code sans l'exécuter. Dans leurs expériences, cette approche a permis d'atteindre jusqu'à 93 % de précision sur certaines tâches d'analyse de code, contre des performances bien inférieures avec les méthodes classiques. Concrètement, la technique oblige l'agent IA à remplir un « certificat logique » structuré : avant de répondre, il doit énoncer explicitement ses prémisses, tracer des chemins d'exécution concrets fonction par fonction, et formuler une conclusion basée uniquement sur des preuves vérifiables tirées du code source. L'agent ne peut plus se contenter de deviner le comportement d'une fonction à partir de son nom — il doit réellement suivre les appels et les flux de données. Pour l'industrie du développement logiciel, l'enjeu est considérable. Déployer des agents IA à l'échelle d'un dépôt entier — pour détecter des bugs, vérifier des patches ou conduire des revues de code — exige aujourd'hui de créer des environnements d'exécution isolés pour chaque projet, une infrastructure coûteuse et lourde à maintenir. Le raisonnement semi-formel contourne ce problème en permettant une analyse sémantique fiable sans jamais exécuter le code. Pour les équipes d'ingénierie qui utilisent l'IA dans leurs workflows CI/CD ou leurs processus de revue, cela représente une réduction drastique des coûts d'infrastructure tout en maintenant — voire en améliorant — la fiabilité des résultats. La technique réduit également les hallucinations, un problème chronique des LLM confrontés à du code complexe multi-fichiers. Le problème que Meta cherche à résoudre n'est pas nouveau. Deux approches dominent actuellement le domaine : les évaluateurs LLM non structurés, rapides mais sujets aux affirmations non fondées, et la vérification formelle mathématique (via des langages comme Lean ou Coq), rigoureuse mais totalement impraticable sur des bases de code d'entreprise mêlant dizaines de frameworks et de langages. Le raisonnement semi-formel se positionne délibérément entre ces deux extrêmes — plus rigoureux que le prompting libre, mais sans exiger la traduction du code en logique mathématique. Meta a évalué la technique sur trois catégories de tâches : vérification d'équivalence de patches, localisation de fautes, et questions-réponses sur des bases de code. Les résultats suggèrent une approche potentiellement généralisable à de nombreux domaines de l'ingénierie logicielle automatisée, à condition que les modèles soient suffisamment capables pour respecter les contraintes des templates structurés.

RecherchePaper
1 source
M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
3arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source
4InfoQ AI 

La compression TurboQuant de Google pourrait accélérer l'inférence sans perte de précision sur du matériel moins puissant

Google Research a dévoilé TurboQuant, un nouvel algorithme de quantification conçu pour compresser les caches Key-Value (KV) des grands modèles de langage jusqu'à six fois leur taille originale. Cette technique permet d'atteindre une compression à 3,5 bits avec une perte de précision quasi nulle, et sans nécessiter de réentraînement du modèle. Les premiers benchmarks communautaires confirment des gains d'efficacité substantiels, permettant aux développeurs de faire tourner des fenêtres de contexte très larges sur du matériel bien moins puissant qu'auparavant. L'enjeu est considérable : le cache KV est l'un des principaux goulots d'étranglement en mémoire lors de l'inférence de LLM, surtout lorsque les contextes atteignent des centaines de milliers de tokens. En réduisant l'empreinte mémoire de ces caches par un facteur pouvant atteindre 6x, TurboQuant ouvre la voie à des déploiements sur des GPU grand public ou des serveurs moins coûteux, ce qui représente une réduction directe des coûts d'inférence pour les entreprises et les développeurs indépendants. La compression des caches KV est un domaine de recherche actif, avec des travaux concurrents comme KVQuant ou StreamingLLM déjà publiés ces dernières années. L'originalité de TurboQuant réside dans sa capacité à atteindre ce niveau de compression sans phase de fine-tuning, ce qui facilite son intégration dans des pipelines existants. Google Research n'a pas encore précisé de calendrier de disponibilité dans ses produits, mais cette publication s'inscrit dans la course plus large à réduire le coût computationnel des modèles toujours plus grands comme Gemini.

UELes développeurs et entreprises européens pourraient bénéficier indirectement d'une réduction des coûts d'inférence LLM en déployant des modèles à large contexte sur du matériel grand public ou des serveurs moins coûteux.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour