SkillOpt de Microsoft améliore GPT-5.5 avec un…

Le distillation autonome (auto-distillation) simple améliore la génération de code

39

1Apple Machine Learning

Le distillation autonome (auto-distillation) simple améliore la génération de code

Un article scientifique décrit une méthode baptisée "simple self-distillation" (SSD), qui permet à un grand modèle de langage d'améliorer ses capacités de génération de code en utilisant uniquement ses propres productions, sans verificateur externe, sans modèle enseignant et sans apprentissage par renforcement. Le principe consiste à échantillonner des solutions générées par le modèle lui-même, avec des réglages précis de température et de troncature, puis à affiner ce même modèle sur ces échantillons via un entraînement supervisé classique. Appliquée à Qwen3-30B-Instruct, cette technique fait grimper le score pass@1 sur le benchmark LiveCodeBench v6 de 42,4% à 55,3%. Les chercheurs précisent que la méthode se généralise à plusieurs familles de modèles, Qwen et Llama, à différentes tailles allant de 4 à 30 milliards de paramètres. L'intérêt de cette approche tient à sa simplicité et à son faible coût. Contrairement aux méthodes classiques d'amélioration des modèles de code, qui reposent sur des vérificateurs automatiques, des modèles enseignants plus puissants ou des boucles d'apprentissage par renforcement coûteuses en calcul, SSD n'exige aucune infrastructure supplémentaire. Les chercheurs notent surtout que les gains de performance se concentrent sur les problèmes les plus difficiles, ce qui suggère que la méthode pousse le modèle au-delà de ses limites habituelles plutôt que de simplement consolider des acquis déjà maîtrisés. Ce travail s'inscrit dans une tendance de recherche plus large autour de l'auto-amélioration des modèles de langage, qui cherche à réduire la dépendance envers des ressources externes coûteuses comme le RLHF ou la distillation depuis des modèles plus grands. En démontrant qu'un modèle peut progresser en apprenant de ses propres réponses filtrées, cette étude ouvre la voie à des pipelines d'entraînement plus légers et potentiellement plus accessibles pour les équipes travaillant sur la génération de code assistée par IA.

RecherchePaper

1 source

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

51

2VentureBeat AI

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

L'équipe Qwen d'Alibaba a publié mardi Qwen-AgentWorld, une paire de modèles d'intelligence artificielle conçus non pas pour agir dans des environnements numériques, mais pour prédire ce que ces environnements vont retourner en réponse à une action. Les deux modèles, un 35 milliards de paramètres et un 397 milliards, couvrent sept domaines sous une architecture unifiée : MCP, recherche web, terminal, génie logiciel, Android, navigation web et système d'exploitation. Entraînés sur plus de 10 millions de trajectoires d'interactions réelles, ils passent par trois phases successives : apprentissage du comportement des environnements (systèmes de fichiers, états du terminal, réponses API), raisonnement anticipatif sur les états futurs, puis renforcement par des règles et une évaluation qualitative ouverte. Les deux modèles sont des architectures Mixture-of-Experts, n'activant qu'une fraction de leurs paramètres par token. Ils prennent en charge des fenêtres de contexte de 256 000 tokens. Les poids du modèle 35B et le benchmark AgentWorldBench sont publiés sous licence Apache 2.0 ; ceux du 397B restent propriétaires. Ce qui fait la valeur de Qwen-AgentWorld n'est pas tant ses scores sur les benchmarks de prédiction que ses effets concrets sur la performance des agents entraînés à l'intérieur de ses simulations. En injectant des perturbations ciblées que les environnements réels ne permettent pas de reproduire à la demande (réponses partielles, cas limites rares, conditions de disque bas), les chercheurs ont fait passer le score MCPMark de 24,6 à 33,8. Sur la tâche de recherche, un agent entraîné dans un monde entièrement fictif a transféré ses apprentissages vers des recherches réelles, portant le WideSearch F1 Item de 34,02 à 50,31 sur le modèle 35B. Un entraînement préalable au modèle monde, utilisé comme échauffement avant le fine-tuning agentique, a amélioré les performances sur sept benchmarks distincts, dont trois que le modèle n'avait jamais vus pendant l'entraînement. L'approche répond à une limite structurelle bien connue des équipes qui développent des agents à grande échelle : les environnements de production ne permettent pas de contrôler les conditions d'entraînement. Un moteur de recherche réel renvoie les résultats disponibles, pas les cas rares que l'agent devra pourtant gérer. Un terminal en production ne simule pas une panne sur commande. En renversant la question, en demandant au modèle non pas "que faire ?" mais "que va renvoyer l'environnement ?", Alibaba crée une infrastructure de simulation contrôlable. La publication arrive dans la continuité de Qwen3.7-Max, sorti en mai avec une capacité d'exécution autonome de 35 heures, et se distingue des travaux antérieurs comme WebWorld ou le modèle de Snowflake, qui restaient cantonnés à un seul domaine. C'est la première architecture à modéliser sept domaines dans un seul modèle dès la phase de préentraînement.

UELes équipes européennes développant des agents IA peuvent utiliser directement le modèle 35B publié sous licence Apache 2.0 pour améliorer l'entraînement de leurs agents dans des environnements simulés contrôlables.

RecherchePaper

1 source

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

42

3MarkTechPost

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels. Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production. Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.

UELes studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.

RecherchePaper

1 source

SkillOpt : les compétences d'agents traitées comme des paramètres entraînables

38

4Microsoft Research

SkillOpt : les compétences d'agents traitées comme des paramètres entraînables

Des chercheurs ont présenté SkillOpt, une nouvelle méthode qui transforme les compétences (skills) des agents d'intelligence artificielle en paramètres entraînables, sans modifier les poids du modèle sous-jacent. Concrètement, SkillOpt traite le fichier de compétences d'un agent, c'est-à-dire les instructions qui guident son comportement, comme une couche d'optimisation distincte, gérée par un modèle "optimiseur" séparé tandis que le modèle cible reste figé. Le système a été testé sur six benchmarks, sept modèles cibles différents et trois modes d'exécution, soit 52 combinaisons d'évaluation au total. Dans chacune de ces 52 cellules, SkillOpt s'est révélé être la meilleure méthode, ou ex aequo avec la meilleure, ce qui en fait l'approche la plus systématiquement performante testée à ce jour pour ce type d'optimisation. Le processus fonctionne par cycles successifs : le modèle cible exécute des tâches d'entraînement avec la compétence actuelle, un modèle optimiseur analyse ensuite les trajectoires obtenues pour repérer ce qui a fonctionné et ce qui a échoué, puis propose des modifications ciblées (ajouts, suppressions, remplacements) limitées par un budget d'édition strict, comparable à un taux d'apprentissage. Cette approche répond à un problème concret et de plus en plus pressant à mesure que les agents IA passent du prototype au déploiement en production : aujourd'hui, les compétences des agents sont écrites à la main par des experts, générées en une seule fois par un modèle de pointe, ou révisées de façon informelle après exécution. Aucune de ces méthodes ne dispose de garde-fous propres à l'apprentissage automatique, comme un contrôle de la taille des pas, une validation sur des données tenues à l'écart, ou une mémoire des révisions ayant échoué. Résultat : les fichiers de compétences ont tendance à s'allonger et à dériver au fil des réécritures, et une modification qui semble raisonnable peut en réalité dégrader silencieusement les performances réelles de l'agent, ce qui mine la fiabilité nécessaire à un usage professionnel. Pour éviter cette dérive incontrôlée, chaque modification candidate doit passer une validation stricte : elle n'est adoptée que si elle obtient un score strictement supérieur à la version actuelle sur un jeu de validation séparé. Les modifications rejetées ne sont pas perdues pour autant : elles alimentent une mémoire d'échecs qui sert de retour négatif pour guider les prochaines propositions. Un mécanisme de mise à jour plus lent, à l'échelle de l'epoch, consolide par ailleurs des enseignements de plus long terme que des lots de données isolés ne peuvent révéler. Les compétences ainsi optimisées se sont montrées transférables entre différentes tailles de modèles, différents environnements d'exécution d'agents et des tâches connexes, ce qui suggère qu'elles capturent un savoir-faire réutilisable plutôt que des instructions ajustées à un seul benchmark.

RecherchePaper

1 source

SkillOpt de Microsoft améliore GPT-5.5 avec un simple fichier Markdown entraîné

À lire aussi

Le distillation autonome (auto-distillation) simple améliore la génération de code

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

SkillOpt : les compétences d'agents traitées comme des paramètres entraînables