Aller au contenu principal
RechercheApple Machine Learning1j· 1 min de lecture

Diffusion des politiques de démasquage pour les modèles de langage par diffusion

Source originale ↗·

Les modèles de langage à diffusion (dLLMs) atteignent désormais des performances comparables à celles des modèles autorégressifs classiques sur de nombreuses tâches, tout en promettant une meilleure efficacité lors de l'inférence. Un aspect central de leur conception réside dans la procédure d'échantillonnage, c'est-à-dire la méthode qui détermine quels tokens démasquer à chaque étape du processus de diffusion. Des travaux récents montrent que des stratégies heuristiques, comme le seuillage de confiance, améliorent à la fois la qualité des échantillons générés et le débit de tokens par rapport à un démasquage aléatoire. Ces heuristiques nécessitent cependant un réglage manuel minutieux pour fonctionner correctement.

Ce constat pose un problème concret pour l'adoption des dLLMs à grande échelle : sans automatisation de ce réglage, chaque nouvelle tâche ou configuration exige une intervention humaine pour ajuster les paramètres de démasquage, ce qui limite la flexibilité et l'efficacité pratique de ces modèles. Or l'un des arguments majeurs en faveur des dLLMs face aux modèles autorégressifs est justement leur potentiel de génération plus rapide, puisqu'ils peuvent en théorie démasquer plusieurs tokens en parallèle plutôt que mot par mot. Si les politiques de démasquage restent dépendantes d'un tuning manuel fragile, ce gain d'efficacité promis reste difficile à exploiter pleinement en conditions réelles.

Ces travaux s'inscrivent dans un mouvement de recherche plus large visant à rendre les dLLMs, une alternative encore récente aux architectures autorégressives dominantes comme GPT, réellement compétitifs en production. Après avoir démontré leur viabilité sur le plan de la qualité de génération, la communauté cherche maintenant à automatiser les choix algorithmiques qui restent aujourd'hui confiés à l'intuition des chercheurs, en particulier via des politiques de démasquage apprises plutôt que fixées à la main. L'enjeu porte sur la capacité de ces modèles à généraliser leurs performances sans dépendre d'un réglage spécifique à chaque tâche.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning 

Résumé du contexte de diffusion à contexte résiduel dans les modèles de langage

Une nouvelle piste de recherche vise à rendre les modèles de langage à diffusion plus efficaces en évitant de gâcher du calcul déjà effectué. Les dLLM (diffusion large language models) sont présentés depuis plusieurs mois comme une alternative sérieuse aux modèles autorégressifs classiques du type GPT, car ils peuvent décoder plusieurs tokens simultanément plutôt qu'un seul à la fois, ce qui accélère potentiellement la génération de texte. Les versions les plus avancées de ces modèles, dites "block-wise", utilisent un mécanisme appelé remasking : à chaque étape, seuls les tokens jugés les plus fiables sont conservés et décodés, tandis que tous les autres sont simplement écartés et recalculés plus tard. Des chercheurs montrent que cette approche jette en réalité une information précieuse, puisque les tokens rejetés contiennent malgré tout du contexte utile pour les étapes suivantes de décodage. Ils proposent donc Residual Context Diffusion (RCD), un module conçu pour récupérer et réutiliser ce calcul habituellement perdu. L'enjeu est directement lié au coût de calcul de l'intelligence artificielle générative. Si les modèles à diffusion tiennent leur promesse de générer du texte plus vite grâce au parallélisme, gaspiller une partie des calculs à chaque itération limite leurs gains réels face aux modèles autorégressifs optimisés depuis des années. En recyclant l'information contenue dans les tokens non retenus, RCD permettrait d'améliorer l'efficacité globale du décodage sans changer l'architecture de base des dLLM, ce qui intéresse directement les équipes qui cherchent à réduire la facture énergétique et matérielle de l'inférence à grande échelle. Cette recherche s'inscrit dans une compétition plus large entre deux familles de modèles de langage : les autorégressifs, dominants aujourd'hui, et les modèles à diffusion, longtemps cantonnés à l'image et au son mais de plus en plus étudiés pour le texte. Résoudre le gaspillage de calcul du remasking est une étape technique jugée nécessaire pour que les dLLM deviennent compétitifs en pratique, et pourrait influencer la conception des prochaines générations de modèles génératifs.

RecherchePaper
1 source
MATT-Diff : suivi actif de cibles multimodal par politique de diffusion
2arXiv cs.RO 

MATT-Diff : suivi actif de cibles multimodal par politique de diffusion

Des chercheurs du laboratoire CINAPS ont publié MATT-Diff, un système de contrôle permettant à un agent mobile autonome de pister plusieurs cibles simultanément dans des environnements inconnus. Présenté dans un article arXiv (2511.11931), le système repose sur une politique de diffusion, une approche inspirée des modèles génératifs d'images, pour piloter le comportement de l'agent selon trois modes distincts : exploration de zones inconnues, suivi de cibles détectées, et réacquisition de cibles perdues. L'ensemble du système fonctionne sans connaissance préalable du nombre de cibles, de leurs positions ou de leurs dynamiques de déplacement. Ce qui distingue MATT-Diff des approches existantes, c'est sa capacité à gérer le compromis fondamental en robotique de surveillance : quand explorer pour trouver des cibles encore inconnues, et quand exploiter l'information déjà disponible pour réduire l'incertitude sur les cibles déjà repérées. Le modèle utilise un vision transformer pour tokeniser les cartes égocentrées de l'agent, et un mécanisme d'attention pour intégrer des estimations variables des cibles représentées sous forme de densités gaussiennes. Entraîné comme un modèle de diffusion, il apprend à générer des séquences d'actions multimodales via un processus de débruitage, ce qui lui permet d'adopter des comportements variés face à une même situation, là où les politiques classiques produiraient une seule réponse déterministe. Pour constituer les données d'entraînement, les chercheurs ont combiné les démonstrations de trois planificateurs experts distincts : un planificateur à base de frontières pour l'exploration, un planificateur hybride basé sur l'incertitude alternant entre exploration et suivi via l'algorithme RRT*, et un planificateur hybride temporel déclenchant la réacquisition selon le temps écoulé depuis la dernière détection. Cette diversité des sources d'apprentissage explique la richesse comportementale du système final. Les évaluations montrent des performances supérieures aux autres baselines d'apprentissage dans des environnements inédits. Le code est disponible publiquement sur GitHub, ouvrant la voie à des applications en surveillance autonome, recherche et sauvetage, ou gestion de drones en milieu complexe.

RecherchePaper
1 source
AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques
3Microsoft Research 

AutoAdapt : adaptation automatique des grands modèles de langage à des domaines spécifiques

Des chercheurs de Microsoft Research ont publié AutoAdapt, un cadre automatisé destiné à adapter les grands modèles de langage (LLM) à des domaines spécialisés à forts enjeux, comme le droit, la médecine ou la gestion d'incidents cloud. Présenté dans un article intitulé "AutoAdapt: An Automated Domain Adaptation Framework for Large Language Models", le système prend en entrée un objectif défini en langage naturel, des données de domaine et des contraintes pratiques (latence, matériel, budget, confidentialité), puis construit automatiquement un pipeline d'adaptation complet et reproductible. Pour y parvenir, AutoAdapt s'appuie sur trois composants : un graphe de configuration appelé Adaptation Configuration Graph (ACG) qui cartographie l'espace des possibles, un agent planificateur qui sélectionne et séquence les bonnes étapes, et une boucle d'optimisation budgétaire nommée AutoRefine qui affine le résultat dans les limites imposées. L'enjeu est considérable pour les équipes qui déploient des LLM en production. Aujourd'hui, spécialiser un modèle généraliste implique de choisir manuellement entre des approches comme la génération augmentée par récupération (RAG), le fine-tuning supervisé ou des méthodes à efficacité paramétrique comme LoRA, puis d'ajuster des dizaines d'hyperparamètres dans un espace de décision vaste et peu lisible. Ce processus prend des semaines, sans garantie de résultat reproductible. Pour une équipe qui gère une panne critique, un modèle qui dérive de ses exigences de domaine n'est tout simplement pas une option. AutoAdapt transforme ce tâtonnement coûteux en un pipeline exécutable en une fraction du temps, rendant les LLM fiables et prévisibles dans des contextes où les erreurs ont des conséquences réelles. Cette publication s'inscrit dans une tendance de fond qui vise à industrialiser le déploiement des LLM, au-delà de la simple performance sur des benchmarks génériques. Les entreprises qui adoptent ces modèles dans des secteurs régulés ou techniques se heurtent systématiquement au même mur : la spécialisation est longue, chère et fragile. Microsoft Research, qui présente ce travail dans le cadre de son Microsoft Research Forum, positionne AutoAdapt comme une réponse structurée à ce goulot d'étranglement. Le système ouvre la voie à une standardisation des pratiques d'adaptation, là où chaque équipe réinventait jusqu'ici sa propre méthode. La prochaine étape logique sera de voir si ce cadre peut être intégré directement dans des plateformes cloud comme Azure AI Studio, ce qui accélérerait son adoption à grande échelle.

UELes entreprises européennes déployant des LLM dans des secteurs réglementés (santé, droit, finance) pourraient réduire significativement leurs coûts et délais de spécialisation grâce à ce type de framework d'adaptation automatisé.

RecherchePaper
1 source
EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage
4arXiv cs.RO 

EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage

Des chercheurs ont présenté EL3DD (Extended Latent 3D Diffusion), un cadre de politique visuomotrice conçu pour permettre aux robots d'exécuter des tâches de manipulation physique à partir de commandes en langage naturel. Le système fusionne des entrées visuelles et textuelles au sein de modèles de diffusion pour produire des trajectoires robotiques précises, en s'appuyant sur des démonstrations de référence pendant l'entraînement. Évalué sur le benchmark CALVIN, référence standard pour la manipulation robotique multi-tâches, le modèle affiche des performances améliorées sur l'ensemble des tâches testées et un taux de réussite accru sur les séquences longues, c'est-à-dire lorsque plusieurs tâches sont enchaînées consécutivement. L'approche étend un modèle existant grâce à des embeddings améliorés et à l'adaptation de techniques issues de la génération d'images par diffusion. Cette avancée est significative pour le domaine de la robotique généraliste, car la capacité à comprendre le langage naturel et à l'appliquer à des tâches physiques dans des environnements humains reste l'un des verrous majeurs du secteur. Le gain sur les séquences longues est particulièrement notable: dans des applications réelles, un robot domestique ou industriel doit enchaîner plusieurs gestes sans intervention humaine, et chaque erreur dans la séquence se propage aux suivantes. Un taux de réussite accru sur ces horizons prolongés rapproche les systèmes actuels d'une utilisabilité concrète hors laboratoire, que ce soit en logistique, en chirurgie assistée ou dans les services à domicile. La recherche s'inscrit dans un mouvement plus large d'application des modèles de diffusion, rendus célèbres par leur efficacité en génération d'images avec des systèmes comme Stable Diffusion ou DALL-E, au contrôle robotique. Le dataset CALVIN, utilisé pour l'évaluation, est conçu pour tester la généralisation des robots à des environnements variés et à des instructions formulées de multiples façons. EL3DD contribue ainsi au développement de politiques robotiques multi-tâches généralisables, un enjeu central pour des acteurs comme Google DeepMind, Physical Intelligence ou de nombreux laboratoires académiques travaillant sur les robots de prochaine génération.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic