Aller au contenu principal
Entraînement par anticipation latente pour les Transformers
RechercheApple Machine Learning13sem· 1 min de lecture

Entraînement par anticipation latente pour les Transformers

Source originale ↗·

Les modèles de langage autorégressifs sont aujourd'hui entraînés via la prédiction du prochain token — une approche efficace mais fondamentalement limitée : à chaque étape, le modèle doit s'engager sur un choix unique, sans possibilité d'explorer plusieurs continuations plausibles. Une nouvelle recherche, acceptée à l'ICLR 2026 dans le cadre du workshop Latent & Implicit Thinking, propose une alternative : l'entraînement par anticipation latente (Latent Anticipation Training), conçu pour dépasser ces contraintes structurelles.

L'enjeu est de taille pour le secteur. L'objectif de prédiction token par token impose une allocation de calcul uniforme : chaque token mobilise exactement un seul passage forward, quelle que soit sa difficulté. Cela bride l'expressivité du modèle sur les tokens complexes — ceux qui nécessiteraient davantage de "réflexion" avant d'être générés. En introduisant une dimension latente dans le processus d'entraînement, l'approche permet au modèle de raisonner implicitement avant de s'engager, ouvrant la voie à un calcul adaptatif selon la difficulté du contexte.

Le papier s'inscrit dans un courant de recherche croissant qui cherche à aller au-delà du raisonnement par chaîne de pensée (Chain-of-Thought), en déportant une partie du raisonnement dans un espace latent non visible. Contrairement au CoT classique qui externalise le raisonnement sous forme de tokens intermédiaires explicites, l'anticipation latente opère de manière implicite, sans surcharge du contexte de génération. Cette distinction est centrale : le modèle "pense" sans écrire, ce qui réduit la latence et préserve la fluidité de génération.

Si les résultats complets ne sont pas encore publics dans cet extrait, l'acceptation du travail à l'ICLR, l'une des conférences de référence en apprentissage automatique, signale une contribution jugée solide par la communauté. La convergence de plusieurs équipes vers des architectures à raisonnement latent — dont les récents travaux sur les Coconut tokens ou les espaces de pensée continues — suggère que cette direction pourrait redéfinir la prochaine génération de grands modèles de langage.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
1arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale
2La Tribune 

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper
1 source
Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation
3MarkTechPost 

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper
1 source
GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot
4arXiv cs.RO 

GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot

Des chercheurs ont publié sur arXiv (référence 2604.25670) un système d'apprentissage automatique capable de reconstituer l'activité musculaire d'un individu à partir de simples capteurs de mouvement portables, sans recourir aux électrodes d'électromyographie traditionnelles. L'architecture proposée, baptisée GEGLU-Transformer, combine un encodeur de type Transformer avec des unités linéaires à porte d'erreur gaussienne (GEGLU) pour estimer en continu les enveloppes d'activation neuromusculaire des membres inférieurs. Testée selon un protocole strict dit "leave-one-subject-out" sur un jeu de données biomécanique multi-conditions, elle atteint une corrélation r = 0,706 sans aucune adaptation individuelle, puis r = 0,761 avec seulement 0,5 % des données spécifiques au sujet utilisées pour la personnalisation, soit une amélioration significative à partir d'un volume d'entraînement négligeable. Ces résultats ouvrent une voie concrète pour déployer des exosquelettes et des prothèses robotiques en dehors des laboratoires. L'électromyographie de surface, qui mesure l'activité électrique des muscles via des électrodes cutanées, est aujourd'hui indispensable au contrôle adaptatif de ces dispositifs, mais elle reste fragile : les signaux varient selon la transpiration, le placement des électrodes ou les caractéristiques physiologiques propres à chaque utilisateur. Remplacer ces capteurs par des centrales inertielles, accéléromètres et gyroscopes déjà intégrés dans la plupart des appareils portables grand public, permettrait de rendre ces systèmes nettement plus robustes, moins contraignants à calibrer et potentiellement accessibles à une population bien plus large de patients ou d'utilisateurs industriels. Le problème de la variabilité inter-individuelle est l'un des grands obstacles non résolus de la robotique neuromusculaire depuis plusieurs années. Les approches classiques nécessitaient des sessions de calibration longues et répétées pour chaque nouvel utilisateur, ce qui rendait leur usage clinique difficile à grande échelle. L'introduction d'architectures à base d'attention, popularisées par les grands modèles de langage, dans le domaine biomécanique reflète une tendance plus large à recycler des paradigmes issus du traitement du langage naturel vers des signaux physiologiques temporels. La capacité du modèle à se personnaliser rapidement avec très peu de données ouvre la perspective de dispositifs qui s'adaptent à leur porteur en quelques secondes, sans intervention d'un clinicien.

UELes fabricants européens d'exosquelettes et de prothèses pourraient bénéficier de cette approche pour réduire les contraintes de calibration clinique et élargir l'accès aux dispositifs d'assistance motrice.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic