Aller au contenu principal

Recherche — page 6

671 articles · page 6 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA
251arXiv cs.RO RechercheOpinion

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

Début mai 2026, une équipe de chercheurs a publié (arXiv:2605.02757) un framework d'augmentation de données pour les modèles vision-language-action (VLA), visant le fossé visuel persistant entre simulation et données réelles. Le pipeline, nommé "Seeing Realism from Simulation", convertit des vidéos simulées en séquences d'apparence réaliste via trois étapes: segmentation sémantique vidéo pour extraire des conditions structurées, réécriture de légendes pour diversifier les environnements, puis application d'un modèle de transfert vidéo conditionnel. Pour rendre l'approche scalable, les auteurs introduisent un mécanisme de réutilisation de features de diffusion (recycler les tokens vidéo entre timesteps adjacents) et un coreset sampling qui sélectionne un sous-ensemble compact sous contrainte computationnelle. Sur les benchmarks Robotwin 2.0 et LIBERO-Plus, le framework améliore RDT-1B de 8% et le modèle pi-0 de Physical Intelligence de 5,1%. Le code est disponible en open source sur GitHub. Ces gains pointent un goulot d'étranglement réel de l'industrie: collecter des vidéos de manipulation réelles à grande échelle est coûteux et lent, alors que la simulation offre une scalabilité quasi-illimitée mais dégrade systématiquement les performances en déploiement. Si l'on peut transformer des données simulées en données visuellement réalistes en préservant les labels d'action, on dispose d'un levier de scaling à faible coût. Le fait que pi-0, déjà entraîné sur des millions de trajectoires réelles, gagne encore 5,1% indique une complémentarité avec les pipelines de collecte existants plutôt qu'une substitution. Cela dit, les auteurs ne publient aucun chiffre concret sur la réduction du temps de génération, ce qui laisse ouverte la question de viabilité à l'échelle industrielle. Ce travail s'inscrit dans la course aux modèles fondation pour la robotique, où Physical Intelligence (pi-0, pi-0.5) et les équipes derrière RDT-1B font figure de références. LIBERO et Robotwin 2.0 sont devenus les benchmarks standard pour comparer ces architectures VLA en conditions contrôlées. Contrairement aux approches de domain randomization ou au style transfer image par image, l'utilisation d'un modèle vidéo diffusion-based préserve la cohérence temporelle, critique pour les tâches de manipulation multi-étapes. Les prochaines étapes naturelles incluent l'extension à des environnements moins structurés et des horizons de tâche plus longs, là où le fossé sim-to-real reste le plus prononcé et où la diversité des légendes réécrites sera la plus déterminante.

1 source
VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative
252arXiv cs.RO 

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Une équipe de chercheurs a publié en mai 2026, via arXiv (2605.01194), VLA-ATTC, un framework visant à doter les modèles Vision-Language-Action (VLA) d'un mécanisme de délibération adaptatif à l'inférence. Les VLA, qui couplent perception visuelle, langage et génération d'actions pour piloter des robots manipulateurs, reposent jusqu'ici sur un mode d'exécution réflexif : rapide, mais aveugle face à l'ambiguïté. VLA-ATTC introduit un "embrayage cognitif" basé sur l'incertitude : lorsque le modèle détecte une situation complexe, il bascule vers une phase de calcul délibératif (test-time compute, TTC) dans laquelle un composant inédit, le Relative Action Critic (RAC), évalue des candidats d'actions par comparaisons par paires plutôt que par estimation absolue de valeur. Un pipeline automatisé génère les paires de préférence sans annotation manuelle. Sur le benchmark LIBERO-LONG, VLA-ATTC réduit le taux d'échec du modèle SOTA PI0.5 de Physical Intelligence de plus de 50 %. Le code et les poids seront publiés en open source. Ce résultat cible directement le "demo-to-reality gap" : les VLA actuels performent bien en conditions contrôlées mais échouent sur des tâches longues et ambiguës. Diviser par deux le taux d'échec sur LIBERO-LONG, un benchmark de manipulation séquentielle longue portée, sans retrainer le modèle de base est un gain concret pour les intégrateurs industriels. Le choix du RAC est également instructif : abandonner l'estimation de valeur absolue, instable en pratique, au profit d'un mécanisme relatif plus simple à apprendre suggère que la fiabilité des VLA peut progresser via du compute supplémentaire à l'inférence plutôt que par des cycles de fine-tuning coûteux. Les VLA constituent la ligne de front actuelle en robotique de manipulation. Pi-0 et Pi-0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) ont établi une course à la généralisation zero-shot, mais partagent le même défaut structurel : une inférence déterministe et non délibérative. L'approche TTC appliquée aux VLA s'inscrit dans un mouvement plus large, déjà visible chez les LLM avec o1, o3 et DeepSeek R1, qui cherche à "acheter" de la qualité de décision via du compute d'inférence supplémentaire. Pour les déploiements industriels en temps réel, la question restante sera de quantifier le surcoût de latence du mode TTC dans des environnements contraints, comme les lignes d'assemblage ou les cellules de picking à cadence élevée.

UEL'open-source annoncé pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur la manipulation VLA, mais aucune institution ou entreprise FR/EU n'est directement impliquée.

RechercheOpinion
1 source
Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue
253arXiv cs.RO 

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Une équipe de chercheurs a publié MVP-LAM (Multi-ViewPoint Latent Action Model), une méthode visant à améliorer le pré-entraînement des modèles vision-langage-action (VLA) à partir de vidéos humaines non étiquetées. Le problème ciblé : les actions latentes apprises depuis des vidéos mono-vue encodent des indices visuels propres à l'angle de caméra, plutôt que la sémantique réelle du mouvement. MVP-LAM impose un objectif de reconstruction inter-vues (cross-viewpoint reconstruction) : une action latente extraite depuis une caméra doit prédire l'évolution de la scène telle que vue depuis une autre caméra. Évalué sur le jeu de données Bridge V2, le modèle produit des actions latentes dont l'information mutuelle avec les vraies actions de référence dépasse celle des baselines, y compris en conditions hors-distribution. Ces représentations améliorées se traduisent par de meilleures performances de manipulation en aval sur plusieurs benchmarks standards. Le code et les checkpoints entraînés sont disponibles publiquement. La contrainte géométrique multi-vues a un impact direct pour les intégrateurs : un modèle pré-entraîné sur des actions latentes robustes au changement de point de vue devrait mieux résister au gap entre démonstration et déploiement réel, notamment dans des cellules robotiques où la position des caméras diffère entre collecte de données et production. MVP-LAM valide aussi l'usage de larges corpus vidéo non supervisés (vidéos internet, archives industrielles) sans démonstrations téléopérées : la cohérence inter-vues remplace partiellement le signal proprioceptif, réduisant le coût de collecte des données d'entraînement. Le pré-entraînement VLA depuis des vidéos non annotées s'inscrit dans la continuité de travaux comme RT-2 (Google DeepMind), UniPi, et plus récemment pi-0 (Physical Intelligence) ou OpenVLA. Ces approches partagent l'ambition d'exploiter des données vidéo à grande échelle pour doter les robots d'une compréhension généraliste du mouvement avant fine-tuning sur tâches spécifiques. MVP-LAM apporte une contribution méthodologique en renforçant la qualité des pseudo-labels d'action, une étape souvent négligée au profit de l'architecture des modèles aval. Il s'agit d'un travail académique sans déploiement industriel annoncé, mais dont la disponibilité du code facilite la reproduction et l'adaptation sur d'autres plateformes robotiques.

RechercheOpinion
1 source
Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur
254arXiv cs.RO 

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Des chercheurs proposent Hydra-DP3 (HDP3), une politique de diffusion 3D allégée pour le contrôle visuomoteur en manipulation robotique, déposée sur arXiv le 2 mai 2025 (arXiv:2605.01581). Le point de départ est théorique : les trajectoires d'action robotique sont intrinsèquement lisses, avec l'essentiel de leur énergie concentrée dans quelques modes basses fréquences de la transformée en cosinus discrète (DCT). Cette propriété implique que l'erreur du débruiteur optimal est bornée par la dimension du sous-espace basse fréquence, ce qui signifie que le débruitage sature en très peu d'étapes. HDP3 exploite cette observation pour concevoir un décodeur "Diffusion Mixer" minimaliste, compatible avec une inférence DDIM en deux étapes seulement. Évalué sur les benchmarks RoboTwin 2.0, Adroit et MetaWorld ainsi que sur des tâches en conditions réelles, HDP3 atteint les performances état de l'art avec moins de 1 % des paramètres des politiques de diffusion 3D existantes et une latence d'inférence significativement réduite. Le goulot d'étranglement des politiques de diffusion pour la robotique réside précisément dans la vitesse d'inférence : des modèles comme DP3 ou Pi-0 requièrent typiquement 10 à 100 étapes de débruitage, ce qui pénalise le contrôle temps réel. HDP3 démontre empiriquement et théoriquement que deux étapes suffisent pour les trajectoires robotiques, contrairement à la génération d'images où de nombreuses étapes restent nécessaires. Réduire les paramètres à moins de 1 % de l'état de l'art tout en maintenant les performances remet en question l'hypothèse implicite selon laquelle des modèles massifs seraient indispensables en visuomoteur. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à des déploiements sur matériel embarqué contraint, sans GPU serveur dédié, et à des cycles d'entraînement bien plus rapides. La politique de diffusion 3D (DP3, 2024) est née de Diffusion Policy (Chi et al., 2023), elle-même inspirée des modèles de score pour la génération d'images. HDP3 rompt explicitement avec cet héritage en justifiant théoriquement pourquoi la robotique n'a pas besoin de décodeurs lourds copiés sur la vision générative. Dans la course aux politiques visuomotrices, les principaux concurrents incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les approches VLA comme OpenVLA ou RDT-1B, qui misent sur la montée en échelle paramétrique. HDP3 parie à l'inverse sur la compression théoriquement motivée. L'article reste un preprint non évalué par les pairs, et les résultats temps réel portent sur des tâches de manipulation sélectionnées : la généralisation à des environnements industriels non contrôlés reste à démontrer. Aucun déploiement commercial n'est annoncé à ce stade.

UELes équipes R&D européennes en robotique embarquée pourraient intégrer cette approche pour déployer des politiques visuomotrices sur matériel contraint sans GPU serveur dédié.

RechercheOpinion
1 source
Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système
255arXiv cs.RO 

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Une équipe de recherche publie sur arXiv (2605.02739) une méthode baptisée Latent Bridge, conçue pour accélérer l'inférence des modèles Vision-Language-Action (VLA) à double système, architecture qui combine un backbone de grand modèle de vision-langage (VLM) lent avec une tête d'action rapide. Le problème identifié : dans ce paradigme, le VLM doit s'exécuter à chaque pas de contrôle, même lorsque la scène visuelle évolue peu entre deux timesteps, ce qui crée un goulot d'étranglement computationnel majeur. Latent Bridge est un modèle léger entraîné pour prédire le delta des sorties du VLM entre deux appels, permettant à la tête d'action de fonctionner sur des features interpolées pendant que le backbone coûteux ne tourne que périodiquement. La méthode est validée sur deux VLAs architecturalement distincts : GR00T-N1.6 de NVIDIA (pont dans l'espace des features) et π0.5 de Physical Intelligence (pont sur le KV-cache). Sur quatre suites LIBERO, 24 tâches cuisine RoboCasa et la tâche ALOHA sim transfer-cube, Latent Bridge conserve 95 à 100 % des performances initiales tout en réduisant les appels VLM de 50 à 75 %, pour un gain net de 1,65x à 1,73x en vitesse d'exécution par épisode. Ce résultat est structurellement important pour quiconque envisage de déployer des VLAs sur du matériel réel : jusqu'ici, la richesse sémantique des VLM se payait en latence, rendant difficile un contrôle à haute fréquence sur robots à ressources embarquées limitées. Le fait que la méthode fonctionne sur deux familles architecturales différentes, l'une opérant dans l'espace des features, l'autre sur le KV-cache, suggère une généralisation potentiellement large plutôt qu'une optimisation opportuniste. Le pipeline d'entraînement DAgger utilisé est task-agnostic et transfert sans modification entre benchmarks, ce qui réduit le coût d'adaptation. Il reste à noter que toutes les évaluations sont conduites en simulation ; l'écart sim-to-real n'est pas adressé dans ce travail, et les gains de vitesse annoncés restent à confirmer sur hardware physique. GR00T-N1.6 est le modèle humanoïde de NVIDIA issu de la roadmap GR00T, tandis que π0.5 est la dernière itération du VLA de Physical Intelligence (ex-pi0), entreprise fondée par Sergey Levine et Chelsea Finn qui a levé 400 millions de dollars en 2024. Ces deux modèles représentent l'état de l'art des VLA duaux, face à des concurrents comme OpenVLA (Berkeley), RoboFlamingo ou les approches ACT/Diffusion Policy. La pression sur l'efficacité computationnelle devient un axe de différenciation croissant à mesure que les déploiements industriels à grande échelle approchent ; des travaux parallèles explorent la distillation et la quantification des VLM, mais Latent Bridge propose une voie orthogonale en exploitant la redondance temporelle plutôt qu'en compressant le modèle. La prochaine étape logique serait une validation sur plateforme physique, idéalement sur des robots comme Fourier GR-1 ou Figure 02 dont les équipes utilisent des pipelines VLA similaires.

RechercheOpinion
1 source
Routage KV stochastique : partage adaptatif du cache par couches
256Apple Machine Learning 

Routage KV stochastique : partage adaptatif du cache par couches

Des chercheurs ont publié une étude proposant une nouvelle méthode appelée « Stochastic KV Routing » pour réduire l'empreinte mémoire du cache clé-valeur (KV cache) utilisé lors de l'inférence des grands modèles de langage de type transformer. Cette technique s'attaque à l'un des principaux goulets d'étranglement du déploiement à grande échelle : le stockage des vecteurs K et V pour chaque couche du modèle, indispensables pour éviter de recalculer les représentations à chaque token généré. Plutôt que de compresser ou d'élaguer le cache selon l'axe temporel (les tokens passés), les auteurs explorent la dimension de profondeur, c'est-à-dire les couches du réseau. L'impact potentiel est direct sur les coûts d'infrastructure des fournisseurs de modèles : le KV cache peut représenter une part considérable de la mémoire GPU lors du service à haute charge, limitant le nombre de requêtes traitables en parallèle. En permettant un partage adaptatif du cache entre couches, certaines couches se révélant redondantes, cette approche ouvre la voie à une réduction significative de la mémoire sans dégradation substantielle des performances. La recherche sur l'efficacité de l'inférence est devenue un enjeu stratégique majeur depuis l'explosion de l'usage des LLM en production. La plupart des travaux récents se sont concentrés sur la compression temporelle (attention sparse, éviction de tokens), laissant la dimension de profondeur relativement inexploitée. Cette nouvelle direction pourrait compléter les techniques existantes de manière orthogonale, offrant aux opérateurs de modèles un levier supplémentaire pour optimiser leurs coûts de serving sans retraining.

RecherchePaper
1 source
IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA
257arXiv cs.RO 

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Une équipe de chercheurs a publié le 1er mai 2026 (arXiv:2605.00321) un travail introduisant deux outils de diagnostic pour les politiques de type Vision-Langage-Action (VLA) : l'Interventional Significance Score (ISS) et le Nuisance Mass Ratio (NMR). L'ISS est une procédure de masquage interventionnel qui estime l'influence causale de régions visuelles spécifiques sur les prédictions d'action d'un agent robotique. Le NMR est une métrique scalaire qui quantifie dans quelle mesure un modèle s'appuie sur des caractéristiques visuelles non pertinentes pour la tâche plutôt que sur des causes réelles. La méthode reformule l'attribution visuelle comme un problème d'estimation interventionnelle, au sens de la causalité de Pearl, et non comme une simple corrélation statistique. Des expériences sur des tâches de manipulation variées confirment que le NMR prédit le comportement de généralisation, et que l'ISS produit des attributions plus fidèles que les méthodes d'interprétabilité existantes. À noter : le preprint ne publie ni code ni benchmark public, et les métriques de performance sur tâches spécifiques restent peu détaillées dans l'abstract. L'enjeu est direct pour les intégrateurs et les décideurs industriels : les modèles VLA actuellement déployés, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Sanctuary AI, échouent régulièrement hors de leur distribution d'entraînement. Jusqu'ici, identifier pourquoi restait largement empirique. ISS et NMR offrent un test diagnostique pré-déploiement : un NMR élevé signale que le modèle prend ses décisions sur la base de corrélations visuelles parasites (couleur de fond, éclairage, texture du sol) plutôt que sur la structure causale de la tâche. C'est une avancée concrète vers l'analyse formelle du sim-to-real gap, l'un des verrous les plus cités par les équipes d'intégration robotique industrielle, et cela ouvre la voie à des critères de certification hors-distribution avant mise en production. Le problème de l'interprétabilité des politiques robotiques apprises restait largement ouvert. Les méthodes existantes, cartes de saillance par gradient ou rollout d'attention, reposent sur des observations corrélationnelles et ont tendance à surestimer l'importance de features visuelles non causales. Ce travail se positionne explicitement contre ces approches en adoptant un cadre interventionnel rigoureux. Aucune affiliation institutionnelle n'est mentionnée dans le preprint. Les suites naturelles incluent l'application systématique de ces métriques sur des architectures établies comme OpenVLA, Octo ou RoboVLMs, et potentiellement leur intégration comme signal de régularisation pendant l'entraînement. Le papier arrive au moment où Figure AI, 1X Technologies et Agility Robotics intensifient leurs déploiements en environnements industriels réels, rendant la robustesse hors-distribution critique pour la crédibilité commerciale du secteur.

UECes outils de diagnostic pourraient aider les intégrateurs industriels européens à évaluer la robustesse hors-distribution des modèles VLA avant déploiement, et à terme nourrir des critères de certification conformes à l'AI Act.

RecherchePaper
1 source
PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils
258Apple Machine Learning 

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils

Des chercheurs ont publié PORTool, un algorithme d'optimisation de politique dit "importance-aware" conçu pour améliorer l'entraînement des agents LLM capables d'utiliser plusieurs outils simultanément. Le système introduit un arbre de récompenses (rewarded tree) qui attribue des crédits à chaque étape intermédiaire d'un raisonnement, plutôt qu'uniquement à l'issue finale d'une tâche. Concrètement, lorsqu'un agent enchaîne des appels à des outils externes avant de produire une réponse, PORTool est capable de noter individuellement chaque décision prise en cours de route. Le problème central que PORTool cherche à résoudre est l'ambiguïté d'attribution de crédit, un obstacle persistant dans l'entraînement des agents multi-outils. Avec les méthodes classiques basées uniquement sur le résultat final, il est impossible de savoir quelles décisions intermédiaires ont contribué au succès ou à l'échec d'une séquence. Ce manque de granularité dégrade la qualité de l'apprentissage et rend les agents peu fiables en conditions réelles. PORTool offre un signal d'entraînement plus précis, ce qui devrait se traduire par des agents mieux capables de mobiliser les bons outils au bon moment. Le raisonnement multi-outils est devenu un enjeu central depuis l'essor des agents autonomes comme GPT-4 avec plugins, ou les architectures ReAct et ToolLLM. Ces systèmes montrent un potentiel considérable pour automatiser des tâches complexes en milieu professionnel, mais leur fiabilité dépend directement de la qualité de leur entraînement. PORTool s'inscrit dans une vague de travaux sur l'apprentissage par renforcement appliqué aux LLM, un domaine en pleine effervescence depuis les succès de DeepSeek-R1 et d'autres modèles à raisonnement renforcé.

RecherchePaper
1 source
Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel
259MarkTechPost 

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Le laboratoire d'intelligence artificielle tokyoïte Sakana AI a présenté KAME (Knowledge-Access Model Extension), une architecture hybride de traitement vocal conçue pour éliminer le compromis historique entre vitesse et qualité de réponse dans les assistants vocaux. KAME fonctionne comme un système en tandem : un module vocal de première ligne, basé sur l'architecture Moshi de KyutAI, commence à générer une réponse audio en moins de 80 millisecondes, pendant qu'un grand modèle de langage (LLM) tourne en parallèle en arrière-plan. L'innovation centrale est l'ajout d'un quatrième flux de données dit « oracle » dans l'architecture de Moshi, originellement à trois flux. Ce flux reçoit en temps réel les réponses candidates produites par le LLM à partir d'une transcription partielle de la parole de l'utilisateur, et permet au module vocal de corriger sa réponse en cours de génération, comme un humain qui se reprend à mi-phrase. Ce système résout un problème structurel qui freinait le déploiement des assistants vocaux conversationnels. Les modèles directs de type speech-to-speech, rapides à répondre, peinent à intégrer des connaissances factuelles profondes car ils consacrent une grande partie de leur capacité à modéliser les traits paralinguistiques comme le ton ou l'émotion. À l'inverse, les systèmes en cascade, qui font transiter la parole par un LLM via reconnaissance puis synthèse vocale, accusent une latence médiane de 2,1 secondes, suffisante pour rendre la conversation perceptiblement artificielle. KAME offre les deux à la fois : réactivité quasi instantanée et richesse sémantique d'un modèle de langage frontier, ce qui ouvre la voie à des assistants vocaux réellement utilisables dans des contextes professionnels, médicaux ou grand public exigeants. Sakana AI a dû résoudre un défi d'entraînement inédit : aucun jeu de données naturel ne contient de signaux oracle. L'équipe a développé une technique appelée Simulated Oracle Augmentation, utilisant un LLM simulateur pour générer des séquences synthétiques d'oracles à six niveaux de complétude de transcript (de 0 à 5), reproduisant ce qu'un LLM produirait en temps réel. Sakana AI, fondé en 2023 à Tokyo par des anciens de Google DeepMind dont David Ha et Llion Jones, s'est construit une réputation sur les architectures évolutives inspirées de la biologie. KAME s'inscrit dans une course mondiale à la voix naturelle, face à des acteurs comme OpenAI (Advanced Voice Mode) et Google (Project Astra), avec la particularité d'une approche entièrement modulaire permettant de brancher n'importe quel LLM en back-end.

UEL'architecture KAME s'appuie sur Moshi, le modèle vocal conçu par le laboratoire français KyutAI, plaçant la recherche française au cœur d'une innovation mondiale en IA vocale.

RecherchePaper
1 source
Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire
260MarkTechPost 

Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire

Des chercheurs et développeurs en bioinformatique disposent désormais d'un tutoriel détaillé pour construire un pipeline multi-agents capable de modéliser des systèmes biologiques complexes en un seul environnement de calcul unifié. Publié sous forme de notebook Google Colab, ce guide propose d'assembler plusieurs agents spécialisés autour de quatre domaines distincts : l'analyse des réseaux de régulation génique, la prédiction des interactions protéine-protéine, l'optimisation des voies métaboliques et la simulation des cascades de signalisation cellulaire. Chaque agent traite des données synthétiques générées en amont, avec des paramètres contrôlés (14 gènes, 40 protéines, 70 pas de simulation), et un modèle OpenAI GPT-4o-mini joue le rôle d'investigateur principal, synthétisant l'ensemble des résultats en une interprétation biologique cohérente qui relie régulation, métabolisme et signalisation. L'intérêt de cette approche dépasse la simple démonstration technique. En centralisant dans un seul workflow des analyses qui nécessitent habituellement des outils et des équipes séparées, le pipeline réduit la friction entre disciplines et rend la biologie computationnelle reproductible à coût quasi nul. Les chercheurs en génomique, pharmacologie ou biologie synthétique peuvent ainsi prototyper des hypothèses sur des interactions moléculaires sans avoir accès à des données expérimentales réelles, ce qui accélère la phase exploratoire avant les expériences en laboratoire. Le recours à un LLM comme chef d'orchestre final est particulièrement notable : il ne remplace pas l'expertise humaine, mais il agrège des sorties hétérogènes en une narration scientifique structurée, comblant le fossé entre calcul brut et interprétation biologique. Ce type d'infrastructure reflète une tendance de fond dans la bioinformatique computationnelle : l'émergence de systèmes multi-agents où des modules IA spécialisés collaborent plutôt que de concentrer toute la logique dans un seul modèle monolithique. Des entreprises comme Recursion Pharmaceuticals ou Insilico Medicine ont déjà industrialisé des pipelines similaires pour la découverte de médicaments, mais l'accès à ces outils reste souvent réservé à des équipes bien dotées. La mise à disposition d'un tel tutoriel open-source, fondé sur des bibliothèques standard comme NumPy, NetworkX et scikit-learn, démocratise une approche jusque-là réservée aux grands laboratoires. La prochaine étape logique serait d'y intégrer de vraies données omiques, comme des profils d'expression ARN issus de bases publiques telles que GEO ou TCGA, pour transformer ce prototype pédagogique en outil de recherche opérationnel.

RechercheTuto
1 source
Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques
261MarkTechPost 

Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques

Des chercheurs en neuroIA ont publié un tutoriel détaillant la construction d'un pipeline complet de décodage cérébral à partir de signaux MEG (magnétoencéphalographie), une technique d'imagerie cérébrale non invasive qui mesure les champs magnétiques produits par l'activité électrique des neurones. L'objectif concret du projet : prédire la longueur des mots qu'une personne lit ou entend, uniquement à partir des signaux cérébraux bruts, sans aucun autre indice. Pour y parvenir, l'équipe s'appuie sur deux bibliothèques Python dédiées, NeuralSet et NeuralFetch, couplées à PyTorch pour l'entraînement d'un réseau de neurones convolutif (CNN). Le pipeline transforme les données MEG en événements temporels structurés, extrait des caractéristiques linguistiques via un extracteur personnalisé nommé CharCount, puis entraîne le modèle à reconnaître les patterns spatiaux et temporels associés au traitement du langage dans le cerveau. Ce type de pipeline représente une avancée méthodologique importante pour la recherche en interface cerveau-machine, un domaine jusqu'ici freiné par la complexité de traitement des signaux neuronaux bruts. En proposant un workflow modulaire et reproductible, avec gestion des dépendances, graine aléatoire fixée pour la reproductibilité, et catalogage automatique des jeux de données MEG disponibles, les auteurs offrent aux équipes de recherche une base de travail standardisée. L'enjeu pratique est considérable : décoder des features linguistiques à partir d'activité cérébrale ouvre la voie à des systèmes de communication pour des patients atteints de paralysie ou de maladies neurodégénératives comme la SLA, sans implants chirurgicaux invasifs. Ce projet s'inscrit dans une dynamique plus large qui voit la neuroIA attirer des investissements massifs et des équipes de recherche de premier plan. Meta AI a démontré en 2023 qu'il était possible de décoder la parole perçue à partir de signaux MEG avec une précision inédite grâce à des architectures Transformer. OpenAI, DeepMind et plusieurs startups spécialisées comme Synchron ou Precision Neuroscience explorent parallèlement des approches invasives via des électrodes corticales. La particularité de l'approche MEG non invasive est qu'elle ne nécessite pas d'intervention chirurgicale, mais elle souffre d'une résolution spatiale plus faible que les implants. L'utilisation de CNN pour capturer les structures spatio-temporelles des signaux MEG reste un compromis efficace, et la publication de frameworks open source comme NeuralSet devrait accélérer la standardisation des protocoles expérimentaux, facilitant la comparaison entre études et la montée en puissance de modèles de décodage plus robustes dans les années à venir.

RecherchePaper
1 source
Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
262MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
L'« AI co-clinician » de Google DeepMind devance GPT-5.4 aux tests en aveugle, mais reste derrière les médecins expérimentés
263The Decoder 

L'« AI co-clinician » de Google DeepMind devance GPT-5.4 aux tests en aveugle, mais reste derrière les médecins expérimentés

Google DeepMind développe un système d'intelligence artificielle baptisé "AI co-clinician", conçu pour assister les médecins dans la prise en charge des patients. Selon une étude publiée par le laboratoire de recherche d'Alphabet, ce modèle surpasse GPT-5.4 d'OpenAI lors de tests en aveugle réalisés par des médecins, où les évaluateurs ne savaient pas quelle IA produisait quelle réponse. Malgré ces résultats encourageants obtenus dans des environnements simulés, le système reste en deçà des performances des médecins expérimentés en exercice. Cette recherche illustre à la fois les progrès réels de l'IA médicale et ses limites persistantes. Qu'un modèle de Google surpasse GPT-5.4 dans un contexte clinique simulé est significatif : cela montre que des architectures spécialisées, entraînées sur des données médicales, peuvent dépasser des modèles généralistes de dernière génération. Mais l'écart qui subsiste avec les cliniciens humains rappelle que la médecine exige un niveau de fiabilité et de nuance que les systèmes actuels n'atteignent pas encore. L'étude souligne également que le mode vocal de ChatGPT n'est pas adapté à des tâches sérieuses, et certainement pas aux consultations médicales. La course à l'IA médicale implique désormais les plus grands acteurs technologiques mondiaux, avec Google, Microsoft et plusieurs startups spécialisées en compétition directe. L'idée d'un "co-clinicien" artificiel, qui seconderait le médecin sans le remplacer, représente une approche volontairement prudente, cherchant à contourner les résistances réglementaires et éthiques. Ces travaux de DeepMind s'inscrivent dans une trajectoire où l'IA pourrait d'abord s'imposer comme outil d'aide à la décision avant toute autonomie clinique.

UELes systèmes d'aide à la décision clinique étant classés à haut risque par l'AI Act européen, ces résultats accélèrent la pression réglementaire sur les éditeurs de logiciels médicaux et les hôpitaux en France et en Europe.

💬 DeepMind bat GPT-5.4 en aveugle sur des cas cliniques, et c'est là que c'est intéressant : un modèle spécialisé qui dépasse le généraliste de dernière génération, ça prouve que la spécialisation a encore de l'avenir. Rester derrière les médecins expérimentés, c'est pas une surprise, c'est même rassurant que personne ne le cache. "Co-clinicien" plutôt que "diagnostic AI", c'est le choix de vocabulaire qui permet de déployer sans déclencher l'AI Act.

RecherchePaper
1 source
Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM
264MarkTechPost 

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

L'équipe Qwen, filiale IA d'Alibaba, vient de publier Qwen-Scope, une suite open-source d'autoencodeurs épars (SAE) entraînés sur les familles de modèles Qwen3 et Qwen3.5. La publication comprend 14 groupes de poids SAE répartis sur sept variantes de modèles : cinq modèles denses (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B et Qwen3.5-27B) et deux modèles mixture-of-experts (Qwen3-30B-A3B et Qwen3.5-35B-A3B). Concrètement, un autoencodeur épars fonctionne comme une couche de traduction entre les activations brutes du réseau de neurones et des concepts compréhensibles par l'humain : pour chaque couche transformeur, Qwen-Scope entraîne un SAE séparé qui décompose les états internes en un large dictionnaire de caractéristiques latentes, chaque entrée n'en activant qu'un petit sous-ensemble. Chaque caractéristique tend à correspondre à un concept précis, qu'il s'agisse d'une langue, d'un style ou d'un comportement lié à la sécurité. La largeur de ces dictionnaires atteint jusqu'à 128 000 dimensions pour les modèles MoE, soit une expansion de 64 fois la taille cachée du modèle. Cet outil répond à l'un des problèmes les plus frustrants du développement de LLMs : leur opacité totale. Quand un modèle génère des réponses dans la mauvaise langue, se répète à l'infini ou refuse des requêtes inoffensives, les développeurs disposent de très peu de moyens pour en comprendre la cause à l'échelle des calculs internes. Qwen-Scope ouvre deux leviers concrets. Le premier est le pilotage à l'inférence : en ajoutant ou soustrayant une direction de caractéristique dans le flux résiduel selon la formule h' = h + αd, il devient possible d'orienter le comportement du modèle sans modifier aucun poids. L'équipe illustre cela sur Qwen3 : un modèle qui mêlait involontairement du chinois dans ses réponses en anglais a été corrigé en supprimant la caractéristique "langue chinoise" (id : 6159), identifiée en quelques secondes par son niveau d'activation élevé. Le second levier est l'analyse d'évaluation sans forward pass coûteux : les activations SAE servent de proxy pour cartographier quelles capacités sont réellement testées par un benchmark, et détecter si deux jeux d'évaluation sont redondants. Cette publication s'inscrit dans le courant de l'interprétabilité mécaniste, un champ de recherche en pleine expansion qui vise à rendre les LLMs auditables de l'intérieur. Des acteurs comme Anthropic et DeepMind ont déjà investi dans des SAEs pour leurs propres modèles, mais la mise à disposition open-source de tels outils sur une famille de modèles aussi large reste rare. Pour les équipes qui utilisent Qwen en production, Qwen-Scope représente une infrastructure de diagnostic inédite : détecter des biais encodés dans les représentations internes, affiner des comportements sans fine-tuning coûteux, ou auditer la couverture réelle de leurs protocoles d'évaluation. La prochaine étape logique serait l'extension de ces outils aux modèles de raisonnement et aux architectures multimodales, deux domaines où l'opacité interne reste particulièrement problématique.

UELes entreprises européennes déployant des modèles Qwen en production peuvent exploiter Qwen-Scope pour auditer les biais encodés dans les représentations internes et faciliter la conformité aux exigences d'explicabilité de l'AI Act.

RecherchePaper
1 source
Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse
265arXiv cs.RO 

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

Une étude publiée sur arXiv (référence 2603.22078) compare les performances de deux familles d'architectures pour la planification d'actions robotiques : les modèles vision-langage-action (VLA), aujourd'hui dominants dans la recherche, et les world action models (WAM), une approche plus récente fondée sur la prédiction d'états futurs. Les chercheurs ont soumis plusieurs systèmes à des perturbations visuelles et linguistiques sur deux bancs d'essai standardisés, LIBERO-Plus et RoboTwin 2.0-Plus. Les résultats chiffrés montrent que LingBot-VA, un WAM, atteint 74,2 % de taux de succès sur RoboTwin 2.0-Plus, tandis que Cosmos-Policy, développé dans l'écosystème NVIDIA, obtient 82,2 % sur LIBERO-Plus. Le VLA pi-0.5, produit par Physical Intelligence, parvient à des niveaux de robustesse comparables sur certaines tâches, mais au prix d'un entraînement sur des jeux de données robotiques très diversifiés et avec des objectifs d'apprentissage multiples. L'enjeu central de cette comparaison est la généralisation hors distribution : les systèmes robotiques déployés en environnement industriel réel rencontrent des variations d'éclairage, de fond visuel et de formulations d'instructions que leurs données d'entraînement ne couvrent pas. Les WAM tirent leur robustesse de préentraînements massifs sur des vidéos web, qui leur confèrent des priors spatiotemporels sur la dynamique du monde physique. L'étude confirme que cette capacité de prédiction explicite des états futurs améliore effectivement la tenue aux perturbations, sans nécessiter autant de données de démonstration robotique que les VLA. Elle identifie également une classe intermédiaire, les approches hybrides qui intègrent partiellement la prédiction vidéo, et montre qu'elles obtiennent une robustesse intermédiaire, soulignant que la manière d'intégrer ces priors vidéo est aussi importante que leur présence. Les VLA comme pi-0 et pi-0.5 (Physical Intelligence), OpenVLA ou RoboVLMs ont dominé la recherche en manipulation robotique depuis 2023, profitant de la maturité des grands modèles vision-langage. Les WAM s'inscrivent dans un courant plus récent, porté notamment par NVIDIA avec sa famille Cosmos et par plusieurs laboratoires académiques, qui revisitent les world models comme substrat d'action plutôt que comme outil de simulation. Cette étude apporte une validation empirique contrôlée à une hypothèse jusqu'ici surtout théorique, et devrait peser dans les choix d'architecture pour les prochaines générations de systèmes robotiques polyvalents, notamment dans les contextes industriels où la robustesse aux variations non anticipées est un critère de qualification prioritaire.

RechercheOpinion
1 source
LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA
266arXiv cs.RO 

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

RechercheOpinion
1 source
PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives
267arXiv cs.RO 

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

PRTS (Primitive Reasoning and Tasking System) est un modèle fondation Vision-Langage-Action (VLA) présenté dans un preprint arXiv (réf. 2604.27472, avril 2026). Il reformule le préentraînement des VLA en substituant le clonage comportemental supervisé classique par de l'apprentissage par renforcement conditionné sur des objectifs (Goal-Conditioned Reinforcement Learning, GCRL). Chaque instruction en langage naturel est traitée comme un but à atteindre : PRTS apprend un espace d'embedding unifié où le produit scalaire entre vecteurs état-action et vecteur objectif approxime la log-probabilité actualisée d'atteindre cet objectif depuis l'état courant, une quantité appelée log-discounted goal occupancy. Ce signal de supervision dense est extrait directement de trajectoires offline sans annotation de récompense, puis injecté dans le backbone multimodal via un masque causal adaptatif (role-aware causal mask), avec un surcoût computationnel marginal. Le modèle est préentraîné sur 167 milliards de tokens couvrant des données de manipulation et de raisonnement embodied. Il atteint l'état de l'art sur les benchmarks LIBERO, LIBERO-Pro, LIBERO-Plus et SimplerEnv, ainsi que sur une suite de 14 tâches physiques réelles, avec des gains particulièrement nets sur les tâches longue-horizon, riches en contacts, et sur les instructions zero-shot inédites. L'enjeu est structurant pour le domaine des politiques robotiques générales. Les VLA actuels les plus avancés, notamment Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, reposent tous sur une logique de clonage comportemental : le modèle imite des démonstrations sans représentation explicite du progrès vers un objectif. PRTS introduit une conscience intrinsèque de l'atteignabilité des buts (goal reachability awareness), ce qui se traduit par des améliorations précisément là où les VLA peinent le plus en déploiement réel : planification longue-horizon, robustesse aux contacts et généralisation zéro-shot. Si ces résultats se confirment indépendamment, l'approche contrastive GCRL pourrait redéfinir le paradigme de préentraînement dominant dans le domaine. Le contexte compétitif est celui d'une convergence accélérée vers des fondations VLA à grande échelle capables de généralisation zéro-shot. Physical Intelligence, NVIDIA Robotics, Google DeepMind (RT-2, Octo) et de nombreuses équipes académiques travaillent simultanément sur ce segment. La contribution de PRTS est avant tout méthodologique : en n'exigeant aucune annotation de récompense et en tirant sa supervision de trajectoires offline déjà disponibles, l'approche est potentiellement reproductible avec des ressources plus modestes. Il s'agit toutefois d'un résultat de recherche à ce stade, non d'un déploiement commercial : les évaluations physiques portent sur 14 tâches dont les conditions expérimentales restent à vérifier indépendamment, et aucune timeline de productisation n'est mentionnée.

RechercheOpinion
1 source
World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture
268MarkTechPost 

World-R1 de Microsoft Research améliore la cohérence géométrique de Wan 2.1 sans modifier l'architecture

Des chercheurs de Microsoft Research et de l'Université du Zhejiang ont publié World-R1, un framework d'entraînement par renforcement conçu pour doter les modèles de génération vidéo d'une cohérence géométrique 3D, sans toucher à leur architecture. Le système s'appuie sur Wan 2.1, modèle open-source de référence pour la vidéo texte-vers-vidéo, dont il exploite deux variantes : World-R1-Small (1,3 milliard de paramètres) et World-R1-Large (14 milliards). L'entraînement mobilise respectivement 48 et 96 GPU NVIDIA H200, à une résolution de 832x480 pixels. La méthode centrale, Flow-GRPO-Fast, adapte l'algorithme GRPO aux modèles de diffusion à flux en rendant l'échantillonnage stochastique, ce qui permet d'estimer un avantage et d'optimiser la politique par clipping et régularisation KL. Pour guider l'apprentissage, le système reconstruit une représentation 3D Gaussian Splatting de chaque vidéo générée via Depth Anything 3, évalue la géométrie sous des angles hors axe, compare les rendus à l'original par métrique LPIPS, et mesure l'écart entre la trajectoire caméra demandée et celle effectivement récupérée. Le modèle Qwen3-VL joue le rôle de critique visuel, notant la reconstruction de 0 à 9 pour pénaliser les artefacts de profondeur et les textures qui s'effondrent hors axe. Le jeu de données d'entraînement consiste en environ 3 000 prompts synthétiques générés par Gemini, délibérément sans vidéos de référence pour éviter les biais visuels. Ce travail s'attaque à l'un des problèmes les plus persistants de la génération vidéo : les modèles actuels modélisent des corrélations de pixels en 2D plutôt qu'une scène cohérente en trois dimensions. Concrètement, un mouvement de caméra dans un couloir produit des murs qui se déforment, des objets qui changent de forme, des détails qui disparaissent. World-R1 corrige ce comportement sans réécrire le modèle ni augmenter son coût d'inférence, ce qui signifie que quiconque utilise Wan 2.1 peut bénéficier de l'amélioration via un simple post-entraînement. Pour les studios, les créateurs de contenu ou les développeurs qui s'appuient sur la génération vidéo, la stabilité géométrique représente un gain immédiat en qualité de production. Le contexte théorique est aussi significatif que la méthode elle-même : World-R1 part du constat, établi récemment dans la littérature, que les grands modèles vidéo encodent déjà une représentation interne riche de la géométrie 3D. L'enjeu n'est donc pas d'injecter cette connaissance de l'extérieur mais de l'activer par un signal de récompense adapté. Cette approche s'inscrit dans une tendance plus large qui voit le renforcement par récompense vérifiable (RLVR) s'étendre au-delà du texte, vers la vision et la génération multimodale. Microsoft Research et Zhejiang University positionnent ainsi World-R1 comme une brique de post-entraînement réutilisable, applicable à d'autres modèles vidéo fondamentaux, à mesure que l'industrie cherche à franchir la frontière entre animation 2D et simulation de monde cohérente.

UELes studios et développeurs européens travaillant avec Wan 2.1 peuvent appliquer ce post-entraînement open-source pour améliorer la cohérence géométrique de leurs productions vidéo générées par IA, sans coût d'inférence supplémentaire.

RecherchePaper
1 source
Reinforced Agent : retour d'information à l'inférence pour les agents à appel d'outils
269Apple Machine Learning 

Reinforced Agent : retour d'information à l'inférence pour les agents à appel d'outils

Des chercheurs ont publié une étude acceptée au cinquième atelier sur la génération, l'évaluation et les métriques du langage naturel, dans le cadre de la conférence ACL 2026, portant sur une nouvelle approche appelée Reinforced Agent. Leur travail s'attaque à un problème précis : les agents LLM capables d'appeler des outils externes (API, bases de données, fonctions) sont habituellement évalués sur trois critères, le choix du bon outil, la précision des paramètres transmis, et la reconnaissance du périmètre d'action. Or, ces évaluations interviennent systématiquement après l'exécution, une fois l'erreur déjà commise. L'équipe propose d'intégrer un agent évaluateur spécialisé directement dans la boucle d'exécution, au moment même de l'inférence, pour corriger le tir en temps réel. L'enjeu est considérable pour les systèmes d'agents autonomes en production. Lorsqu'un agent commet une erreur de sélection d'outil ou transmet de mauvais paramètres, les méthodes actuelles ne peuvent que constater le problème après coup, puis corriger via du prompt engineering ou du réentraînement, deux processus lents et coûteux. Un retour d'information en temps réel permettrait de réduire drastiquement les erreurs en cascade, particulièrement critiques dans des environnements où chaque appel d'outil a des effets concrets, comme la modification de données ou le déclenchement de transactions. Cette recherche s'inscrit dans une tendance forte de l'IA en 2025-2026 : faire passer les agents d'une logique réactive à une logique corrective en cours d'exécution. Des acteurs comme Anthropic, OpenAI et Google investissent massivement dans l'architecture multi-agents, où la supervision entre agents devient un levier clé de fiabilité. L'approche Reinforced Agent ouvre la voie à des systèmes capables d'auto-audit dynamique, une brique essentielle pour déployer des agents dans des environnements critiques et à haute responsabilité.

RecherchePaper
1 source
Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
270VentureBeat AI 

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final. Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif. HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

RecherchePaper
1 source
Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM
271MIT Technology Review 

Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM

Goodfire, une startup de San Francisco spécialisée dans l'interprétabilité des modèles d'IA, a lancé Silico, un outil inédit permettant aux chercheurs et aux ingénieurs d'inspecter et d'ajuster les paramètres internes d'un modèle de langage directement pendant son entraînement. Présenté comme le premier outil prêt à l'emploi de ce type, Silico couvre toutes les étapes du développement, de la constitution des jeux de données à l'entraînement final. Concrètement, il permet de zoomer sur des neurones individuels ou des groupes de neurones dans un modèle open source, d'observer ce qui les active, et de tracer les chemins en amont et en aval pour comprendre comment ils interagissent entre eux. À titre d'exemple, Goodfire a identifié dans Qwen 3, un modèle open source, un neurone associé au dilemme du tramway : son activation suffisait à modifier les réponses du modèle, qui cadrait alors ses sorties comme des dilemmes moraux explicites. L'outil s'appuie sur des agents IA pour automatiser une grande partie de ce travail d'analyse, jusqu'ici effectué manuellement par des équipes de chercheurs. L'enjeu est de taille : personne ne sait aujourd'hui précisément comment ou pourquoi des modèles comme ChatGPT ou Gemini fonctionnent, ce qui complique la correction de leurs défauts et le blocage de comportements non désirés. Goodfire a déjà utilisé ses techniques en interne pour réduire le nombre d'hallucinations dans des LLMs, et Silico est la mise en produit de ces méthodes. L'ambition déclarée d'Eric Ho, PDG de Goodfire, est de transformer l'entraînement des modèles, souvent comparé à de l'alchimie, en une discipline d'ingénierie de précision, avec des "boutons et curseurs" accessibles en temps réel. Si l'approche se diffuse, elle pourrait donner aux développeurs un contrôle beaucoup plus fin sur le comportement de leurs systèmes et accélérer la mise au point de modèles plus fiables et prévisibles. Goodfire s'inscrit dans un courant plus large appelé interprétabilité mécaniste, une technique qui cartographie les neurones d'un réseau et leurs connexions pour comprendre ce qui se passe à l'intérieur lors d'une tâche donnée. Le MIT Technology Review l'a classée parmi ses 10 technologies percées de 2026. Anthropic, OpenAI et Google DeepMind travaillent aussi sur ces questions, mais Goodfire se distingue en voulant appliquer cette compréhension non seulement pour auditer des modèles déjà entraînés, mais pour orienter leur conception dès le départ. Des voix critiques tempèrent néanmoins l'enthousiasme : Leonard Bereska, chercheur à l'Université d'Amsterdam, estime que l'entreprise "ajoute de la précision à l'alchimie" sans pour autant atteindre la rigueur d'une véritable ingénierie. Silico reste pour l'instant limité aux modèles open source et inutilisable sur des systèmes propriétaires comme GPT ou Gemini, mais si l'outil tient ses promesses, il pourrait changer en profondeur la façon dont l'industrie conçoit et évalue ses modèles.

UEUn chercheur de l'Université d'Amsterdam est cité pour tempérer les promesses de l'outil ; si Silico tient ses promesses, les équipes européennes travaillant sur des modèles open source pourraient bénéficier d'un meilleur contrôle sur le comportement de leurs systèmes dès l'entraînement.

RechercheActu
1 source
ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux
272arXiv cs.RO 

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Une équipe de chercheurs a publié sur arXiv (arXiv:2505.20032) ViTaPEs, une architecture transformer conçue pour fusionner les perceptions visuelles et tactiles dans les robots manipulateurs. Le principe central est un encodage positionnel à deux étages : un encodage local propre à chaque modalité (vision d'un côté, capteurs tactiles de l'autre), suivi d'un encodage global appliqué sur la séquence de tokens fusionnés juste avant le mécanisme d'attention croisée. Cette double injection positionn­elle fournit un vocabulaire spatial partagé au moment précis où les deux flux d'information interagissent. Les expériences ont été conduites sur plusieurs jeux de données réels à grande échelle, et les résultats montrent des gains sur des tâches de reconnaissance visuotactile, ainsi qu'une capacité de généralisation zero-shot vers des scénarios hors domaine non vus pendant l'entraînement. En transfert vers une tâche de saisie robotique, ViTaPEs surpasse les baselines actuelles dans la prédiction du succès de préhension. L'enjeu industriel de ces travaux est concret : les capteurs tactiles (GelSight, DIGIT et dérivés) fournissent des informations que la vision seule ne capture pas, texture de surface, compliance d'un matériau, force de contact locale. Sans fusion visuotactile robuste, un robot de manipulation en environnement non structuré reste fragile face aux objets inconnus ou aux variations de surface. La contribution de ViTaPEs n'est pas seulement de performance brute : c'est de montrer qu'un encodage positionnel explicitement conçu pour le cross-modal permet une meilleure généralisation, sans s'appuyer lourdement sur des modèles vision-langage pré-entraînés comme CLIP. Pour les intégrateurs et les équipes robotiques industrielles, c'est un signal que le sim-to-real et le cross-domain gap sur la perception tactile peuvent être partiellement résolus par l'architecture plutôt que par la masse de données supervisées. Ce travail s'inscrit dans une vague de recherche sur la représentation visuotactile, on pense aux travaux antérieurs de Meta AI sur DIGIT, aux représentations auto-supervisées de Calandra et al., ou encore à Pi-0 de Physical Intelligence qui intègre déjà des flux multimodaux pour le contrôle de robots polyvalents. Côté acteurs européens, des startups comme Wandercraft (France) ou des laboratoires comme le LAAS-CNRS travaillent sur la manipulation dextère, et ce type d'architecture pourrait s'intégrer à leurs pipelines. Les prochaines étapes probables incluent l'évaluation sur des manipulateurs commerciaux (Franka, UR) et l'intégration dans des pipelines de contrôle visuomoteur de type VLA, où la précision tactile manque encore cruellement.

UELes équipes françaises de manipulation dextère (Wandercraft, LAAS-CNRS) pourraient intégrer cette architecture visuotactile dans leurs pipelines, réduisant la dépendance aux données supervisées massives pour la généralisation cross-domain.

RecherchePaper
1 source
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
273Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang
274MarkTechPost 

10 techniques de compression du cache KV pour l'inférence LLM : éviction, quantification et méthodes de faible rang

La compression du cache KV s'impose comme l'un des défis techniques centraux de l'inférence à grande échelle pour les grands modèles de langage. Pour un modèle de 30 milliards de paramètres fonctionnant avec une taille de lot de 128 et des séquences d'entrée de 1 024 tokens, le cache clé-valeur (KV) peut atteindre jusqu'à 180 Go de mémoire GPU. À titre de comparaison, les paramètres d'un modèle de 7 milliards de paramètres n'occupent que 14 Go, tandis que son cache KV peut en réclamer 72. Face à cette asymétrie, la recherche a produit ces deux dernières années une dizaine de techniques distinctes de compression. Les plus importantes sont : H2O (Heavy Hitter Oracle, présenté à NeurIPS 2023), qui identifie dynamiquement les tokens générant le plus d'attention et évince les autres, améliorant le débit jusqu'à 29 fois par rapport à Hugging Face Accelerate sur les modèles OPT-6.7B et OPT-30B avec seulement 20 % de tokens retenus ; StreamingLLM, qui conserve en permanence les premiers tokens du contexte comme ancres structurelles, combinés à une fenêtre glissante des tokens les plus récents ; SnapKV, qui cible spécifiquement la phase de prefill et agrège les scores d'attention sur une fenêtre d'observation finale pour sélectionner les positions importantes par tête d'attention ; et PyramidKV/PyramidInfer, qui alloue des budgets de cache différents selon les couches du transformeur, reflétant la diminution progressive du nombre de clés cruciales en profondeur. Ces techniques répondent à un problème qui freine directement la rentabilité des déploiements en production. Compresser le cache KV sans réentraîner le modèle permet d'augmenter la taille des lots traités simultanément, donc le nombre d'utilisateurs servis par GPU, et de réduire les coûts d'inférence. StreamingLLM rend possible des conversations infiniment longues sur du matériel limité, tandis que SnapKV s'adapte mieux aux prompts longs comme les documents juridiques ou médicaux. La granularité par couche de PyramidKV permet d'aller plus loin dans la compression sans dégradation de précision mesurable sur des benchmarks comme LongBench. Ces approches s'inscrivent dans une tendance de fond : à mesure que les fenêtres de contexte des LLM s'étendent de 4 000 à plusieurs centaines de milliers de tokens, le cache KV devient proportionnellement plus coûteux que les poids du modèle lui-même. Les grandes entreprises comme OpenAI, Google et les fournisseurs cloud sont confrontés à ce goulot d'étranglement dès qu'ils cherchent à servir des millions de requêtes simultanées. L'éviction de tokens, la quantification du cache et les méthodes à faible rang constituent trois familles complémentaires de solutions, et leur combinaison, encore peu explorée en production, représente probablement la prochaine frontière pour réduire le coût marginal de chaque token généré.

RecherchePaper
1 source
Meta FAIR publie NeuralSet : un package Python pour la neuro-IA compatible fMRI, M/EEG, signaux neuronaux et embeddings HuggingFace
275MarkTechPost 

Meta FAIR publie NeuralSet : un package Python pour la neuro-IA compatible fMRI, M/EEG, signaux neuronaux et embeddings HuggingFace

Le laboratoire FAIR de Meta a publié NeuralSet, un framework Python destiné à la recherche en Neuro-IA, dont l'objectif est de résoudre l'un des obstacles les plus tenaces du domaine : l'intégration des données cérébrales dans les pipelines d'apprentissage profond. Le projet s'appuie sur cinq abstractions centrales, Events, Extractors, Segments, Batch Data et une couche Backend, pour représenter toute expérience neuroscientifique sous forme de métadonnées légères et pilotées par événements, entièrement dissociées des signaux bruts, volumineux et coûteux en mémoire. Chaque enregistrement, qu'il s'agisse d'une session fMRI, d'un mot prononcé lors d'une tâche cognitive ou d'un stimulus vidéo, est modélisé comme un dictionnaire Python léger contenant un type, un temps de début, une durée et un identifiant de session. L'ensemble d'une étude est compilé dans un DataFrame pandas unique, ce qui permet de filtrer et de recombiner des jeux de données massifs sans charger un seul octet de signal en mémoire. Au moment du calcul effectif, des Extractors font le lien avec les bibliothèques spécialisées existantes : FmriExtractor délègue à Nilearn, tandis que MegExtractor et EegExtractor s'appuient sur MNE-Python. L'intégration native de l'écosystème HuggingFace permet d'aligner automatiquement les signaux neuronaux avec des embeddings issus de modèles comme DINOv2, CLIP, Wav2Vec, Whisper, GPT-2 ou LLaMA. L'enjeu est considérable pour la communauté scientifique. Jusqu'à présent, les chercheurs en Neuro-IA devaient construire des pipelines ad hoc pour chaque expérience, avec manipulation manuelle des données, mise en cache artisanale et configurations backend complexes. NeuralSet rend ce travail d'infrastructure partageable et reproductible via des objets Chain chaînables et cachables. Pour les laboratoires qui travaillent avec les jeux de données publics d'OpenNeuro, désormais à l'échelle du téraoctet, ou avec des protocoles expérimentaux intégrant de la parole continue et de la vidéo, ce gain de temps représente des semaines de développement économisées par projet. Cela ouvre également la voie à des comparaisons directes entre modalités cérébrales différentes, fMRI, EEG, iEEG, fNIRS, EMG, spikes, en ne changeant qu'un paramètre de configuration. La sortie de NeuralSet s'inscrit dans un mouvement plus large d'industrialisation des outils Neuro-IA, un champ à l'intersection des neurosciences computationnelles et des grands modèles de langage. Les outils historiques comme MNE-Python, Nilearn ou fMRIPrep, conçus avant l'ère du deep learning, n'étaient pas pensés pour l'alignement temporel avec des embeddings haute dimension ni pour le chargement paresseux de datasets massifs. FAIR, qui mène depuis plusieurs années des travaux sur la correspondance entre activité cérébrale et représentations de modèles d'IA, positionne NeuralSet comme une infrastructure commune pour accélérer cette recherche. Le framework est compatible avec les datasets au format BIDS, standard ouvert dominant en neuroimagerie, ce qui facilite son adoption immédiate sur les grandes bases publiques existantes.

RecherchePaper
1 source
BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome
276arXiv cs.RO 

BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome

Une équipe de chercheurs a publié BEVal, une étude comparative sur les modèles de segmentation en vue aérienne (Bird's Eye View, ou BEV) appliqués à la conduite autonome. Contrairement aux travaux habituels, qui entraînent et évaluent les modèles sur un seul jeu de données, généralement nuScenes, les auteurs ont testé les performances de plusieurs modèles de l'état de l'art sur des combinaisons croisées de jeux de données : entraînement sur l'un, évaluation sur un autre. L'étude examine également l'influence du type de capteur utilisé, caméras ou LiDAR, sur la capacité des modèles à s'adapter à des environnements variés et à des catégories sémantiques différentes. Le code de l'étude est disponible en open source sur GitHub. Les résultats mettent en évidence un problème structurel dans la recherche actuelle : les modèles de segmentation BEV, très performants sur leurs données d'entraînement, chutent significativement lorsqu'ils sont confrontés à un nouvel environnement ou à une configuration de capteurs différente, un phénomène connu sous le nom de décalage de domaine. Pour les constructeurs automobiles et les entreprises de conduite autonome, cela signifie que des modèles optimisés en laboratoire peuvent se révéler peu fiables dans des conditions réelles variées. Les expériences d'entraînement sur plusieurs jeux de données menées en parallèle ont toutefois montré des améliorations notables des performances par rapport à l'entraînement sur un seul jeu, ouvrant la voie à des approches plus robustes. La segmentation BEV est une technologie clé pour la conduite autonome : elle permet aux véhicules de construire une représentation plane de leur environnement immédiat à partir de capteurs embarqués, facilitant la détection de routes, véhicules, piétons et obstacles. Le standard quasi universel de la recherche repose aujourd'hui sur nuScenes, un jeu de données développé par Motional, ce qui crée un biais de spécialisation problématique à l'échelle du secteur entier. En exposant cette fragilité et en proposant une méthodologie d'évaluation croisée rigoureuse, BEVal pousse la communauté scientifique vers des pratiques plus exigeantes, une condition indispensable avant tout déploiement massif de véhicules autonomes sur des routes réelles.

UELes constructeurs automobiles européens (Stellantis, Volkswagen, Renault) et les acteurs de la conduite autonome opérant en Europe sont concernés par cette fragilité structurelle des modèles BEV, qui remet en question la fiabilité des systèmes avant tout déploiement sur routes européennes aux conditions variées.

RecherchePaper
1 source
DiscreteRTC : les politiques de diffusion discrète comme exécuteurs asynchrones naturels
277arXiv cs.RO 

DiscreteRTC : les politiques de diffusion discrète comme exécuteurs asynchrones naturels

Des chercheurs ont publié DiscreteRTC, une nouvelle architecture de contrôle pour l'IA physique qui résout un problème fondamental des robots en temps réel : comment continuer à agir pendant que le cerveau artificiel calcule la prochaine décision. Présenté sur arXiv le 29 avril 2026, ce travail propose de remplacer les approches de diffusion continue actuelles par des politiques de diffusion discrète, qui génèrent des actions en démasquant itérativement des séquences plutôt qu'en les construisant de zéro. Les résultats sont frappants : sur des tâches de manipulation dynamique en conditions réelles, DiscreteRTC atteint un taux de succès supérieur de 50 % à celui du RTC basé sur le flow-matching, tout en utilisant seulement 0,7 fois la puissance de calcul d'une génération complète, et sans nécessiter une seule ligne de code supplémentaire pour la gestion asynchrone. L'enjeu est structurel pour tout ce qui touche à la robotique et à l'IA embarquée. Contrairement aux chatbots, un robot ne peut pas mettre le monde en pause pendant qu'il réfléchit : une pause de quelques dizaines de millisecondes suffit à rater un objet en mouvement ou à perdre l'équilibre. Les systèmes synchrones existants, aussi rapides soient-ils, souffrent de ce décalage fatal entre calcul et action. DiscreteRTC résout cela en faisant de l'exécution asynchrone une propriété native du modèle : le système "pense en agissant", en figeant les actions déjà engagées et en générant la suite de façon cohérente, sans correction externe coûteuse. Cette approche s'inscrit dans une course plus large à rendre l'IA générative utilisable dans des environnements physiques contraints. Les méthodes de flow-matching, popularisées par des équipes comme OpenAI ou des laboratoires académiques, souffrent d'un défaut architectural : leur capacité d'inpainting est une rustine ajoutée à l'inférence plutôt qu'une propriété fondamentale, ce qui impose du fine-tuning spécifique, des heuristiques fragiles et une latence accrue. En choisissant la diffusion discrète comme base, DiscreteRTC fait de la complétion de séquence son opération native, ouvrant la voie à des robots capables de réagir en temps réel sans compromis sur la cohérence des mouvements. Les prochaines étapes pourraient inclure des tests sur des plateformes robotiques plus complexes et une intégration dans des pipelines d'entraînement à grande échelle.

RecherchePaper
1 source
KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique
278arXiv cs.RO 

KinDER : un benchmark de raisonnement physique pour l'apprentissage et la planification robotique

Une équipe de chercheurs en robotique vient de publier KinDER (Kinematic and Dynamic Embodied Reasoning), un nouveau benchmark conçu pour évaluer la capacité des systèmes robotiques à raisonner sur les contraintes physiques du monde réel. Présenté sur arXiv, le projet propose 25 environnements générés de façon procédurale, une bibliothèque Python compatible avec l'interface Gymnasium, et une suite d'évaluation standardisée incluant 13 méthodes de référence. Ces méthodes couvrent quatre grandes familles d'approches : la planification de tâches et de mouvements, l'apprentissage par imitation, le reinforcement learning et les systèmes basés sur des modèles de fondation comme les grands modèles de langage. Les environnements ciblent cinq défis spécifiques : les relations spatiales de base, la manipulation d'objets sans préhension directe, l'utilisation d'outils, les contraintes géométriques combinatoires et les contraintes dynamiques. Les résultats empiriques sont sans appel : les méthodes actuelles échouent sur une grande partie des environnements proposés, révélant des lacunes profondes dans la façon dont les robots comprennent et anticipent les interactions physiques. C'est un signal fort pour la communauté, car la plupart des benchmarks existants mélangent raisonnement physique, compréhension du langage et perception visuelle, rendant difficile l'identification précise des points de blocage. KinDER isole délibérément ces cinq dimensions pour mesurer séparément chaque capacité. Les chercheurs ont également mené des expériences de transfert simulation-réalité sur un robot manipulateur mobile, confirmant que les comportements observés en simulation correspondent bien à ceux du monde physique. La robotique souffre depuis longtemps d'un manque de benchmarks rigoureux et comparables entre paradigmes d'apprentissage. Le succès des grands modèles de langage a relancé l'intérêt pour les agents physiques capables de raisonner sur leur environnement, mais les outils d'évaluation n'ont pas suivi le rythme. KinDER vient combler ce vide en offrant un terrain de jeu commun, entièrement open-source, qui permet enfin de comparer équitablement des approches aussi différentes que le reinforcement learning classique et les modèles de fondation multimodaux. À mesure que la robotique généraliste monte en puissance, ce type d'infrastructure d'évaluation deviendra un outil central pour orienter les investissements de recherche et repérer les vrais progrès.

RecherchePaper
1 source
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
279arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes
280arXiv cs.RO 

MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes

Des chercheurs ont présenté MotionBricks, un nouveau cadre de génération de mouvements en temps réel capable de modéliser plus de 350 000 clips d'animation avec un seul modèle unifié. Publié sur arXiv, le système repose sur deux composants centraux : un backbone génératif modulaire à espace latent, conçu pour fonctionner sous contraintes de calcul sévères, et des "smart primitives", une interface unifiée permettant de contrôler navigation et interactions avec les objets. Les performances annoncées sont remarquables : 15 000 images par seconde à une latence de 2 millisecondes, sur des jeux de données open source et propriétaires de tailles variées. Le système a également été déployé sur le robot humanoïde Unitree G1, démontrant son applicabilité au contrôle robotique en temps réel. L'enjeu principal de MotionBricks est de combler le fossé persistant entre la recherche en synthèse de mouvement et les contraintes de production industrielle. Jusqu'ici, les méthodes génératives modernes, pourtant puissantes, se dégradaient fortement dès qu'elles devaient opérer en temps réel avec un large répertoire de compétences de mouvement. MotionBricks résout ce problème en permettant à des applications de se construire en mode "plug-and-play", comme assembler des briques, sans nécessiter de connaissances expertes en animation. Le contrôle multimodal fin, commandes de vitesse, sélection de style, keyframes précis, que les modèles existants pilotés par texte ou tags ne pouvaient pas offrir, devient ici accessible de manière intuitive. La synthèse de mouvements procédurale et les arbres d'animation traditionnels dominent encore les moteurs de jeux et la production 3D temps réel, faute d'alternatives génératives assez rapides et flexibles. Des projets comme Motion Diffusion Model ou MDM ont démontré la qualité des approches diffusion, mais butaient précisément sur les contraintes de latence. MotionBricks s'inscrit dans un courant plus large visant à rendre les modèles génératifs opérationnels en production, avec des implications directes pour l'industrie du jeu vidéo, les studios d'animation et la robotique humanoïde, un secteur en pleine accélération avec des acteurs comme Boston Dynamics, Figure AI ou Unitree.

UELes studios d'animation et développeurs de jeux vidéo européens pourraient à terme bénéficier de cette technologie pour produire des personnages animés en temps réel sans expertise spécialisée en animation.

RecherchePaper
1 source
ReSim : une simulation fiable du monde réel pour la conduite autonome
281arXiv cs.RO 

ReSim : une simulation fiable du monde réel pour la conduite autonome

Des chercheurs ont publié sur arXiv un nouveau modèle de simulation du monde pour la conduite autonome, baptisé ReSim, pour Reliable Simulation. L'approche repose sur un générateur vidéo à architecture de transformeur de diffusion, entraîné non plus uniquement sur des données de conduite réelle, mais sur un corpus mixte combinant des trajectoires humaines et des données synthétiques issues du simulateur CARLA. Le modèle est conçu pour prédire de manière fiable comment une scène de conduite va évoluer selon différentes actions du véhicule ego, y compris des comportements dangereux ou non experts, typiquement un freinage brutal, un écart de voie ou une manœuvre imprudente. Pour fermer la boucle entre simulation et apprentissage, les auteurs introduisent également un module Video2Reward capable d'estimer un signal de récompense directement à partir des futures simulées générées par ReSim. Les gains mesurés sont significatifs : ReSim affiche une fidélité visuelle supérieure de 44 %, améliore la contrôlabilité du modèle de plus de 50 % pour les comportements experts comme non experts, et progresse de 2 % en planification et de 25 % en sélection de politique sur le benchmark NAVSIM. Ce dernier point est particulièrement important pour l'industrie : pouvoir évaluer des politiques de conduite dans des scénarios rares ou risqués sans avoir à rouler physiquement avec ces comportements représente un levier majeur pour accélérer la validation des systèmes d'aide à la conduite et des véhicules autonomes. Le problème que ReSim cherche à résoudre est structurel dans le domaine : les modèles du monde entraînés exclusivement sur des données réelles sont biaisés vers la conduite sûre et experte, car c'est ce qui compose l'immense majorité des datasets. Les comportements anormaux, accidentels ou simplement maladroits y sont sous-représentés, ce qui rend ces modèles incapables de simuler fidèlement ce qui se passe quand un véhicule autonome dévie de la norme. En combinant données réelles et données synthétiques contrôlées, ReSim ouvre une voie vers des environnements d'évaluation plus robustes, une priorité pour des acteurs comme Waymo, Tesla ou Mobileye, qui cherchent à réduire leur dépendance aux miles de test sur route ouverte.

RecherchePaper
1 source
GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot
282arXiv cs.RO 

GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot

Des chercheurs ont publié sur arXiv (référence 2604.25670) un système d'apprentissage automatique capable de reconstituer l'activité musculaire d'un individu à partir de simples capteurs de mouvement portables, sans recourir aux électrodes d'électromyographie traditionnelles. L'architecture proposée, baptisée GEGLU-Transformer, combine un encodeur de type Transformer avec des unités linéaires à porte d'erreur gaussienne (GEGLU) pour estimer en continu les enveloppes d'activation neuromusculaire des membres inférieurs. Testée selon un protocole strict dit "leave-one-subject-out" sur un jeu de données biomécanique multi-conditions, elle atteint une corrélation r = 0,706 sans aucune adaptation individuelle, puis r = 0,761 avec seulement 0,5 % des données spécifiques au sujet utilisées pour la personnalisation, soit une amélioration significative à partir d'un volume d'entraînement négligeable. Ces résultats ouvrent une voie concrète pour déployer des exosquelettes et des prothèses robotiques en dehors des laboratoires. L'électromyographie de surface, qui mesure l'activité électrique des muscles via des électrodes cutanées, est aujourd'hui indispensable au contrôle adaptatif de ces dispositifs, mais elle reste fragile : les signaux varient selon la transpiration, le placement des électrodes ou les caractéristiques physiologiques propres à chaque utilisateur. Remplacer ces capteurs par des centrales inertielles, accéléromètres et gyroscopes déjà intégrés dans la plupart des appareils portables grand public, permettrait de rendre ces systèmes nettement plus robustes, moins contraignants à calibrer et potentiellement accessibles à une population bien plus large de patients ou d'utilisateurs industriels. Le problème de la variabilité inter-individuelle est l'un des grands obstacles non résolus de la robotique neuromusculaire depuis plusieurs années. Les approches classiques nécessitaient des sessions de calibration longues et répétées pour chaque nouvel utilisateur, ce qui rendait leur usage clinique difficile à grande échelle. L'introduction d'architectures à base d'attention, popularisées par les grands modèles de langage, dans le domaine biomécanique reflète une tendance plus large à recycler des paradigmes issus du traitement du langage naturel vers des signaux physiologiques temporels. La capacité du modèle à se personnaliser rapidement avec très peu de données ouvre la perspective de dispositifs qui s'adaptent à leur porteur en quelques secondes, sans intervention d'un clinicien.

UELes fabricants européens d'exosquelettes et de prothèses pourraient bénéficier de cette approche pour réduire les contraintes de calibration clinique et élargir l'accès aux dispositifs d'assistance motrice.

RecherchePaper
1 source
Logique des chemins flous
283arXiv cs.RO 

Logique des chemins flous

Des chercheurs ont publié sur arXiv (référence 2604.24907) une nouvelle famille de logiques temporelles spécialement conçues pour la planification de mouvement en robotique. Ces logiques, baptisées "Logic of Fuzzy Paths", s'appuient sur la logique temporelle de signal (STL), un formalisme largement utilisé dans les systèmes cyber-physiques et la robotique depuis plusieurs années. La nouveauté centrale réside dans le traitement des trajectoires comme des entités de première classe, ce qui permet de séparer explicitement les considérations géométriques des considérations logiques, aboutissant à des formules plus simples et plus lisibles. Le système repose techniquement sur des contraintes de signaux floues et variables dans le temps. Cette approche présente deux avantages concrets. D'une part, elle rend les spécifications de comportement plus accessibles aux humains qui programment des robots : un ingénieur peut exprimer des préférences sur les trajectoires sans manipuler des formules mathématiques complexes. D'autre part, le formalisme est mieux adapté à l'apprentissage automatique de spécifications à partir de démonstrations humaines, un besoin croissant dans la robotique collaborative et les systèmes autonomes conscients de leur environnement humain. La logique introduit également une notion enrichie de satisfaction, capable de refléter des préférences graduées entre comportements plutôt qu'un simple critère vrai/faux, ce qui correspond mieux à la réalité des environnements réels. La planification de mouvement est un défi fondamental en robotique : il s'agit de calculer des trajectoires sûres et efficaces dans des environnements dynamiques, souvent en présence d'humains. La STL classique, bien qu'elle ait dominé ce domaine grâce à sa sémantique quantitative, souffrait d'une expressivité limitée pour les préférences comportementales et d'une complexité croissante des formules. La "Logic of Fuzzy Paths" se positionne comme une évolution directe, avec une implémentation prototype et un algorithme d'apprentissage déjà disponibles. Les auteurs ouvrent également la voie à des applications en model checking et en monitoring, deux piliers de la vérification formelle des systèmes autonomes, ce qui pourrait accélérer l'adoption industrielle de ces outils dans les années à venir.

RecherchePaper
1 source
Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde
284arXiv cs.RO 

Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde

Des chercheurs ont publié sur arXiv une méthode baptisée Privileged Foresight Distillation (PFD), conçue pour améliorer les modèles d'action robotiques sans coût supplémentaire à l'exécution. Ces "world action models" sont des systèmes d'IA entraînés à prédire simultanément des vidéos futures et des actions à effectuer, une architecture populaire dans le domaine de la manipulation robotique. La question centrale que les auteurs cherchent à résoudre est la suivante : à quoi sert réellement la branche de prédiction vidéo lors de l'entraînement, si elle peut être retirée à l'inférence sans perte significative de performance sur des benchmarks comme LIBERO et RoboTwin ? Leur réponse : la vision du futur crée pendant l'entraînement une correction précise et mesurable des actions prédites, correction qui peut être "distillée" dans un adaptateur léger attaché à un modèle n'observant que le présent. Concrètement, PFD fonctionne en deux temps : un modèle "enseignant" voit les vraies images futures pendant l'entraînement et génère une correction, calculée comme la différence entre ses prédictions avec et sans ces images ; un modèle "étudiant", qui n'a accès qu'à l'image courante, apprend à reproduire cette correction via un petit adaptateur. Les deux modèles partagent la même architecture visuelle et ne diffèrent que dans leur masque d'attention sur les tokens vidéo. À l'inférence, aucune vidéo future n'est générée, ce qui maintient une latence négligeable. Les tests sur LIBERO et RoboTwin confirment des gains constants de performance sans surcoût computationnel, ce qui rend la méthode directement applicable à des systèmes robotiques existants. Ce travail s'inscrit dans un débat plus large sur l'utilité des représentations temporelles dans les modèles génératifs appliqués à la robotique. La tendance des "world models", popularisée par des travaux de Google DeepMind, Tesla et d'autres laboratoires, consiste à entraîner des agents capables d'anticiper les conséquences de leurs actions. Jusqu'ici, une interprétation dominante voulait que la prédiction du futur n'agisse que comme régularisateur sur le backbone visuel partagé. PFD renverse cette lecture en montrant que le futur est une correction compressible et transmissible, plutôt qu'une cible de prédiction ou un simple bruit d'entraînement. Cette distinction ouvre des perspectives pour concevoir des robots plus précis tout en réduisant les contraintes d'inférence en temps réel.

RecherchePaper
1 source
COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène
285arXiv cs.RO 

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Des chercheurs ont présenté COMPASS, un algorithme de localisation visuelle pour robots qui exploite les plans architecturaux comme référence spatiale. Là où les méthodes existantes se limitent à la géométrie des bâtiments, COMPASS extrait simultanément les informations sémantiques contenues dans ces plans, murs, fenêtres, ouvertures, pour estimer avec précision la position et l'orientation d'un robot équipé de deux caméras fisheye. L'algorithme construit un descripteur radial à cinq canaux, inspiré du "scan context" utilisé en LiDAR, en projetant 360 rayons autour d'une position et en encodant pour chacun : la distance normalisée, le type d'obstacle rencontré, le gradient de distance, la distance inverse, et la variance locale. Cette représentation compacte est générée à la fois depuis le plan et depuis les images caméra, afin de les comparer directement. L'intérêt concret de cette approche tient à sa frugalité : les plans de bâtiments sont des ressources universellement disponibles, contrairement aux cartes 3D denses ou aux nuages de points LiDAR qui nécessitent une infrastructure coûteuse. En associant un simple plan d'étage à des caméras fisheye grand angle, COMPASS ouvre la voie à une localisation précise dans des environnements intérieurs sans déploiement de capteurs spécialisés. Les applications visées sont nombreuses : robots de livraison, assistants en milieu hospitalier, drones d'inspection, ou systèmes de navigation pour personnes malvoyantes. Le projet en est encore au stade de preuve de concept, validée sur le dataset Hilti-Trimble SLAM Challenge 2026 : les auteurs ont démontré que les signatures visuelles extraites de la première image de chaque caméra correspondent bien aux descripteurs issus du plan, confirmant la faisabilité du matching cross-modal. La prochaine étape consiste à étendre la détection d'éléments structurels au-delà des seules fenêtres, à intégrer la fusion des deux caméras fisheye, et à tester la localisation en conditions réelles sur des trajectoires complètes, un défi technique majeur qui conditionnera l'utilité pratique de la méthode.

RecherchePaper
1 source
Estimation d'état monoculaire métrique par alignement inertiel et priors cinétodynamiques
286arXiv cs.RO 

Estimation d'état monoculaire métrique par alignement inertiel et priors cinétodynamiques

Une équipe de chercheurs présente une nouvelle méthode d'estimation d'état pour robots à structure flexible, publiée sur arXiv sous la référence 2511.20496. Le système exploite une caméra monoculaire, c'est-à-dire une seule caméra, couplée à des modèles physiques appelés "priors kinetodynamiques", pour localiser précisément un robot sans recourir aux capteurs inertiels classiques. La méthode repose sur deux composantes complémentaires : un réseau de neurones de type MLP (perceptron multicouche) qui apprend les propriétés élastiques du système, et des modèles cinématiques B-spline en temps continu qui capturent la fluidité du mouvement. Ces deux briques sont reliées par l'application de la deuxième loi de Newton, qui met en relation l'accélération dérivée visuellement et l'accélération générée par les déformations de la plateforme. Les chercheurs ont validé leur approche sur un prototype minimaliste composé d'un ressort et d'une caméra. Ce travail s'attaque à un problème fondamental de la robotique : les méthodes d'odométrie visuelle monoculaire peinent traditionnellement à récupérer l'échelle métrique absolue et l'orientation gravitationnelle, deux informations pourtant indispensables à la navigation autonome. Jusqu'ici, les algorithmes de localisation supposaient que la plateforme est un corps rigide, une hypothèse qui s'effondre dès qu'un drone aux bras flexibles, un robot mou ou tout système à structure déformable entre en jeu. En modélisant correctement la physique de la plateforme, les auteurs parviennent non seulement à une estimation de pose robuste sur des systèmes non rigides, mais aussi à récupérer les propriétés inertielles, rendant en partie superflue l'intégration d'une centrale inertielle dédiée. L'odométrie visuelle monoculaire est un domaine de recherche actif depuis plus d'une décennie, porté par l'essor des drones, des robots mobiles et des systèmes autonomes légers qui cherchent à minimiser poids et coût des capteurs. La robotique souple et les plateformes à géométrie variable représentent des cas d'usage croissants pour lesquels les hypothèses de corps rigide constituent un obstacle majeur. En intégrant directement les lois de la mécanique newtonienne dans le pipeline d'estimation, cette approche ouvre la voie à une nouvelle génération d'algorithmes capables de s'adapter à la déformabilité des plateformes réelles, avec des applications potentielles dans l'inspection industrielle, la livraison par drone et la chirurgie robotique.

RecherchePaper
1 source
DSO : optimisation par pilotage direct pour la réduction des biais
287Apple Machine Learning 

DSO : optimisation par pilotage direct pour la réduction des biais

Des chercheurs ont présenté une nouvelle méthode appelée DSO (Direct Steering Optimization) visant à réduire les biais démographiques dans les modèles de vision-langage (VLM). Ces systèmes d'IA, utilisés pour décrire ou interpréter des images, tendent à associer certains rôles professionnels à des attributs perçus comme le genre ou l'origine ethnique : un modèle peut ainsi refuser d'identifier une femme comme médecin, ou favoriser systématiquement certains profils dans des scénarios de sélection. DSO propose un mécanisme d'optimisation directe permettant de corriger ces biais tout en laissant à l'utilisateur ou au déployeur la possibilité de calibrer le niveau de correction selon ses besoins propres. L'enjeu est concret : les VLM sont déjà intégrés dans des outils d'assistance aux personnes malvoyantes, des systèmes de recrutement automatisé, ou des plateformes de triage médical. Un biais non corrigé dans ces contextes peut produire des discriminations réelles et documentées. Ce que DSO apporte en plus des approches existantes, c'est la capacité à ajuster le curseur entre performance globale du modèle et degré de neutralité démographique, évitant le compromis brutal qui forçait jusqu'ici les équipes à sacrifier l'un pour l'autre. La question des biais dans les modèles multimodaux est devenue centrale depuis que les VLM ont quitté les laboratoires pour des déploiements à grande échelle. Des travaux antérieurs ont montré que des modèles comme CLIP ou LLaVA reproduisent et amplifient des stéréotypes présents dans leurs données d'entraînement. DSO s'inscrit dans une dynamique de recherche active autour de l'alignement et de l'équité algorithmique, un champ où la pression réglementaire, notamment en Europe avec l'AI Act, pousse les entreprises à documenter et corriger ces comportements avant tout déploiement commercial.

UELa méthode DSO fournit un levier technique concret pour répondre aux exigences de l'AI Act européen, qui impose aux entreprises de documenter et corriger les biais dans les systèmes d'IA à haut risque avant tout déploiement commercial.

RecherchePaper
1 source
Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent
288Apple Machine Learning 

Raisonnement adaptatif : les LLM savent quand raisonner dans l'espace latent

Des chercheurs ont publié des travaux sur une nouvelle approche d'optimisation du raisonnement dans les grands modèles de langage (LLM), baptisée "Adaptive Thinking". Le principe : permettre aux modèles d'ajuster dynamiquement leur budget de calcul selon la complexité réelle d'une requête, plutôt que d'appliquer un niveau fixe de raisonnement à chaque réponse. L'étude exploite la technique du chain-of-thought (CoT), qui consiste à générer une chaîne de raisonnement intermédiaire avant de produire une réponse, et introduit la notion de raisonnement dans l'espace latent, une représentation interne au modèle. L'enjeu est directement économique et qualitatif : allouer trop de capacité de calcul à des questions simples est un gaspillage ; en allouer trop peu à des questions complexes dégrade la performance. Les chercheurs utilisent la "self-consistency", c'est-à-dire le degré d'accord entre plusieurs chemins de raisonnement parallèles, comme indicateur proxy de la nécessité réelle de raisonner. Cette métrique permet au modèle de détecter automatiquement si une question mérite un effort cognitif étendu ou une réponse directe. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires depuis l'émergence des modèles de type "reasoning" comme o1 d'OpenAI ou DeepSeek-R1 : comment rendre le raisonnement à l'inférence à la fois plus puissant et plus efficient. Trouver le bon équilibre entre budget de calcul et performance est devenu un axe de compétition majeur, notamment pour les applications en temps réel où la latence et le coût par requête sont critiques.

RecherchePaper
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
289VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source
BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte
290NVIDIA Developer Blog 

BioNeMo de NVIDIA : mise à l'échelle de la modélisation biomoléculaire par parallélisme de contexte

NVIDIA a annoncé une avancée majeure dans son framework BioNeMo avec l'intégration du parallélisme de contexte, une technique permettant de distribuer le traitement de longues séquences biologiques sur plusieurs GPU simultanément. Pendant des décennies, la biologie computationnelle s'était heurtée à une contrainte fondamentale : la mémoire limitée d'un seul GPU obligeait les chercheurs à fragmenter les protéines complexes en sous-unités isolées pour les modéliser. BioNeMo franchit désormais ce seuil en permettant le repliement de protéines entières et de complexes moléculaires sans découpage préalable, ce que les spécialistes appellent le repliement "zero-shot". L'impact est direct pour les laboratoires pharmaceutiques et les équipes de biologie structurale : modéliser des protéines longues ou des assemblages multi-chaînes avec précision, sans sacrifier la cohérence structurelle liée à la fragmentation artificielle. Le "fossé de contexte", cet angle mort où les grandes molécules devenaient inaccessibles aux modèles d'IA faute de mémoire, disparaît avec cette approche, ouvrant la voie à des prédictions structurelles bien plus fidèles à la réalité cellulaire. Cette évolution s'inscrit dans la course que se livrent les grands acteurs technologiques pour dominer la biologie computationnelle à l'ère de l'IA. NVIDIA positionne BioNeMo comme la plateforme de référence pour les modèles de fondation biomoléculaires, face à des concurrents comme DeepMind avec AlphaFold ou Evo de Arc Institute. Le parallélisme de contexte, déjà éprouvé dans la formation de grands modèles de langage via Megatron-LM, est ici adapté aux spécificités des séquences biologiques, signal fort que les techniques d'entraînement LLM migrent activement vers les sciences du vivant.

UELes laboratoires pharmaceutiques et instituts de recherche européens (Sanofi, Institut Pasteur, universités de médecine) pourraient bénéficier d'une modélisation protéique plus précise et sans fragmentation, accélérant potentiellement la découverte de médicaments et la recherche biomédicale.

RecherchePaper
1 source
Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal
291SCMP Tech 

Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal

Alibaba Group a dévoilé mardi un nouveau modèle d'intelligence artificielle baptisé Coca, développé par son laboratoire de recherche Damo Academy, capable de détecter les cancers colorectaux à un stade précoce à partir de scanners CT sans contraste. Testé sur plus de 27 000 examens, le modèle a permis d'identifier cinq cas de cancer colorectal qui avaient été manqués par des radiologistes humains, affichant ainsi une sensibilité supérieure à celle des spécialistes pour cette tâche précise. Cette avancée représente un enjeu médical considérable : le cancer colorectal est l'un des cancers les plus meurtriers au monde, et son pronostic s'améliore drastiquement lorsqu'il est détecté tôt. Un outil capable de réduire les faux négatifs dans l'analyse de scanners de routine pourrait alléger la charge cognitive des radiologistes, accélérer les diagnostics et potentiellement sauver des vies, notamment dans les systèmes de santé où le volume d'examens dépasse la capacité humaine disponible. Alibaba s'inscrit avec Coca dans une stratégie plus large de déploiement de l'IA médicale, un secteur où les géants technologiques chinois investissent massivement pour rivaliser avec des acteurs comme Google Health ou Microsoft. La Chine fait face à une pression démographique et sanitaire croissante, avec des taux de cancer colorectal en hausse, ce qui rend ces outils particulièrement stratégiques. Coca s'appuie sur les scanners CT non contrastés, des examens courants et moins coûteux que leurs homologues avec produit de contraste, ce qui élargit son potentiel de déploiement à grande échelle dans des contextes hospitaliers variés.

RecherchePaper
1 source
La planification par gradient dans les modèles du monde sur des horizons prolongés
292Robohub 

La planification par gradient dans les modèles du monde sur des horizons prolongés

Des chercheurs de Meta AI, de l'Université de Californie Berkeley et du GRASP Lab ont publié un article présentant GRASP, un nouveau planificateur à base de gradients conçu pour les modèles de monde appris. L'équipe comprend Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun et Amir Bar. GRASP s'attaque à l'un des problèmes les plus persistants de l'IA incarnée : utiliser efficacement un modèle prédictif puissant pour planifier des séquences d'actions sur de longs horizons temporels. L'approche repose sur trois innovations clés : élever la trajectoire dans des états virtuels pour paralléliser l'optimisation dans le temps, introduire de la stochasticité directement dans les itérations d'état pour favoriser l'exploration, et reformuler les gradients afin que les actions reçoivent des signaux d'apprentissage clairs, tout en évitant les gradients instables qui traversent les modèles de vision haute dimension. Ce travail est important parce qu'il résout un goulot d'étranglement concret qui freine le déploiement des modèles de monde modernes dans des systèmes de contrôle réels. Un modèle de monde, dans ce contexte, est un simulateur différentiable appris : donné un état courant et une séquence d'actions futures, il prédit ce qui va se passer. En théorie, cela permettrait à un agent de planifier par optimisation, en faisant rouler le modèle en avant et en rétropropageant les erreurs. En pratique, sur de longs horizons, ce processus dégénère : les graphes de calcul deviennent mal conditionnés (problème d'explosion ou de disparition des gradients, analogue au backpropagation through time), des minima locaux apparaissent à cause de la structure non-greedy de la tâche, et les espaces latents de haute dimension introduisent des instabilités supplémentaires. GRASP contourne ces trois écueils simultanément, rendant la planification par gradient beaucoup plus robuste sans abandonner la différentiabilité du système. Les modèles de monde sont devenus un axe central de la recherche en IA depuis que Yann LeCun, directeur scientifique de Meta AI, a défendu leur rôle fondamental dans la quête d'une IA plus générale. Des systèmes comme DreamerV3 ou les modèles vidéo génératifs récents montrent que ces architectures peuvent désormais prédire de longues séquences d'observations dans des espaces visuels complexes et généraliser entre tâches. Mais posséder un simulateur puissant et s'en servir efficacement pour la prise de décision sont deux choses différentes. GRASP comble ce fossé en rendant la planification à long horizon viable là où elle échouait auparavant, ouvrant la voie à des agents robotiques ou autonomes capables de raisonner sur des séquences d'actions étendues dans des environnements réels.

RecherchePaper
1 source
Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal
293Pandaily 

Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal

Le 28 avril, l'Alibaba DAMO Academy a dévoilé DAMO COCA, un modèle d'intelligence artificielle pour le dépistage du cancer colorectal, développé en collaboration avec l'Hôpital général provincial du Guangdong et d'autres institutions médicales chinoises. Ce système analyse des scanners CT sans contraste, supprimant ainsi la nécessité d'une injection de produit de contraste ou d'une préparation intestinale préalable, deux contraintes lourdes imposées par les méthodes de dépistage classiques. Publié dans la revue Annals of Oncology, le modèle affiche une sensibilité de 86,6 % et une spécificité de 99,8 %, deux indicateurs qui mesurent sa capacité à détecter les cas réels tout en limitant les faux positifs. L'étude a analysé plus de 27 000 scanners CT et a permis d'identifier des cas de cancers non détectés dans des données cliniques réelles. Cette performance est particulièrement significative car le cancer colorectal figure parmi les cancers les plus répandus au monde, avec un taux de dépistage insuffisant lié aux contraintes des méthodes existantes, notamment la coloscopie invasive. En supprimant ces obstacles, DAMO COCA pourrait élargir considérablement l'accès au dépistage, notamment dans les régions où les ressources médicales sont limitées. La capacité du modèle à détecter des lésions dans des zones anatomiquement complexes, là où les radiologues manquent le plus fréquemment des anomalies, représente une avancée clinique concrète susceptible de réduire les diagnostics tardifs. DAMO COCA s'inscrit dans une initiative plus large de l'Alibaba DAMO Academy baptisée "CT + AI", visant à développer des outils de dépistage multi-cancer à partir de scanners CT standard. L'académie avait déjà publié des modèles comparables pour le cancer du pancréas et le cancer gastrique. Le système repose sur un cadre d'apprentissage profond en deux étapes, conçu pour mieux interpréter la complexité des structures intestinales. Cette stratégie rejoint un mouvement mondial dans lequel les grandes entreprises technologiques investissent massivement dans l'imagerie médicale assistée par IA, avec l'ambition de transformer le scanner CT en outil de détection systématique de multiples cancers à partir d'un seul examen.

RecherchePaper
1 source
Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks
294arXiv cs.RO 

Modèles de langage comme planificateurs de haut niveau en boucle fermée pour la robotique : aperçu et benchmarks

Des chercheurs ont publié mi-novembre 2024 sur arXiv une étude approfondie portant sur l'utilisation des grands modèles de langage (LLM) et des modèles vision-langage (VLM) comme planificateurs de haut niveau en boucle fermée pour des systèmes robotiques. L'article, référencé arXiv:2511.07410, s'attaque à un problème concret : lorsqu'on déploie ces modèles en mode dit "boîte noire", sans retour d'information sur l'exécution, les erreurs deviennent imprévisibles et coûteuses. Les auteurs proposent une série d'expériences contrôlées pour identifier des stratégies pratiques permettant d'intégrer ces modèles de façon fiable dans des robots. Deux variables clés sont étudiées : l'horizon de contrôle, c'est-à-dire le nombre d'actions planifiées à l'avance avant de réévaluer la situation, et le "warm-starting", qui consiste à initialiser le planificateur avec des solutions partielles issues d'itérations précédentes. Ces résultats ont des implications directes pour les équipes qui déploient aujourd'hui des LLM dans des systèmes embarqués ou robotiques. En boucle ouverte, un modèle peut enchaîner des décisions sans jamais corriger ses erreurs, ce qui dans un contexte physique peut signifier des collisions, des tâches non abouties ou des comportements dangereux. La boucle fermée, en intégrant un retour régulier de l'environnement, permet au modèle de s'adapter en temps réel. Les recommandations issues de l'étude fournissent aux ingénieurs des paramètres concrets pour calibrer ce retour d'information et améliorer la robustesse des systèmes sans augmenter proportionnellement le coût computationnel. Cette recherche s'inscrit dans une dynamique plus large d'intégration des LLM dans la robotique, un champ qui a explosé depuis 2023 avec des projets comme PaLM-E de Google ou RT-2 de DeepMind. L'enjeu est de taille : faire passer ces modèles du laboratoire au monde réel, où l'incertitude et les erreurs d'exécution sont inévitables. Le fait que les auteurs publient l'intégralité de leur implémentation et de leurs expériences en accès ouvert devrait accélérer l'adoption de ces pratiques par la communauté. Les prochaines étapes naturelles concerneront l'évaluation de ces stratégies sur des plateformes robotiques variées et dans des environnements non structurés.

RecherchePaper
1 source
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
295arXiv cs.RO 

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes. L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés. La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

RecherchePaper
1 source
Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs
296arXiv cs.RO 

Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs

Des chercheurs ont publié une étude systématique sur le déploiement de modèles Vision-Language-Action (VLA) sur des accélérateurs matériels embarqués, une problématique centrale pour la robotique autonome à faible coût. Ces modèles, capables de combiner perception visuelle, compréhension du langage naturel et génération de commandes motrices, sont évalués jusqu'ici quasi exclusivement sur des GPU de bureau haut de gamme, ce qui masque les véritables compromis coût-performance des architectures embarquées. L'équipe a construit un tableau de comparaison multi-accélérateurs (GPU, XPU, NPU) en évaluant chaque combinaison modèle-matériel selon trois critères : coût, énergie consommée et temps d'inférence, regroupés sous l'acronyme CET. Résultat : des accélérateurs edge correctement dimensionnés se révèlent plus efficaces en coût et en énergie que des GPU phares, tout en respectant les contraintes de fréquence de contrôle requises par les robots en temps réel. L'étude apporte aussi un éclairage inédit sur le comportement interne de ces modèles lors de l'inférence. Les chercheurs ont identifié un schéma en deux phases répétable : un backbone VLM (le module vision-langage) limité par la puissance de calcul, suivi d'un module expert d'action limité par la bande passante mémoire. Cette alternance crée une sous-utilisation structurelle du matériel, source d'inefficacité. À partir de ce diagnostic, ils ont développé deux optimisations : DP-Cache, qui réduit les calculs redondants dans la diffusion, et V-AEFusion, qui introduit un parallélisme asynchrone entre les deux phases. Ces techniques permettent des accélérations allant jusqu'à 2,9x sur GPU et 6x sur NPU edge, avec une dégradation marginale des performances de contrôle. Ce travail s'inscrit dans une course plus large à l'embarquabilité des modèles d'IA généralistes dans les systèmes physiques. Les robots humanoïdes et mobiles de nouvelle génération, développés par des acteurs comme Figure, Physical Intelligence ou Boston Dynamics, font face à des contraintes énergétiques et économiques sévères dès lors qu'on les sort des laboratoires. L'approche de co-caractérisation modèle-matériel proposée ici offre un cadre méthodologique transposable, et le leaderboard public mis en ligne sur Vercel constitue une ressource ouverte pour orienter les prochains choix d'architecture dans l'IA incarnée.

UEAucune entité française ou européenne n'est directement impliquée, mais les équipes européennes de robotique autonome peuvent s'appuyer sur le leaderboard public et les optimisations en open source pour guider leurs choix d'architecture embarquée.

RecherchePaper
1 source
Suivi de pose 6-DoF d'objets dynamiques par points clés et caméra événementielle
297arXiv cs.RO 

Suivi de pose 6-DoF d'objets dynamiques par points clés et caméra événementielle

Des chercheurs ont publié sur arXiv (référence 2604.23387) une nouvelle méthode de suivi de pose d'objets en mouvement à six degrés de liberté (6-DoF), en s'appuyant sur des caméras événementielles plutôt que sur des caméras conventionnelles. L'approche repose sur la détection et le suivi de points-clés extraits du flux d'événements généré par le capteur. Le système identifie d'abord ces points-clés à partir d'une "surface temporelle" construite à partir du signal événementiel, puis exploite la polarité et les coordonnées spatiales des événements pour assurer un suivi continu. Une correspondance par table de hachage est ensuite établie entre les points-clés 2D détectés et les points-clés du modèle 3D de l'objet, avant d'appliquer l'algorithme EPnP pour calculer la pose finale. Testée en environnements simulés et réels, la méthode surpasse les approches concurrentes basées sur les événements en précision et en robustesse. Cette avancée répond à un besoin critique en robotique industrielle : estimer avec précision l'orientation et la position d'un objet en mouvement rapide pour permettre des tâches de manipulation fiables. Les caméras classiques échouent dans ce contexte précis, car elles souffrent de flou de mouvement lors de déplacements rapides, de bruit de capteur et de performances dégradées en faible luminosité. Une estimation de pose erronée peut compromettre entièrement une opération de saisie ou d'assemblage automatisé. La méthode proposée ouvre donc la voie à des bras robotiques capables d'attraper des objets en mouvement dans des conditions difficiles, ce qui intéresse directement les secteurs de la logistique, de la chirurgie assistée par robot et de la fabrication automatisée. Les caméras événementielles, initialement développées pour l'inspiration biologique par des institutions comme l'ETH Zurich et commercialisées notamment par Prophesee ou iniVation, mesurent les changements de luminosité pixel par pixel avec une latence de l'ordre de la microseconde, sans produire d'images complètes. Longtemps cantonnées à la recherche fondamentale, elles gagnent progressivement du terrain dans les applications embarquées et robotiques. Ce travail illustre comment coupler ces capteurs atypiques à des architectures d'apprentissage profond peut résoudre des problèmes insolubles pour l'imagerie traditionnelle, notamment dans les scénarios haute vitesse ou faible contraste. La prochaine étape probable sera l'intégration de cette approche dans des pipelines temps réel sur matériel embarqué contraint.

UEProphesee, startup française pionnière dans la commercialisation des caméras événementielles, est citée comme acteur clé de l'écosystème sur lequel ces travaux s'appuient, ce qui renforce son positionnement sur le marché européen de la robotique industrielle.

RecherchePaper
1 source
Identification d'objets hors distribution pour la segmentation d'anomalies LiDAR 3D
298arXiv cs.RO 

Identification d'objets hors distribution pour la segmentation d'anomalies LiDAR 3D

Des chercheurs ont publié fin avril 2026 une nouvelle méthode pour la segmentation d'anomalies en 3D à partir de données LiDAR, baptisée LIDO, accompagnée de nouveaux jeux de données mixtes réels-synthétiques. L'approche opère directement dans l'espace des caractéristiques (feature space) pour modéliser la distribution des classes connues et en déduire ce qui est anormal, sans recourir aux techniques de post-traitement empruntées à la vision 2D qui dominaient jusqu'ici le domaine. Le code source et les datasets sont disponibles publiquement sur la page du projet. Détecter des objets inconnus sur la route constitue un enjeu de sécurité critique pour les véhicules autonomes et les robots de perception : un camion renversé, un animal inattendu ou un obstacle inhabituel ne figurent pas dans les catégories apprises à l'entraînement, mais doivent absolument être signalés. Or, les méthodes existantes en 3D se contentaient d'adapter des techniques conçues pour la 2D, avec des performances limitées. La méthode proposée ici améliore l'état de l'art sur le seul dataset réel disponible publiquement, tout en montrant des résultats compétitifs sur les nouveaux benchmarks mixtes introduits par les auteurs, ce qui valide à la fois l'efficacité de l'approche et la pertinence des nouveaux jeux de données. Le domaine souffrait jusqu'ici d'un double handicap : les rares datasets 3D LiDAR dédiés à la détection d'anomalies ne proposaient que des scénarios simples, avec peu d'instances anormales, et présentaient un écart de domaine important lié à la résolution du capteur utilisé. Pour y remédier, les auteurs ont construit plusieurs datasets hybrides à partir de benchmarks de segmentation sémantique établis, en y intégrant des objets hors-distribution variés dans des environnements complexes. Ce travail s'inscrit dans une dynamique plus large de fiabilisation de la perception pour la conduite autonome, où la capacité à reconnaître ce que l'on ne connaît pas est aussi importante que reconnaître ce que l'on connaît.

UELes équipementiers et laboratoires européens spécialisés dans la conduite autonome et la robotique de perception peuvent directement exploiter ce code open source pour renforcer la robustesse de leurs systèmes face aux obstacles inconnus sur route.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
299arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique
300arXiv cs.RO 

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique

Des chercheurs ont publié HeiSD, un nouveau cadre d'accélération pour les modèles Vision-Langage-Action (VLA) utilisés en robotique, présenté dans un article arXiv (2603.17573). Les modèles VLA sont devenus la solution dominante pour le contrôle de robots : ils combinent vision, compréhension du langage naturel et génération d'actions motrices. Leur principal talon d'Achille reste une vitesse d'inférence trop lente pour de nombreuses applications temps réel. HeiSD s'appuie sur une approche hybride du décodage spéculatif, une technique qui anticipe les tokens suivants pour accélérer la génération, en fusionnant deux familles de méthodes complémentaires : le décodage basé sur un modèle brouillon et le décodage par récupération en mémoire. Les résultats annoncés atteignent un facteur d'accélération de 2,45x sur des benchmarks en simulation, et de 2,06x à 2,41x dans des scénarios réels, tout en maintenant un taux de succès élevé sur les tâches testées. Cet gain de vitesse est significatif pour l'industrie de la robotique, où la latence entre la perception et l'action conditionne directement la sécurité et l'utilisabilité des robots. Un robot qui doit attendre plusieurs secondes entre chaque décision est inutilisable dans un entrepôt logistique ou une salle d'opération. En doublant approximativement la vitesse d'inférence sans dégrader les performances, HeiSD rapproche les VLA d'un déploiement industriel viable, sans nécessiter de matériel supplémentaire ni de réentraînement des modèles sous-jacents. Le décodage spéculatif est une piste de recherche active depuis l'explosion des grands modèles de langage, mais son application aux modèles robotiques posait des défis spécifiques : les erreurs en cascade lors du rejet de tokens et la difficulté à calibrer automatiquement la frontière entre les deux stratégies hybrides. HeiSD résout ces problèmes via un mécanisme de vérification sélective, une stratégie d'acceptation assouplie au niveau des séquences, et une métrique de fusion basée sur la cinématique du robot pour piloter automatiquement le découpage hybride. Ce travail s'inscrit dans une course plus large à l'efficacité des VLA, où des acteurs comme Google DeepMind (RT-2) et Physical Intelligence cherchent eux aussi à rendre ces modèles suffisamment rapides pour un usage en production.

RechercheActu
1 source