Aller au contenu principal

Recherche — page 7

671 articles · page 7 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

GenAssets : génération d'assets 3D en espace latent
301arXiv cs.RO RecherchePaper

GenAssets : génération d'assets 3D en espace latent

Des chercheurs ont présenté GenAssets, une nouvelle méthode de génération d'objets 3D destinés aux simulateurs de conduite autonome, décrite dans un article arXiv publié fin avril 2026. Le système repose sur un modèle de diffusion latente 3D capable d'apprendre directement depuis des données LiDAR et caméra collectées en conditions réelles, pour ensuite générer des véhicules et piétons en trois dimensions avec une géométrie et une apparence complètes. L'approche dite "reconstruire-puis-générer" fonctionne en deux temps : elle commence par exploiter un rendu neural conscient des occlusions, entraîné sur plusieurs scènes, pour construire un espace latent de haute qualité représentant les objets observés ; un modèle de diffusion opère ensuite sur cet espace pour produire des assets variés et réalistes. Les auteurs affirment que GenAssets surpasse les méthodes existantes de reconstruction et de génération sur des benchmarks standardisés. La simulation multi-capteurs est au cœur du développement sûr des systèmes de conduite autonome : sans assets 3D diversifiés et réalistes, il est impossible de tester les véhicules dans des situations rares ou dangereuses à reproduire dans la réalité. Le problème central que GenAssets résout est celui des données en conditions sauvages ("in-the-wild"), où les acteurs de la scène, autres voitures, cyclistes, piétons, sont souvent capturés sous des angles limités et partiellement masqués par d'autres objets. Les méthodes classiques de reconstruction par rendu neural échouent à produire des assets utilisables depuis des points de vue différents de l'observation d'origine, ce qui restreint fortement leur utilité en simulation. GenAssets débloque une création de contenu scalable et diverse, directement exploitable pour entraîner et valider des systèmes d'autonomie. La génération d'environnements synthétiques de haute fidélité est un enjeu stratégique pour des acteurs comme Waymo, Tesla, Cruise ou Mobileye, qui dépendent de milliards de kilomètres simulés pour compenser le coût prohibitif des tests réels. Les approches par diffusion ont connu une montée en puissance spectaculaire depuis 2022, mais leur application aux scènes de conduite réelles restait freinée par la rareté et la partialité des observations terrain. GenAssets ouvre une voie vers des pipelines entièrement automatisés de création d'assets, alimentés directement par les données collectées par les flottes de véhicules, ce qui pourrait significativement accélérer les cycles de développement et d'homologation des systèmes autonomes.

UELes constructeurs et équipementiers européens du secteur automobile pourraient bénéficier indirectement de cette avancée pour améliorer leurs pipelines de simulation en conduite autonome.

1 source
SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels
302arXiv cs.RO 

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

Une équipe de chercheurs a publié sur arXiv (référence 2604.24449) une nouvelle méthode baptisée SPLIT, conçue pour simuler des capteurs tactiles à base d'images utilisés en robotique. Le travail se concentre principalement sur le capteur DIGIT, un capteur tactile optique répandu dans la communauté robotique. SPLIT repose sur une stratégie d'arithmétique dans l'espace latent qui dissocie explicitement la géométrie de contact des propriétés optiques propres au capteur. Concrètement, le système décompose ce qu'il "voit" en deux composantes indépendantes : la forme de l'objet qui appuie sur le capteur, et les caractéristiques visuelles intrinsèques du capteur lui-même. La méthode intègre également une simulation par éléments finis (FEM) calibrée avec résolution variable, offrant un compromis ajustable entre vitesse de calcul et fidélité physique. Cette capacité de dissociation change profondément la manière dont on peut entraîner des modèles d'apprentissage automatique pour la perception tactile. Jusqu'ici, chaque nouvelle unité physique d'un capteur nécessitait une recalibration coûteuse en temps et en données. SPLIT élimine cette contrainte : une fois entraîné, le modèle peut s'adapter à différentes variantes du capteur DIGIT, voire se transférer vers des capteurs d'une autre famille, comme le GelSight R1.5, sans réentraînement complet. La méthode supporte en outre une simulation bidirectionnelle : elle peut générer des images réalistes à partir de maillages de déformation, mais aussi reconstruire un maillage à partir d'une image tactile réelle. La vitesse d'inférence dépasse celle des approches concurrentes existantes. Le manque de données d'entraînement réalistes est l'un des principaux freins au développement de la robotique tactile. Collecter des interactions physiques variées est lent, coûteux et difficile à reproduire à grande échelle, ce qui pousse la communauté vers des simulateurs capables de générer des données synthétiques crédibles. SPLIT s'inscrit dans cette tendance en proposant une solution généraliste, là où les méthodes antérieures restaient souvent liées à un seul type de capteur. En permettant le transfert inter-capteurs et en réduisant le besoin en données réelles, cette approche pourrait accélérer significativement le développement de robots capables de manipuler des objets avec précision et dextérité.

RecherchePaper
1 source
Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels
303arXiv cs.RO 

Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels

Des chercheurs ont publié une méthode semi-supervisée d'annotation d'images baptisée "label propagation", conçue pour accélérer l'entraînement des robots de service domestiques. Présentée dans un article arXiv (2604.22992), l'approche combine un générateur de masques agnostique aux classes avec un ensemble de réseaux de Hopfield qui attribuent automatiquement des étiquettes en exploitant trois espaces d'embeddings issus de modèles de fondation : CLIP, ViT et Theia. Le système passe à l'échelle jusqu'à 50 classes d'objets différents tout en maintenant un effort d'annotation humaine minimal, et parvient à étiqueter automatiquement 60 % des données dans le cadre de la compétition RoboCup@Home. Le code et les jeux de données sont disponibles publiquement sur GitHub (ais-bonn/label\_propagation). Cette avancée s'attaque directement à l'un des goulets d'étranglement les plus coûteux du développement robotique : l'annotation manuelle des données d'entraînement. Dans des contextes comme RoboCup@Home, où les équipes disposent d'un temps de préparation très limité avant les épreuves, automatiser 60 % du travail d'étiquetage représente un gain opérationnel considérable. Les détecteurs à vocabulaire ouvert actuels peinent à généraliser au-delà de quelques catégories, et l'entraînement entièrement supervisé reste chronophage et difficile à déployer rapidement sur de nouveaux environnements domestiques. La robotique de service grand public bute depuis des années sur la diversité et l'imprévisibilité des objets du quotidien. Les approches classiques nécessitent des milliers d'annotations humaines pour chaque nouvelle catégorie d'objet, ce qui freine le déploiement dans des foyers réels aux configurations variées. En s'appuyant sur des modèles de fondation pré-entraînés comme CLIP pour enrichir les représentations sémantiques, cette méthode contourne partiellement ce problème en propageant les étiquettes connues vers des exemples visuellement similaires non annotés. Les compétitions comme RoboCup@Home servent de bancs d'essai réalistes pour ces techniques, et la publication ouverte du code pourrait faciliter leur adoption par d'autres équipes de recherche en robotique domestique.

UELa méthode est développée par le laboratoire AIS de l'Université de Bonn (Allemagne), ce qui en fait une contribution directement issue de la recherche européenne en robotique, avec un code open source exploitable par les équipes de recherche européennes participant aux compétitions RoboCup.

RecherchePaper
1 source
Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique
304arXiv cs.RO 

Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique

Des chercheurs d'AgibotTech ont publié sur arXiv un système baptisé Genie Sim PanoRecon, capable de reconstruire des scènes 3D photoréalistes à partir d'une seule image panoramique en quelques secondes. La méthode repose sur le Gaussian splatting, une technique de représentation 3D par nuages de points gaussiens. Concrètement, le panorama d'entrée est décomposé en six faces d'une carte cubique non superposées, traitées en parallèle puis réassemblées de façon cohérente. Pour garantir la cohérence géométrique entre les différentes vues, l'équipe a développé une stratégie de fusion guidée par la profondeur, couplée à un module d'injection de profondeur sans entraînement supplémentaire, qui oriente le réseau monoculaire vers la génération de Gaussiens 3D cohérents. Le système a été intégré directement dans Genie Sim, une plateforme de simulation pilotée par LLM dédiée à la génération de données synthétiques pour l'IA incarnée. L'enjeu central est de réduire drastiquement le coût et le temps de création d'environnements 3D pour entraîner des robots à la manipulation d'objets. Là où la construction manuelle d'une scène 3D réaliste peut prendre des heures ou des jours, PanoRecon le fait en quelques secondes à partir d'une simple photo panoramique. Pour les équipes de robotique, cela ouvre la voie à une génération massive et automatisée de scènes d'entraînement variées, ce qui est un verrou majeur dans le développement de robots polyvalents capables de generaliser à des environnements nouveaux. Le contexte est celui de la course à la simulation photorealiste pour l'IA incarnée (embodied AI), un champ où des acteurs comme NVIDIA, Google DeepMind et des startups chinoises investissent massivement pour combler le fossé entre simulation et monde réel. AgibotTech s'inscrit dans cette dynamique en combinant la puissance des LLM pour piloter la simulation et une reconstruction 3D rapide pour fournir des décors crédibles. Le code source est disponible sur GitHub, ce qui suggère une volonté de fédérer une communauté autour de Genie Sim comme standard ouvert pour la génération de données robotiques synthétiques.

RecherchePaper
1 source
Algorithme de beam search efficace pour la perception active en robotique mobile
305arXiv cs.RO 

Algorithme de beam search efficace pour la perception active en robotique mobile

Des chercheurs ont publié sur arXiv un algorithme de recherche en faisceau conçu pour améliorer la perception active dans les robots mobiles autonomes. L'article, référencé arXiv:2604.23327, présente trois contributions principales : un algorithme de recherche en faisceau par nœud (NBS, pour Node-wise Beam Search), une nouvelle métrique appelée "gain espéré", et une méthode de construction de graphe baptisée RRAG (Rapidly-exploring Random Annulus Graph). Lors de benchmarks extensifs, la combinaison NBS et RRAG surpasse les algorithmes de l'état de l'art d'au moins 20 % sur une ou plusieurs des trois tâches de perception active testées. L'approche a également été validée sur des plateformes robotiques réelles dans différents scénarios. La perception active est un problème central en robotique autonome : le robot doit décider où se déplacer et quoi observer pour collecter les informations les plus utiles à sa mission. Les méthodes actuelles se heurtent à un dilemme : soit elles résolvent un problème de voyageur de commerce coûteux en calcul, soit elles adoptent une formulation plus rapide mais trop contrainte. Le nouvel algorithme NBS contourne ce compromis en conservant les B meilleurs candidats par nœud plutôt que globalement, ce qui réduit la sensibilité aux optima locaux et améliore l'exploration de l'espace de solutions sans exploser le coût computationnel. La robotique autonome souffre depuis longtemps d'un fossé entre les méthodes théoriquement optimales, trop lentes pour opérer en temps réel, et les heuristiques rapides mais peu fiables dans des environnements encombrés. En introduisant le concept de frontières dans le critère de sélection de chemin via la métrique de gain espéré, les auteurs offrent un meilleur équilibre entre exploration et exploitation, deux impératifs souvent antagonistes dans la navigation autonome. Le RRAG, quant à lui, garantit la connectivité du graphe même dans les espaces complexes grâce à un planificateur local de repli. Ces travaux ouvrent la voie à des robots de livraison, d'inspection industrielle ou de cartographie capables de planifier leurs trajectoires de manière plus autonome et robuste.

RechercheOpinion
1 source
EgoDyn-Bench : évaluation de la compréhension du mouvement ego-centré dans les modèles de vision pour la conduite autonome
306arXiv cs.RO 

EgoDyn-Bench : évaluation de la compréhension du mouvement ego-centré dans les modèles de vision pour la conduite autonome

Des chercheurs ont publié EgoDyn-Bench, un nouveau banc d'essai conçu pour mesurer la compréhension du mouvement propre du véhicule, appelé ego-motion, par les modèles de fondation en conduite autonome. L'étude, soumise sur arXiv fin avril 2026, s'appuie sur une évaluation empirique à grande échelle couvrant plus de 20 modèles : des systèmes propriétaires comme les grands modèles multimodaux en boîte noire, des modèles open-source de tailles variées, et des agents d'action-langage spécialisés dans la conduite. Le protocole utilise un oracle déterministe pour convertir les données cinématiques continues du véhicule en concepts de mouvement discrets, permettant de dissocier la logique physique interne du modèle de sa perception visuelle brute. Le résultat central est frappant : les auteurs identifient ce qu'ils appellent un « goulot d'étranglement perceptif ». Si les modèles testés démontrent une certaine capacité à raisonner sur les concepts physiques de base, ils échouent systématiquement à les ancrer dans les observations visuelles réelles. Pire, ces systèmes sont régulièrement surpassés par des méthodes géométriques classiques non apprises, pourtant bien plus simples. Cette défaillance persiste quelle que soit la taille du modèle et même après un entraînement spécialisé sur des données de conduite, ce qui pointe vers un déficit structurel dans la façon dont les architectures actuelles couplent vision et raisonnement physique. L'analyse révèle une dissociation fonctionnelle préoccupante entre vision et langage : la logique d'ego-motion est dérivée presque exclusivement du canal linguistique, tandis que les observations visuelles n'apportent qu'un signal négligeable. Lorsque les chercheurs fournissent explicitement des encodages de trajectoire aux modèles, la cohérence physique se rétablit significativement, confirmant que le problème n'est pas une absence de connaissance physique, mais une incapacité à la connecter au flux visuel. Ce constat soulève des questions sérieuses pour l'industrie de la conduite autonome, où des acteurs comme Waymo, Tesla ou Mobileye investissent massivement dans des approches fondées sur ces mêmes modèles. EgoDyn-Bench propose un cadre de diagnostic standardisé et une piste concrète vers des systèmes d'IA incarnée physiquement cohérents.

RecherchePaper
1 source
SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques
307arXiv cs.RO 

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Des chercheurs ont publié sur arXiv une méthode appelée SMP (Score-Matching Motion Priors), conçue pour rendre les personnages virtuels animés par simulation physique capables de mouvements naturels, sans avoir à tout réentraîner à chaque nouveau projet. La technique repose sur des modèles de diffusion de mouvement pré-entraînés combinés à une technique baptisée score distillation sampling (SDS), empruntée au domaine de la génération 3D à partir de texte. Le principe : entraîner une fois un prior de mouvement sur un grand corpus de données de capture de mouvement, puis le geler et le réutiliser comme fonction de récompense universelle pour entraîner n'importe quelle nouvelle politique de contrôle sur des tâches variées. L'enjeu est considérable pour les studios de jeux vidéo, les équipes de simulation robotique et les développeurs d'avatars en réalité virtuelle. Jusqu'ici, la méthode dominante reposait sur l'apprentissage par imitation adversariale, efficace mais contraignante : chaque nouveau contrôleur nécessitait un réentraînement complet du prior, et les données de référence devaient être conservées à chaque étape. SMP rompt avec cette logique en proposant un prior généraliste, modulable et composable. Les auteurs montrent qu'un seul modèle entraîné sur de larges datasets peut être redirigé vers des styles de mouvement spécifiques, et que plusieurs styles peuvent être composés pour en synthétiser de nouveaux, absents du dataset original. Cette avancée s'inscrit dans une tendance plus large d'adaptation des modèles de diffusion, popularisés en génération d'images, à d'autres modalités comme le mouvement corporel. Les méthodes adversariales, issues des GANs, ont longtemps dominé la synthèse de mouvements réalistes pour personnages humanoïdes simulés physiquement, mais leur manque de réutilisabilité freinait leur déploiement à grande échelle dans des pipelines de production. SMP propose une alternative modulaire qui pourrait simplifier le développement de personnages animés dans les moteurs physiques, sans sacrifier la qualité visuelle. Les résultats présentés sur une suite diversifiée de tâches de contrôle montrent des performances comparables aux meilleures méthodes adversariales actuelles.

RecherchePaper
1 source
Perception sémantique orientée objectif et sécurisée pour la robotique : communication et contrôle
308arXiv cs.RO 

Perception sémantique orientée objectif et sécurisée pour la robotique : communication et contrôle

Des chercheurs ont publié une étude sur arXiv (référence 2603.13502) portant sur la conception de systèmes robotiques connectés capables de traiter simultanément efficacité des tâches et sécurité opérationnelle. Leur approche, baptisée SA-GS (Safety-Aware Goal-oriented Semantic), repense la manière dont les robots échangent des données avec des serveurs distants via des liaisons sans fil. Plutôt que de transmettre l'intégralité des flux de données brutes, ce qui sature rapidement les canaux de communication et génère des latences critiques, le système extrait et envoie uniquement les représentations sémantiques pertinentes pour l'objectif en cours. L'étude présente une architecture complète et valide le concept avec un cas d'usage concret : un drone (UAV) chargé de suivre une cible en temps réel. Les résultats montrent que l'approche SA-GS améliore le taux de succès du suivi de plus de 4,5 fois et le taux de sécurité de plus de 2 fois par rapport aux méthodes conventionnelles. L'enjeu est significatif pour l'industrie robotique, notamment dans les applications où la fiabilité en temps réel est non négociable : drones de surveillance, robots industriels téléopérés, véhicules autonomes ou interventions en environnements dangereux. Jusqu'ici, la sécurité était principalement traitée comme un problème de contrôle en bout de chaîne, sans coordination avec les couches de perception et de communication. Cette fragmentation crée des angles morts : un robot peut recevoir une commande techniquement valide mais rendue dangereuse par une information sensorielle dégradée ou une transmission tardive. La co-conception proposée ici ferme cette boucle et permet d'intégrer les contraintes de sécurité dès la collecte des données. Cette recherche s'inscrit dans un mouvement plus large autour des communications sémantiques orientées objectif, un domaine en plein essor à l'intersection de l'IA, des réseaux 5G/6G et de la robotique autonome. La saturation des liaisons sans fil constitue un verrou persistant pour le déploiement à grande échelle de flottes de robots connectés. En réduisant la quantité de données transmises sans sacrifier la pertinence décisionnelle, l'approche SA-GS ouvre la voie à des systèmes plus résilients dans des environnements à connectivité contrainte. Les auteurs identifient plusieurs directions de recherche futures, notamment l'exécution sémantique des paquets de commande et contrôle, et suggèrent que leurs travaux pourraient s'étendre à des architectures multi-robots collaboratifs.

UELes avancées en communication sémantique orientée objectif pourraient alimenter les agendas européens sur la 5G/6G et la robotique autonome, mais aucun acteur français ou européen n'est impliqué dans cette étude arXiv.

RecherchePaper
1 source
Apprentissage par renforcement visuel centré sur l'agent face aux perturbations dynamiques
309arXiv cs.RO 

Apprentissage par renforcement visuel centré sur l'agent face aux perturbations dynamiques

Des chercheurs ont présenté dans un article arXiv (référence 2504.24661) un nouveau cadre d'apprentissage par renforcement visuel, baptisé ACO-MoE (Agent-Centric Observations with Mixture-of-Experts), conçu pour rendre les agents d'IA robustes face à des perturbations visuelles dynamiques et imprévisibles. Pour évaluer ce problème de manière rigoureuse, l'équipe a d'abord introduit le Visual Degraded Control Suite (VDCS), un benchmark qui étend la suite de référence DeepMind Control Suite en y intégrant des dégradations à commutation markovienne, simulant ainsi les perturbations non-stationnaires du monde réel, comme des corruptions qui changent de nature de façon imprévisible au fil du temps. Les expériences menées sur ce nouveau benchmark ont révélé des effondrements sévères des performances des méthodes existantes dans ces conditions. L'enjeu est considérable pour tous les systèmes d'IA qui apprennent à agir à partir d'images, notamment en robotique, en conduite autonome ou dans les environnements simulés utilisés pour l'entraînement. Les auteurs démontrent théoriquement, via une analyse en théorie de l'information, que cet échec provient d'un défaut fondamental des approches classiques : les objectifs basés sur la reconstruction mêlent inévitablement les artefacts de corruption aux représentations latentes de l'agent, l'empêchant de séparer ce qui est pertinent pour la tâche du bruit visuel. ACO-MoE résout ce problème en déployant des experts de restauration centrés sur l'agent, qui isolent d'abord le premier plan utile et éliminent les corruptions avant que l'agent ne traite l'observation. Résultat : sur VDCS, le système récupère 95,3 % des performances obtenues en conditions visuelles propres, même face aux corruptions à commutation markovienne les plus difficiles. Ce travail s'inscrit dans une préoccupation croissante de la communauté de l'apprentissage par renforcement visuel : les agents entraînés en simulation ou en laboratoire échouent fréquemment en conditions réelles à cause de variations visuelles non anticipées. Les benchmarks existants, dont DMControl, testaient essentiellement des perturbations statiques et prévisibles ; VDCS comble ce manque en modélisant des changements de régime dynamiques. ACO-MoE établit également de nouveaux résultats état de l'art sur DMControl Generalization avec des perturbations de couleur aléatoire et de fond vidéo, deux scénarios classiques du domaine, ce qui suggère que l'approche pourrait s'imposer comme référence pour la robustesse des agents visuels dans des environnements ouverts.

RecherchePaper
1 source
Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints
310arXiv cs.RO 

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov. L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation. La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

RecherchePaper
1 source
PhysCodeBench : évaluation de la simulation symbolique 3D physique par affinement multi-agents auto-correctif
311arXiv cs.RO 

PhysCodeBench : évaluation de la simulation symbolique 3D physique par affinement multi-agents auto-correctif

Une équipe de chercheurs vient de publier PhysCodeBench, le premier benchmark dédié à l'évaluation de la simulation symbolique physiquement réaliste de scènes 3D. Ce jeu d'évaluation comprend 700 échantillons construits manuellement, couvrant trois domaines de la physique : la mécanique classique, la dynamique des fluides et la physique des corps mous. Chaque échantillon a été annoté par des experts et soumis à un double critère d'évaluation : l'exécutabilité du code généré d'une part, et sa précision physique d'autre part, mesurée à la fois de manière automatique et visuelle. Dans ce cadre, les chercheurs ont également développé SMRF (Self-Corrective Multi-Agent Refinement Framework), une architecture composée de trois agents spécialisés, un générateur de simulation, un correcteur d'erreurs et un raffineur, qui collaborent de façon itérative pour produire des environnements de simulation fidèles aux lois physiques. SMRF obtient un score global de 67,7 points, contre 36,3 points pour le meilleur modèle de référence testé, soit un gain de 31,4 points. Cet écart de performance n'est pas anodin : il illustre les limites profondes des grands modèles de langage actuels face à la traduction de descriptions physiques en code de simulation exécutable et précis. Pour la robotique et l'IA incarnée, cette capacité est fondamentale, un robot qui planifie ses actions dans un environnement virtuel doit pouvoir s'appuyer sur des simulations fidèles à la réalité physique. Le fait que l'architecture multi-agents surpasse significativement les approches à agent unique montre que la correction itérative des erreurs, plutôt que la génération directe, est la clé pour combler ce fossé sémantique. Ce travail s'inscrit dans une tendance plus large visant à spécialiser les LLM pour des domaines scientifiques exigeants, où la précision factuelle dépasse les capacités de la génération de texte généraliste. Jusqu'à présent, aucun benchmark standardisé ne permettait de mesurer la qualité de la simulation physique générée par IA, rendant les comparaisons entre systèmes impossibles. PhysCodeBench comble ce vide et ouvre la voie à des évaluations rigoureuses dans des secteurs comme la simulation industrielle, la recherche en robotique ou le calcul scientifique, où les modèles devront prochainement rivaliser avec des moteurs physiques spécialisés.

RecherchePaper
1 source
Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux
312arXiv cs.RO 

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub. Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux. Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

RecherchePaper
1 source
Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores
313arXiv cs.RO 

Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores

Des chercheurs ont publié sur arXiv un article (référence 2604.24487) présentant un nouveau cadre algorithmique baptisé SGVF, pour Score-Induced Guiding Vector Field. L'objectif : améliorer radicalement la capacité des robots à suivre des trajectoires complexes, là où les méthodes classiques s'effondrent. Le SGVF exploite les modèles génératifs à base de score, une famille de techniques issues des modèles de diffusion, pour construire des champs de vecteurs directement à partir de distributions de données. Le système apprend des champs tangents depuis des nuages de points en appliquant trois contraintes géométriques : norme unitaire, orthogonalité et cohérence directionnelle. Des expériences menées sur des environnements de navigation robotique planaire démontrent que le SGVF réussit là où les champs de vecteurs classiques échouent. Le code source et une vidéo de démonstration sont disponibles sur GitHub. Cette avancée répond à une limitation structurelle des Guiding Vector Fields traditionnels : ils supposent que les trajectoires sont lisses, ordonnées et mono-branche. Dès qu'un chemin est non ordonné, multi-branche ou issu d'un modèle probabiliste, ces méthodes classiques deviennent inutilisables. Le SGVF, en apprenant directement depuis les données, s'affranchit de la segmentation manuelle des trajectoires et gère des topologies complexes comme les bifurcations ou les pseudo-variétés. Pour la robotique mobile et les systèmes de navigation autonome, c'est un changement de paradigme : il devient possible de guider un robot le long de chemins que l'on ne pourrait pas décrire analytiquement à l'avance. Les modèles de diffusion ont révolutionné la génération d'images et de texte au cours des trois dernières années, mais leur application au contrôle géométrique et à la robotique reste un territoire en friche. Ce travail établit un lien théorique formel entre la disparition du score dans les modèles de diffusion et les singularités des champs de vecteurs guidants, posant ainsi des bases mathématiques solides pour un pont entre l'IA générative et le contrôle géométrique. Les enjeux dépassent la navigation planaire : à terme, ces techniques pourraient s'appliquer à des robots évoluant dans des environnements tridimensionnels, ou à la planification de mouvements dans des espaces de configuration complexes. La communauté robotique dispose désormais d'une piste sérieuse pour intégrer la puissance des modèles génératifs modernes dans des systèmes de contrôle rigoureux.

RecherchePaper
1 source
Concevoir des robots pour renforcer le lien parent-enfant : opportunités de la communication par robot interposé
314arXiv cs.RO 

Concevoir des robots pour renforcer le lien parent-enfant : opportunités de la communication par robot interposé

Des chercheurs en robotique ont publié une étude explorant comment les robots pourraient renforcer les liens entre parents et enfants, plutôt que de les remplacer. Présentée dans un article soumis à arXiv (référence 2604.23976), cette recherche a mobilisé deux protocoles distincts impliquant des familles avec des enfants de 5 à 12 ans. Une première phase d'exploration s'est déroulée directement au domicile de six familles, à l'aide de prototypes technologiques placés dans leur environnement quotidien. Ces observations ont permis d'identifier deux variables clés à tester : le comportement du robot (passif, réactif ou proactif) et le mode de communication entre les membres de la famille (synchrone ou asynchrone). Une seconde étude en laboratoire a ensuite impliqué 20 familles pour mesurer l'impact de ces paramètres sur la qualité des échanges parent-enfant. Les résultats montrent que les familles se sont approprié les échanges médiatisés par le robot de manières très variées, révélant des tensions autour de questions d'initiative, de timing et de vie privée. Selon le comportement programmé du robot, les dynamiques d'interaction changeaient sensiblement : un robot proactif pouvait initier des échanges, tandis qu'un robot passif attendait que l'humain prenne les rênes. Ces nuances ont des implications concrètes pour les familles où les parents sont souvent absents ou peu disponibles, comme dans les foyers avec des horaires de travail décalés ou des situations de séparation parentale. Cette recherche s'inscrit dans un débat plus large sur le rôle des technologies dans la vie familiale. Alors que les smartphones, écrans et assistants vocaux sont régulièrement accusés d'isoler les individus les uns des autres, ces travaux ouvrent une piste alternative : concevoir des outils numériques qui favorisent activement la connexion humaine. La robotique sociale, encore marginale dans les foyers, pourrait ainsi trouver un créneau utile au-delà de l'assistance aux personnes âgées ou du divertissement. Les prochaines étapes de ce programme de recherche pourraient inclure des tests sur des durées plus longues et dans des contextes familiaux plus diversifiés, notamment en situation de garde alternée ou de distance géographique.

UELes chercheurs européens en robotique sociale pourraient s'appuyer sur ces travaux pour développer des prototypes adaptés aux réalités familiales françaises, notamment dans le contexte des familles recomposées ou à horaires décalés.

RechercheActu
1 source
Système automatique de prévention des collisions au sol par apprentissage par renforcement
315arXiv cs.RO 

Système automatique de prévention des collisions au sol par apprentissage par renforcement

Des chercheurs ont publié sur arXiv une étude évaluant un système automatique d'évitement de collision avec le sol (AGCAS) basé sur l'intelligence artificielle et l'apprentissage par renforcement, conçu spécifiquement pour les avions d'entraînement avancés. Le système, développé pour répondre aux contraintes temporelles strictes du vol militaire, repose sur des requêtes de ligne de visée vers un serveur de terrain pour calculer en temps réel la trajectoire de récupération optimale. L'approche se distingue par sa capacité à fonctionner dans un espace d'observation limité, ce qui représente un défi technique majeur pour les systèmes embarqués soumis à des ressources de calcul contraintes. L'enjeu est directement opérationnel : les collisions avec le relief en vol dit CFIT (Controlled Flight Into Terrain) restent l'une des principales causes de pertes d'appareils militaires, y compris lors de phases d'entraînement. Un AGCAS efficace peut déclencher une manoeuvre de redressement automatique lorsque le pilote est incapacité, désorienté ou distrait, sans nécessiter d'intervention humaine. L'intégration de l'apprentissage par renforcement permet au système d'adapter ses décisions à des configurations de terrain variées et imprévues, là où les systèmes à règles fixes atteignent leurs limites. Pour les forces aériennes utilisant des jets d'entraînement avancés comme le T-38 ou des équivalents, une telle technologie pourrait réduire significativement les accidents évitables. Ce travail s'inscrit dans une tendance de fond : l'armée américaine et plusieurs agences de défense occidentales investissent massivement dans l'IA embarquée pour l'aviation militaire depuis plusieurs années, avec des programmes comme le DARPA Air Combat Evolution (ACE). L'AGCAS n'est pas un concept nouveau, la version traditionnelle équipe déjà certains F-16 de l'USAF, mais son adaptation par apprentissage par renforcement ouvre la voie à des systèmes plus génériques et adaptables. La prochaine étape sera de valider ces résultats en simulation haute-fidélité, puis potentiellement en vol réel, avant toute intégration sur des plateformes opérationnelles.

UELes armées de l'air européennes, dont l'armée de l'Air et de l'Espace française, pourraient s'appuyer sur ces travaux pour développer des systèmes anti-collision terrain plus adaptatifs sur leurs appareils d'entraînement militaires.

RecherchePaper
1 source
INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG
316arXiv cs.RO 

INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG

Des chercheurs ont présenté INHerit-SG, un nouveau système de représentation sémantique des environnements 3D destiné à améliorer la navigation des robots autonomes. Publié sur arXiv (2502.12971v2), ce travail propose une architecture dite "à double flux asynchrone" qui transforme un environnement physique en une base de connaissances structurée, compatible avec les techniques de récupération augmentée par génération (RAG). Concrètement, le système construit en continu un graphe de scène sémantique : chaque nœud du graphe représente un objet ou une zone, stocke un résumé en langage naturel, et peut être interrogé par du texte, comme on interrogerait une base documentaire. La segmentation géométrique et le raisonnement sémantique sont délibérément découplés pour ne pas ralentir la cartographie. Un pipeline de récupération interprétable, combinant plusieurs LLMs spécialisés et une étape de vérification visuelle, filtre les faux positifs avant de répondre à une requête. L'impact est significatif pour la robotique de service et les agents incarnés : jusqu'ici, les systèmes existants peinaient à traiter des requêtes complexes du type "trouve l'objet rouge qui n'est pas sur la table et qui se trouve à gauche du canapé". INHerit-SG atteint des performances à l'état de l'art sur ce type de requêtes à contraintes spatiales chaînées ou formulées avec des négations, deux cas précisément où les approches antérieures échouaient. Les évaluations ont été conduites sur HM3DSem-SQR, un nouveau benchmark spécifiquement conçu pour ces requêtes sémantiques complexes, ainsi que dans des environnements réels. Ce travail s'inscrit dans une vague de recherche qui cherche à doter les robots d'une compréhension de haut niveau de leur environnement, au-delà des simples cartes géométriques. L'intégration des grands modèles de langage dans la boucle de raisonnement spatial est un axe très actif depuis 2023, porté notamment par des travaux comme ConceptGraphs ou SayPlan. INHerit-SG se distingue par sa mise à jour incrémentale et asynchrone, qui permet une utilisation en temps réel sans bloquer la cartographie. Les prochaines étapes naturelles concernent la robustesse dans des environnements très dynamiques et la généralisation à des plateformes robotiques variées.

RecherchePaper
1 source
M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
317arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source
ARETE : estimation de topologie par encodage rastérisé basé sur l'attention, sur données HSV de flottes de véhicules participatives
318arXiv cs.RO 

ARETE : estimation de topologie par encodage rastérisé basé sur l'attention, sur données HSV de flottes de véhicules participatives

Des chercheurs ont publié ARETE (Attention-based Rasterized Encoding for Topology Estimation), un nouveau système capable de générer automatiquement des cartes haute définition pour la conduite autonome à partir de données collectées par une flotte de véhicules en circulation. La méthode repose sur un modèle de type DETR (Detection Transformer), une architecture d'apprentissage profond initialement développée pour la détection d'objets, ici adaptée pour prédire la topologie des routes. Concrètement, le système extrait des tuiles locales à partir des trajectoires GPS agrégées de nombreux véhicules, transforme ces données en représentations rasterisées encodant à la fois la présence et la direction de chaque trajectoire, puis prédit les lignes centrales de voies et les séparateurs de lignes sous forme vectorisée. Les expériences ont été conduites sur un dataset interne ainsi que sur les jeux de données publics nuScenes et nuPlan, deux références du secteur. L'enjeu est considérable pour l'industrie de la conduite autonome : les cartes HD constituent une couche d'information critique pour la planification de trajectoire, la localisation précise et la prise de décision en temps réel des véhicules autonomes. Les maintenir à jour est un problème opérationnel majeur, car les routes évoluent en permanence. En exploitant des données crowdsourcées issues de flottes existantes plutôt que des capteurs LiDAR embarqués coûteux ou des équipes de cartographie dédiées, ARETE ouvre une voie vers une mise à jour continue et à grande échelle des cartes, potentiellement bien moins onéreuse que les approches traditionnelles. La génération de cartes HD à partir de données participatives n'est pas nouvelle, mais les approches précédentes peinent souvent à extraire des représentations structurées et précises des voies depuis des trajectoires bruitées et hétérogènes. L'originalité d'ARETE réside dans la transformation HSV des trajectoires agrégées, qui permet de mieux coder la directionnalité du trafic, couplée à l'architecture attention-based qui gère nativement les relations spatiales complexes entre voies. Des acteurs comme Waymo, Mobileye ou TomTom investissent massivement dans des pipelines similaires, et cette publication suggère que la communauté académique converge vers des solutions hybrides combinant données crowdsourcées et apprentissage profond structuré comme alternative crédible aux relevés terrain.

UELes résultats pourraient intéresser les acteurs européens de la cartographie HD comme TomTom, qui investissent dans des pipelines similaires de mise à jour automatisée des cartes pour véhicules autonomes.

RecherchePaper
1 source
Prédiction collaborative de trajectoires par fusion tardive
319arXiv cs.RO 

Prédiction collaborative de trajectoires par fusion tardive

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau cadre de prédiction collaborative des trajectoires pour véhicules autonomes, baptisé "late fusion". L'idée centrale consiste à faire coopérer plusieurs véhicules connectés en partageant non plus des cartes de caractéristiques perceptuelles volumineuses, mais directement les prédictions de trajectoires déjà calculées par chaque véhicule individuellement. Le système a été évalué sur trois jeux de données de référence du domaine : OPV2V, V2V4Real et DeepAccident. Sur le dataset réel V2V4Real, la fusion tardive améliore le taux de succès de trajectoire de 1,69 % et 1,22 % pour les deux véhicules intelligents impliqués, par rapport à une prédiction purement individuelle. Cette approche répond à un problème concret qui freine le déploiement des systèmes V2V en conditions réelles : l'échange de représentations de haute dimension entre véhicules consomme une bande passante considérable et suppose une synchronisation parfaite entre les agents, deux hypothèses rarement vérifiées sur route. En déplaçant la collaboration vers le module de prédiction plutôt que vers la perception, le volume de données échangées chute drastiquement. La robustesse du système face aux occlusions, aux angles morts et aux erreurs de capteurs s'en trouve également améliorée, puisque chaque véhicule apporte une perspective complémentaire sur les agents trafic à risque. La prédiction de trajectoire est l'un des verrous les plus critiques de la conduite autonome : anticiper le comportement des autres usagers de la route conditionne directement la sécurité des décisions de freinage et d'évitement. Les méthodes existantes de fusion collaborative, dites "early" ou "intermediate fusion", ont certes démontré leur efficacité en simulation, mais peinent à passer à l'échelle dans des environnements aux ressources réseau limitées. Ce travail, agnostique au modèle sous-jacent de prédiction, ouvre la voie à une intégration modulaire dans des pipelines autonomes existants. La prochaine étape logique sera de tester cette approche sur des flottes hétérogènes à grande échelle et dans des scénarios urbains denses où les occlusions sont les plus fréquentes.

UELes travaux sur la coopération V2V en conditions réseau réelles alimentent indirectement les débats réglementaires européens sur les véhicules connectés et autonomes, sans impact direct sur la France ou l'UE.

RecherchePaper
1 source
Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle
320arXiv cs.RO 

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle

Des chercheurs ont publié sur arXiv une étude portant sur une nouvelle approche de localisation intérieure basée sur le champ magnétique et les réseaux de neurones convolutifs. L'équipe a développé deux architectures, MagNetS et MagNetXL, fondées sur un CNN dilated à 7 couches, entraîné pour prédire directement les coordonnées (x, y) d'un utilisateur à l'intérieur d'un bâtiment à partir de séquences de données magnétiques. Les expériences ont été conduites sur le jeu de données MagPie, couvrant trois bâtiments distincts, Loomis, Talbot et CSL, avec des trajectoires enregistrées en main libre. Le constat central : les modèles entraînés sur les trois axes bruts du magnétomètre (Mx, My, Mz) voient leur précision se dégrader dès qu'un appareil est tenu avec une orientation différente de celle utilisée lors de l'entraînement, avec des erreurs croissantes à partir de 0°, 5° et 6° selon le bâtiment. Pour contourner ce problème, les chercheurs ont remplacé les trois canaux bruts par deux features invariantes à la rotation : la norme du champ magnétique (Mn) et sa projection sur l'axe de gravité (Mg). Ce passage de 3D à 2D, bien que réduisant le volume d'information, améliore la robustesse sans recourir à aucune infrastructure supplémentaire. MagNetXL atteint ou dépasse l'état de l'art sur MagPie, tandis que MagNetS offre des performances comparables avec seulement un tiers des paramètres, ce qui le rend adapté au déploiement sur appareils mobiles. L'invariance à la rotation permet ainsi de cartographier et de se localiser sans avoir à aligner l'orientation du téléphone, ce qui représente un gain concret pour les applications grand public. La localisation intérieure reste un problème non résolu malgré des décennies de travaux, faute de GPS utilisable à l'intérieur. Les approches par empreintes magnétiques séduisent par leur absence de coût d'infrastructure, mais souffrent historiquement de leur sensibilité à la position du téléphone dans la main. Cette étude s'inscrit dans un effort plus large pour rendre ces systèmes utilisables en conditions réelles, où les utilisateurs ne tiennent pas leur appareil de façon constante. Les résultats ouvrent la voie à des applications concrètes : navigation dans les hôpitaux, centres commerciaux, aéroports ou entrepôts, sans déployer de balises Wi-Fi ou Bluetooth.

RecherchePaper
1 source
Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données
321arXiv cs.RO 

Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données

Des chercheurs ont présenté RINSE (Ranking and INdexing Smooth Examples), un cadre léger pour évaluer automatiquement la qualité des démonstrations utilisées dans l'apprentissage par imitation robotique. Publié sur arXiv (référence 2604.23000), le système s'appuie sur deux métriques complémentaires : SAL (Spectral Arc Length), qui mesure la régularité fréquentielle d'une trajectoire, et TED (Trajectory-Envelope Distance), qui quantifie les déviations spatiales en tenant compte des points de contact. Ancré dans la théorie du contrôle moteur, RINSE postule que la fluidité du mouvement est un indicateur fiable d'expertise opérateur. Sur les benchmarks RoboMimic, le filtrage par SAL atteint un taux de succès supérieur de 16% en n'utilisant qu'un sixième des données initiales ; sur des tâches de manipulation réelle, TED améliore les performances de 20% avec seulement la moitié des données. Intégré dans le pipeline STRAP sur le benchmark LIBERO-10, RINSE améliore encore le taux de succès moyen de 5,6%. L'enjeu est considérable pour la robotique apprenante. Le clonage comportemental, méthode standard d'apprentissage par imitation, traite toutes les démonstrations à égalité, sans distinguer opérateurs habiles et débutants. Cette indifférence à la qualité plafonne les performances et limite la généralisation des modèles en conditions réelles. Les méthodes de curation existantes exigent soit un entraînement coûteux en boucle fermée, soit une annotation manuelle, freinant leur passage à l'échelle. RINSE contourne ces obstacles en opérant directement sur les trajectoires brutes, sans dépendance à une architecture particulière. Ses scores présentent une corrélation très élevée avec les allocations apprises par la méthode Re-Mix (Spearman rho supérieur ou égal à 0,89), validant leur pertinence comme signal de qualité universel. Ce travail reflète une prise de conscience croissante dans le domaine : la qualité des données d'entraînement est aussi déterminante que l'architecture des modèles. Alors que de grandes entreprises et laboratoires investissent massivement dans la collecte de démonstrations pour des robots généralistes, capables d'opérer dans des environnements industriels ou domestiques, disposer d'outils automatiques pour trier de vastes corpus hétérogènes devient stratégique. En ancrant sa méthode dans des principes neuromoteurs établis plutôt que dans des heuristiques ad hoc, RINSE ouvre la voie à des pipelines de curation plus robustes, applicables aussi bien au filtrage qu'à la pondération des données dans des régimes d'imitation à grande échelle.

RecherchePaper
1 source
L'altérité comme qualité dans la conception du toucher expressif des robots
322arXiv cs.RO 

L'altérité comme qualité dans la conception du toucher expressif des robots

Des chercheurs en interaction homme-robot ont publié début 2025 un article présenté à la communauté scientifique sous la référence arXiv:2604.23402, proposant une rupture conceptuelle dans la façon de concevoir le toucher robotique. Leur constat de départ est simple : la majorité des recherches actuelles sur les interfaces haptiques se concentrent sur l'imitation des sensations naturelles, reproduire le grain d'une surface, simuler une poignée de main, mimer le contact humain. Cette course à la réalisme, selon les auteurs, rétrécit inutilement l'espace des possibles et génère une résistance sociale, les utilisateurs percevant le toucher robotique comme une imitation imparfaite plutôt que comme une expérience à part entière. À la place, l'équipe défend l'idée que "l'altérité", la différence fondamentale du toucher robotique par rapport au toucher humain, devrait être considérée comme une qualité de conception à part entière, et non comme un défaut à corriger. En embrassant ce caractère autre, les designers peuvent créer des expériences tactiles ambiguës, évocatrices et expressives qui ne cherchent pas à tromper, mais à provoquer une interprétation nouvelle. Pour étayer cette thèse, les chercheurs ont analysé des précédents artistiques et quatre cas d'étude issus de la recherche par le design (Research through Design), une approche réflexive qui ancre la théorie dans la pratique créative. Ils en ont tiré un ensemble de langages de conception articulés autour de trois axes : pourquoi l'altérité enrichit la signification du toucher, comment la façonner par des stratégies de design concrètes, et où l'intégrer dans les systèmes robotiques. Ce travail s'inscrit dans un champ en pleine expansion : la robotique sociale et les interfaces haptiques avancées, portées par des investissements massifs de laboratoires et d'entreprises comme Meta, Apple ou des startups spécialisées comme HaptX. La question de l'acceptabilité sociale du toucher robotique devient critique à mesure que les robots d'assistance, les exosquelettes et les interfaces de réalité mixte entrent dans les espaces domestiques et médicaux. En proposant de sortir du paradigme de l'imitation, cet article ouvre une piste de recherche qui pourrait redéfinir la manière dont on conçoit l'interaction physique entre humains et machines dans les années à venir.

RechercheOpinion
1 source
EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage
323arXiv cs.RO 

EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage

Des chercheurs ont présenté EL3DD (Extended Latent 3D Diffusion), un cadre de politique visuomotrice conçu pour permettre aux robots d'exécuter des tâches de manipulation physique à partir de commandes en langage naturel. Le système fusionne des entrées visuelles et textuelles au sein de modèles de diffusion pour produire des trajectoires robotiques précises, en s'appuyant sur des démonstrations de référence pendant l'entraînement. Évalué sur le benchmark CALVIN, référence standard pour la manipulation robotique multi-tâches, le modèle affiche des performances améliorées sur l'ensemble des tâches testées et un taux de réussite accru sur les séquences longues, c'est-à-dire lorsque plusieurs tâches sont enchaînées consécutivement. L'approche étend un modèle existant grâce à des embeddings améliorés et à l'adaptation de techniques issues de la génération d'images par diffusion. Cette avancée est significative pour le domaine de la robotique généraliste, car la capacité à comprendre le langage naturel et à l'appliquer à des tâches physiques dans des environnements humains reste l'un des verrous majeurs du secteur. Le gain sur les séquences longues est particulièrement notable: dans des applications réelles, un robot domestique ou industriel doit enchaîner plusieurs gestes sans intervention humaine, et chaque erreur dans la séquence se propage aux suivantes. Un taux de réussite accru sur ces horizons prolongés rapproche les systèmes actuels d'une utilisabilité concrète hors laboratoire, que ce soit en logistique, en chirurgie assistée ou dans les services à domicile. La recherche s'inscrit dans un mouvement plus large d'application des modèles de diffusion, rendus célèbres par leur efficacité en génération d'images avec des systèmes comme Stable Diffusion ou DALL-E, au contrôle robotique. Le dataset CALVIN, utilisé pour l'évaluation, est conçu pour tester la généralisation des robots à des environnements variés et à des instructions formulées de multiples façons. EL3DD contribue ainsi au développement de politiques robotiques multi-tâches généralisables, un enjeu central pour des acteurs comme Google DeepMind, Physical Intelligence ou de nombreux laboratoires académiques travaillant sur les robots de prochaine génération.

RechercheActu
1 source
Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes
324arXiv cs.RO 

Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes

Des chercheurs ont publié le 28 avril 2026 sur arXiv un framework capable d'estimer avec précision le coefficient de frottement entre deux matériaux quelconques, sans avoir à les tester directement l'un contre l'autre. Le système, baptisé proxy-based modeling framework, repose sur un petit ensemble fixe de matériaux de référence, appelés proxies. Pour chaque nouveau matériau A, le modèle mesure son frottement contre ces quelques proxies, puis construit un vecteur d'embedding compact qui représente les propriétés tribologiques du matériau. Une fonction de fusion combine ensuite les embeddings de deux matériaux A et B pour prédire leur frottement mutuel, sans avoir jamais eu besoin de les mettre en contact direct. L'enjeu pratique est considérable : tester exhaustivement toutes les paires possibles d'une bibliothèque de matériaux requiert un nombre d'expériences qui croît de façon quadratique, rendant rapidement le processus coûteux et inaccessible. Ce framework réduit drastiquement le nombre de mesures nécessaires tout en maintenant une haute précision prédictive, y compris lorsque certaines données proxy sont manquantes ou bruitées. Les embeddings appris sont interprétables et fournissent des estimations d'incertitude calibrées, ce qui les rend directement exploitables dans des pipelines de décision automatisée en robotique, en fabrication numérique ou en simulation physique. La friction entre matériaux reste l'un des paramètres les plus difficiles à modéliser dans les systèmes physiques, car elle dépend de combinaisons de propriétés de surface rarement capturées par des descripteurs simples. Les approches existantes exigent soit des mesures exhaustives, soit des hypothèses fortes sur la structure des matériaux. Ce travail s'inscrit dans une tendance plus large qui cherche à apporter des garanties probabilistes aux modèles de simulation physique utilisés en robotique et en conception assistée. Les auteurs valident leur méthode à la fois sur des datasets simulés et sur des mesures expérimentales réelles, ouvrant la voie à des bibliothèques de matériaux généralisables à grande échelle avec un effort expérimental minimal.

RecherchePaper
1 source
Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique
325MarkTechPost 

Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique

Une équipe de chercheurs menée par Nick Levine, David Duvenaud et Alec Radford vient de publier Talkie-1930, un modèle de langage open-weight de 13 milliards de paramètres entraîné exclusivement sur des textes anglais antérieurs à 1931. Baptisé "vintage language model", le modèle a ingéré 260 milliards de tokens issus de livres, journaux, périodiques, revues scientifiques, brevets et décisions de justice datant d'avant le 31 décembre 1930. Cette date n'est pas choisie au hasard : elle correspond au seuil d'entrée dans le domaine public aux États-Unis, rendant ces textes légalement exploitables pour l'entraînement. Deux versions sont disponibles, une base (talkie-1930-13b-base) et une version ajustée pour la conversation (talkie-1930-13b-it), avec une démo accessible en continu sur talkie-lm.com/chat, où Claude Sonnet 4.6 interroge le modèle en temps réel. L'intérêt de Talkie ne réside pas dans la nostalgie, mais dans trois cas d'usage de recherche bien précis. D'abord, la contamination des benchmarks : tous les grands modèles modernes (GPT-4, LLaMA, Mistral) sont entraînés sur des crawls massifs du web contemporain, ce qui signifie que les jeux de test standard ont pu se retrouver dans leurs données d'entraînement, faussant les évaluations. Talkie, lui, est structurellement exempt de toute contamination vis-à-vis des benchmarks modernes. L'équipe a ainsi testé si le modèle pouvait apprendre Python, langage inexistant en 1930, à partir de quelques exemples en contexte : sur le benchmark HumanEval, il progresse de façon "lente mais régulière" avec l'échelle. Ensuite, le modèle permet d'étudier les capacités de prévision temporelle, en mesurant à quel point des événements historiques post-1930 le surprennent (en bits par byte) : les événements des années 1950 et 1960 sont ceux qui le déroute le plus, puis l'effet se stabilise. Enfin, le projet pose des questions fondamentales sur l'"identité" des LLM : tous les modèles actuels partagent une ascendance commune dans les données web, alors que Talkie rompt entièrement cette lignée. Ce projet s'inscrit dans un mouvement plus large de critique des méthodes d'évaluation en IA. La contamination des benchmarks est depuis plusieurs années un problème reconnu mais difficile à circonscrire, et les tentatives de créer des jeux de test inédits se heurtent toujours à la possibilité que les données aient filtré. L'approche "vintage" ouvre une voie alternative : ancrer le modèle dans un passé documenté et figé, ce qui transforme toute l'histoire moderne en terrain d'évaluation propre. Développé par une équipe à but non lucratif, Talkie-1930 pourrait devenir un outil de référence pour les chercheurs souhaitant tester la généralisation hors distribution, la robustesse des architectures Transformer, ou encore l'influence des données d'entraînement sur les comportements émergents des modèles.

UELes chercheurs européens travaillant sur l'évaluation des LLMs et la contamination des benchmarks peuvent utiliser Talkie-1930 comme outil de référence, sans impact institutionnel direct sur la France ou l'UE.

RecherchePaper
1 source
LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs
326Apple Machine Learning 

LaDiR : la diffusion latente améliore le raisonnement textuel des LLMs

Des chercheurs ont publié LaDiR (Latent Diffusion Reasoner), un nouveau cadre de raisonnement qui couple les grands modèles de langage existants à des modèles de diffusion latente. L'objectif : dépasser les limites inhérentes à la génération autoreégressive, en introduisant une étape de raffinement itératif dans un espace de représentation continu structuré, avant que le modèle ne produise sa réponse finale en texte. Le problème visé est fondamental. Lorsqu'un LLM génère token par token, il ne peut pas revenir modifier ce qu'il a déjà écrit, une contrainte qui pénalise les tâches de raisonnement complexes où la solution exige d'explorer plusieurs pistes et de corriger des erreurs en cours de route. LaDiR contourne cette limite en faisant "mûrir" le raisonnement dans un espace latent continu, via un processus de diffusion, avant de le transcrire en langage naturel. Cela permet une exploration plus diverse et un affinement global de la chaîne de pensée, impossible avec le décodage autorégressif classique. L'approche s'inscrit dans une vague de recherches cherchant à améliorer le raisonnement des LLMs au-delà du simple chain-of-thought (CoT), popularisé notamment par les modèles o1 d'OpenAI et R1 de DeepSeek. Contrairement aux méthodes qui allongent simplement le texte intermédiaire, LaDiR exploite l'espace continu des représentations pour structurer ce raisonnement de façon plus riche. La compatibilité avec des modèles existants, sans réentraînement complet, constitue un avantage pratique notable si les résultats se confirment sur des benchmarks de référence.

RecherchePaper
1 source
Mécanismes locaux de généralisation compositionnelle dans la diffusion conditionnelle
327Apple Machine Learning 

Mécanismes locaux de généralisation compositionnelle dans la diffusion conditionnelle

Des chercheurs ont publié une étude portant sur la généralisation compositionnelle dans les modèles de diffusion conditionnels, ces systèmes capables de générer des images à partir de descriptions textuelles ou d'autres signaux. L'équipe s'est concentrée sur un cas précis : la généralisation par longueur, c'est-à-dire la capacité d'un modèle à produire des images contenant davantage d'objets que ceux rencontrés lors de l'entraînement. Pour tester cela de manière rigoureuse, les chercheurs ont utilisé le jeu de données CLEVR, un environnement de référence en vision artificielle introduit par Johnson et al. en 2017, qui représente des scènes de formes géométriques simples avec des propriétés contrôlables. Les résultats révèlent une réalité nuancée : la généralisation est possible dans certains cas, mais échoue dans d'autres. Cela suggère que ces modèles n'apprennent que ponctuellement la structure compositionnelle sous-jacente aux données, et non de manière systématique. Pour les équipes qui déploient des modèles génératifs en production, notamment dans la création visuelle ou la synthèse de données d'entraînement, cela soulève des questions importantes sur la fiabilité réelle de ces systèmes face à des entrées hors distribution. Cette recherche s'inscrit dans un débat plus large sur ce que les modèles génératifs apprennent vraiment, au-delà de la simple mémorisation de patterns. Comprendre les mécanismes locaux qui permettent ou bloquent la généralisation est essentiel pour concevoir des architectures plus robustes. Les auteurs annoncent une investigation plus poussée de ces mécanismes, ce qui devrait alimenter les travaux sur l'interprétabilité et la conception de modèles de diffusion de prochaine génération.

RecherchePaper
1 source
Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM
328MarkTechPost 

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto
1 source
Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines
329VentureBeat AI 

Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines

Des chercheurs du Generative Artificial Intelligence Research Lab (SII-GAIR) ont présenté ASI-EVOLVE, un cadre agentique conçu pour automatiser l'ensemble du cycle de recherche et développement en intelligence artificielle. Le système opère en boucle continue selon quatre étapes, apprentissage, conception, expérimentation, analyse, et prend en charge simultanément trois piliers fondamentaux du développement IA : les données d'entraînement, les architectures de modèles et les algorithmes d'apprentissage. Lors des premières expérimentations, ASI-EVOLVE a généré de nouvelles architectures de modèles de langage, optimisé des pipelines de pré-entraînement pour améliorer les scores de référence de plus de 18 points, et conçu des algorithmes de renforcement nettement plus efficaces, surpassant dans chaque cas les configurations élaborées par des ingénieurs humains. Ce type de système répond à un problème structurel qui ralentit toute la recherche en IA : les équipes d'ingénierie ne peuvent explorer qu'une fraction infime de l'espace des configurations possibles. Chaque cycle d'expérimentation exige des interventions manuelles coûteuses, mobilise des dizaines voire des centaines d'heures de GPU, et les enseignements tirés restent souvent cloisonnés dans l'expérience individuelle des chercheurs, difficiles à capitaliser ou à transmettre. En automatisant cette boucle, ASI-EVOLVE libère les équipes de la charge opérationnelle répétitive et accélère mécaniquement le rythme d'innovation. Pour les organisations qui itèrent fréquemment sur leurs systèmes IA, le gain potentiel est à la fois en temps d'ingénierie et en qualité des résultats. L'architecture repose sur deux composants centraux. La "Cognition Base" fonctionne comme une mémoire experte préchargée : elle intègre des connaissances humaines issues de la littérature scientifique, des heuristiques propres à chaque tâche, et un catalogue des pièges connus, ce qui oriente les explorations dès la première itération plutôt que de repartir de zéro. L'"Analyzer" prend en charge le retour d'expérience multidimensionnel des expériences, logs d'entraînement bruts, résultats de benchmarks, traces d'efficacité computationnelle, pour en distiller des analyses causales réutilisables. Ce travail s'inscrit dans un contexte où l'IA commence à s'attaquer à la découverte scientifique, d'AlphaFold aux systèmes agentiques généralistes, mais où la recherche ouverte sur les fondations mêmes de l'IA reste un défi à part entière. ASI-EVOLVE représente l'une des premières démonstrations concrètes qu'un système unifié peut progresser simultanément sur les trois axes constitutifs du développement de modèles, ouvrant la voie à une automatisation plus profonde du cycle de R&D en IA.

RecherchePaper
1 source
L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger
330VentureBeat AI 

L'ajustement fin du RAG peut réduire silencieusement la précision de récupération de 40 %, mettant les pipelines à base d'agents en danger

Des chercheurs de Redis ont publié une étude révélant qu'affiner les modèles d'embeddings pour améliorer la précision d'un système RAG peut réduire silencieusement la qualité de récupération générale jusqu'à 40 %. Le papier, intitulé "Training for Compositional Sensitivity Reduces Dense Retrieval Generalization", a été conduit par Srijith Rajamohan, responsable de la recherche en IA chez Redis, et ses coauteurs. L'équipe a testé ce qui se produit lorsqu'on entraîne un modèle d'embedding à détecter des phrases quasi-identiques mais de sens opposé, par exemple une négation qui inverse complètement la signification d'une phrase. Résultat : cette sensibilité compositionnelle améliore effectivement la précision ciblée, mais détruit la capacité du modèle à récupérer correctement des documents sur des sujets variés qu'il n'a pas appris à traiter spécifiquement. La dégradation atteint 8 à 9 % sur les petits modèles, et jusqu'à 40 % sur un modèle d'embedding de taille intermédiaire actuellement utilisé en production dans de nombreuses entreprises. Les conséquences sont particulièrement sévères pour les pipelines agentiques, où une erreur de récupération ne renvoie pas seulement une mauvaise réponse mais déclenche une cascade d'actions incorrectes en aval. Rajamohan résume le problème central : une forte similarité sémantique ne garantit pas une correspondance exacte d'intention. Les modèles d'embeddings compressent une phrase entière en un seul point dans un espace vectoriel à haute dimension, ce qui fonctionne bien pour la correspondance thématique large, mais échoue quand deux phrases aux mots presque identiques ont des significations opposées. En affinant le modèle pour éloigner ces phrases structurellement différentes, on lui retire l'espace vectoriel qu'il utilisait pour la récupération générale. Les deux objectifs se disputent les mêmes dimensions. L'étude note également que certaines erreurs, notamment les confusions de liaisons grammaticales (quel modificateur s'applique à quel mot dans un contrat, par exemple), ne s'améliorent presque pas avec cet entraînement ciblé, précisément là où une erreur coûte le plus cher. Ce qui rend le problème difficile à diagnostiquer, c'est que les métriques d'évaluation mesurent uniquement la tâche entraînée, pas la régression sur la récupération générale. Elle n'apparaît qu'en production. Les solutions habituelles, comme la recherche hybride combinant embeddings et mots-clés, ou le passage à un modèle plus grand, ne règlent pas le problème architectural sous-jacent. Rajamohan est explicite : "On ne peut pas s'en sortir par la taille." La recherche suggère que les équipes enterprise doivent choisir explicitement entre précision compositionnelle et généralisation large, plutôt que d'optimiser pour l'une en ignorant l'impact sur l'autre. L'enjeu dépasse le seul RAG classique, car les architectures agentiques qui prolifèrent en 2025 et 2026 amplifient chaque erreur de récupération en décision opérationnelle.

UELes entreprises européennes déployant des pipelines RAG agentiques en production sont exposées à ce risque de dégradation silencieuse et doivent revoir leur stratégie d'évaluation des embeddings.

RecherchePaper
1 source
Meta AI lance Sapiens2 : un modèle de vision haute résolution centré sur l'humain
331MarkTechPost 

Meta AI lance Sapiens2 : un modèle de vision haute résolution centré sur l'humain

Meta AI a publié Sapiens2, la deuxième génération de son modèle de vision centré sur les humains, entraîné sur un milliard d'images humaines baptisé Humans-1B. Le modèle existe en quatre tailles allant de 0,4 milliard à 5 milliards de paramètres, opère nativement en résolution 1K et dispose de variantes hiérarchiques capables de traiter des images en 4K. La version à 5 milliards de paramètres est, selon l'équipe de recherche, le transformeur de vision le plus lourd jamais publié avec 15,722 téraflops. Sapiens2 couvre simultanément plusieurs tâches : estimation de pose, segmentation, calcul des normales de surface, reconstruction de la géométrie (pointmap) et estimation de l'albédo, c'est-à-dire la couleur vraie d'une surface indépendamment de l'éclairage. Ces résultats sont décrits dans un article préimprimé mis en ligne fin avril 2026 sur arXiv. L'intérêt de Sapiens2 réside dans sa capacité à traiter la complexité du corps humain à grande échelle, là où les modèles généralistes échouent régulièrement. Distinguer les doigts d'une main, les dents des gencives, ou encore reconstituer la couleur de peau réelle sous un éclairage complexe sont des tâches que les approches classiques gèrent mal. En combinant deux objectifs d'entraînement complémentaires, un apprentissage par masquage (MAE) pour conserver la fidélité des détails fins, et un apprentissage contrastif basé sur une architecture étudiant-professeur dérivée de DINOv3 pour structurer les représentations sémantiques, Meta a résolu un problème que les chercheurs appellent la dérive de représentation : les méthodes contrastives seules effacent des indices d'apparence critiques comme le teint ou les conditions lumineuses, rendant certaines tâches photoréalistes impossibles. L'équipe a contourné ce problème en n'appliquant pas les augmentations de couleur sur les vues globales utilisées pour l'objectif MAE. Le premier Sapiens, sorti en 2024, reposait uniquement sur le préentraînement MAE, une approche efficace pour les détails de texture mais limitée sur le plan sémantique. Pour construire Humans-1B, Meta est parti d'un pool web d'environ 4 milliards d'images, puis a appliqué un pipeline de filtrage en plusieurs étapes incluant détection de boîtes englobantes, estimation de pose de la tête, scores d'esthétique et de réalisme, filtrage par CLIP et détection de texte superposé. La déduplication a été réalisée par hachage perceptuel et élagage par plus proche voisin en espace de features profondes, avant un rééchantillonnage par clusters pour équilibrer poses, occlusions, types de vêtements et conditions d'éclairage. Pour la résolution 4K, l'équipe a adopté une attention locale par fenêtres dans les premières couches du transformeur, permettant de capturer textures fines et contours sans exploser le coût de calcul quadratique de l'attention globale. Sapiens2 positionne Meta comme acteur sérieux dans la vision humaine haute résolution, un domaine stratégique pour la réalité augmentée, le gaming, et les interfaces corporelles.

RecherchePaper
1 source
Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets
332arXiv cs.RO 

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Des chercheurs ont publié sur arXiv (référence 2512.22519v2) un cadre baptisé OBEYED-VLA, acronyme de OBject-centric and gEometrY groundED VLA, conçu pour rendre les modèles Vision-Language-Action robustes aux environnements encombrés. L'évaluation a été conduite sur un bras UR10e d'Universal Robots en configuration tabletop réelle, selon quatre régimes de difficulté croissante : présence d'objets distracteurs, rejet de cible absente, variation d'arrière-plan, et manipulation en environnement encombré d'objets non vus à l'entraînement. Le modèle est entraîné exclusivement sur des démonstrations d'objets isolés, sans fouillis ni objets parasites lors de la collecte des données. L'architecture se décompose en deux étages : un module de grounding objet-centrique basé sur un VLM qui sélectionne les régions pertinentes sur plusieurs vues caméra, suivi d'un module de grounding géométrique qui encode la structure 3D de ces objets plutôt que leur apparence brute. L'intérêt industriel est direct : les VLA actuels, malgré leurs performances en conditions contrôlées, échouent de manière systématique dès que la scène s'éloigne du contexte d'entraînement. Le sur-graspinq en l'absence de la cible, la distraction par des objets voisins et l'overfitting à l'arrière-plan sont des défauts documentés qui bloquent le passage du laboratoire à la cellule de production. OBEYED-VLA démontre qu'en découplant explicitement la perception de la commande, au lieu de les fondre dans un pipeline monolithique optimisé pour l'action, il est possible d'améliorer substantiellement la généralisation sans réentraîner le modèle VLA sous-jacent depuis zéro. Les ablations confirment que ni le grounding sémantique ni le grounding géométrique ne suffisent seuls : les deux étages sont nécessaires. Ce travail s'inscrit dans la course à la robustesse des VLA post-entraînés, un chantier où s'affrontent des approches comme OpenVLA, Octo, ou Pi-0 de Physical Intelligence. La plupart des VLA actuels héritent d'un paradigme end-to-end qui maximise les performances sur benchmarks propres mais peine à gérer la variabilité du monde réel. OBEYED-VLA n'est pas un produit commercialisé mais une contribution de recherche publiée sur arXiv, dont le code et les protocoles d'évaluation restent à préciser pour une adoption industrielle. Les prochaines étapes naturelles seraient de valider le cadre sur des plateformes plus mobiles et des scènes plus denses, ainsi que de tester sa compatibilité avec des VLA récents de plus grande capacité.

UEL'évaluation sur bras UR10e (Universal Robots, entreprise danoise) confère une pertinence indirecte pour les intégrateurs européens qui déploient des robots UR en cellule de production et cherchent à industrialiser des VLA robustes.

RechercheOpinion
1 source
dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète
333arXiv cs.RO 

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Une équipe de chercheurs présente dWorldEval (arXiv:2604.22152, avril 2026), un système d'évaluation de politiques robotiques basé sur un modèle de monde à diffusion discrète. Le principe : plutôt que de tester une politique de contrôle sur des milliers d'environnements réels ou simulés classiques, dWorldEval joue le rôle d'un proxy d'évaluation synthétique. Le modèle projette l'ensemble des modalités, vision, langage, actions robotiques, dans un espace de tokens unifié, puis les débruite via un unique réseau transformer. Il intègre une mémoire sparse par images-clés pour maintenir la cohérence spatiotemporelle sur des séquences longues, et introduit un "progress token" qui quantifie en continu le degré d'accomplissement d'une tâche, de 0 à 1. À l'inférence, le modèle prédit conjointement les observations futures et ce token de progression, détectant automatiquement le succès quand la valeur atteint 1. Sur les benchmarks LIBERO, RoboTwin et plusieurs tâches sur robots réels, dWorldEval surpasse ses prédécesseurs directs WorldEval, Ctrl-World et WorldGym, bien que l'abstract ne fournisse pas de deltas chiffrés précis. L'enjeu central est méthodologique : évaluer une politique robotique sur des milliers de configurations est actuellement soit prohibitif en temps machine, soit impossible à déployer sur robots physiques à cette échelle. Un proxy d'évaluation fiable et automatisable change radicalement l'économie du développement de politiques VLA (Vision-Language-Action). Le progress token élimine la nécessité d'une annotation humaine ou de critères de succès codés en dur, un goulot d'étranglement récurrent dans les pipelines d'apprentissage par imitation et de reinforcement learning robotique. Si les performances se confirment sur des scénarios out-of-distribution, cette approche pourrait accélérer significativement les itérations sim-to-real dans des labs qui déploient des modèles comme pi0, GR00T N2 ou OpenVLA. Le travail s'inscrit dans une vague de modèles de monde pour la robotique, dont WorldEval (évaluation via prédiction vidéo) et Ctrl-World (modèle conditionné par actions), que dWorldEval dépasse selon ses auteurs. L'usage de la diffusion discrète, plutôt que continue, sur des tokens multimodaux rappelle les approches de tokenisation unifiée portées par des projets comme Genie 2 (Google DeepMind) ou UniSim. L'article reste un preprint non revu par les pairs ; les résultats sur robots réels sont mentionnés sans détails de setup ni volumétrie d'expériences. Les prochaines étapes naturelles seraient une validation sur des benchmarks ouverts plus larges et un test de robustesse face à des tâches longue-horizon avec contacts complexes.

RechercheOpinion
1 source
Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense
334arXiv cs.RO 

Préentraînement multi-sensoriel auto-supervisé pour l'apprentissage par renforcement de robots en contact intense

Une équipe de chercheurs a publié MSDP (MultiSensory Dynamic Pretraining), un cadre d'apprentissage par représentation auto-supervisé conçu pour la manipulation robotique en contact étroit. Le système fusionne trois flux sensoriels, vision, force et proprioception, via un encodeur transformer entraîné par autoencoding masqué : l'encodeur doit reconstruire des observations multisensorielles complètes à partir d'un sous-ensemble partiel d'embeddings, forçant l'émergence d'une prédiction inter-modale et d'une fusion sensorielle robuste. Pour l'apprentissage de politiques en aval (downstream policy learning), MSDP introduit une architecture asymétrique originale : un mécanisme de cross-attention permet au critique d'extraire des caractéristiques dynamiques et tâche-spécifiques depuis les embeddings figés, tandis que l'acteur reçoit une représentation poolée stable pour guider ses actions. Sur robot réel, la méthode revendique des taux de succès élevés avec seulement 6 000 interactions en ligne, un chiffre à prendre avec précaution car le papier ne détaille pas précisément le type de robot, les seuils de succès retenus ni le panel de tâches évalué. Les expériences couvrent plusieurs scénarios de manipulation contact-riches, en simulation et sur plateforme physique. L'importance de MSDP tient d'abord à la difficulté structurelle qu'il adresse : l'apprentissage par renforcement multisensoriel est notoirement instable en présence de bruit et de perturbations dynamiques, deux conditions omniprésentes en environnement industriel. Si le chiffre de 6 000 interactions en ligne se confirme sur des tâches variées, il représenterait un signal fort sur l'efficacité des données, goulot d'étranglement critique pour tout déploiement en production. L'architecture asymétrique critique-acteur est un choix peu commun et potentiellement généralisable : elle découple la richesse représentationnelle nécessaire à l'évaluation des états de la stabilité requise pour l'exécution motrice, un compromis que la communauté robotique cherche à résoudre depuis plusieurs années. Pour un intégrateur ou un COO industriel, le préentraînement auto-supervisé sans étiquetage manuel réduit également le coût de déploiement sur de nouvelles tâches ou de nouveaux effecteurs. Le contexte académique de MSDP s'inscrit dans la dynamique de transfert des techniques de préentraînement auto-supervisé, popularisées en vision (MAE de Meta, 2021) et en NLP (BERT, GPT), vers la robotique multisensorielle. La manipulation en contact étroit reste l'un des défis les plus difficiles du domaine, car contrairement au pick-and-place, elle exige une gestion précise des forces de contact et une réponse rapide aux perturbations tactiles. Côté positionnement concurrentiel, des approches comme R3M (Meta) ou les modèles VLA récents (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) explorent des fusions multimodales différentes, mais restent majoritairement centrés sur vision et langage, sans intégration native de la force au stade du préentraînement. Le papier est soumis en version 3 sur arXiv (2511.14427), ce qui témoigne de plusieurs cycles de révision. Les suites naturelles incluent la validation sur bras industriels standards (UR, Franka) et des tâches d'assemblage de précision, terrain où des acteurs européens comme Wandercraft ou les labos de robotique du CNRS pourraient s'appuyer sur ce cadre pour accélérer leurs travaux sur la manipulation dextre.

RecherchePaper
1 source
Des manchots pour dompter l’IA ? Cette méthode casse le mystère derrière l’effet « boîte noire »
335Numerama 

Des manchots pour dompter l’IA ? Cette méthode casse le mystère derrière l’effet « boîte noire »

Les réseaux de neurones et les modèles d'apprentissage profond dominent aujourd'hui l'intelligence artificielle, mais leur fonctionnement interne reste largement opaque : on sait qu'ils produisent des résultats précis, sans pouvoir expliquer la logique qui les sous-tend. Face à ce défi, des chercheurs proposent la prétopologie, un outil mathématique capable de cartographier les relations entre données et de rendre visibles les structures cachées qui guident les décisions algorithmiques. Concrètement, cette approche permet de représenter les regroupements effectués par un modèle sous forme de graphes lisibles, comme l'illustre une expérience pédagogique utilisant des colonies de manchots pour visualiser des clusters d'apprentissage. Cette opacité n'est pas qu'une curiosité académique : elle pose des problèmes concrets dans des secteurs à fort enjeu. En médecine, un algorithme qui recommande un traitement sans justification est difficile à valider cliniquement ; en justice, une décision algorithmique sans explication est contestable et potentiellement discriminatoire. Les régulateurs européens l'ont compris : l'AI Act, entré en vigueur en 2024, impose désormais des exigences d'explicabilité pour les systèmes à haut risque, faisant de la boîte noire un problème légal autant que technique. L'explicabilité de l'IA est un champ de recherche actif depuis plusieurs années, avec des outils comme LIME ou SHAP déjà largement adoptés dans l'industrie. La prétopologie, issue des mathématiques françaises, s'en distingue par une approche structurale plutôt que statistique : elle ne cherche pas à approximer localement les décisions d'un modèle, mais à en révéler l'architecture globale. Portée par des équipes universitaires françaises, cette piste pourrait s'imposer comme une alternative sérieuse dans les domaines où la transparence algorithmique n'est plus optionnelle.

UELa prétopologie, issue des mathématiques françaises et portée par des équipes universitaires françaises, pourrait aider les organisations européennes à satisfaire les exigences d'explicabilité imposées par l'AI Act pour les systèmes IA à haut risque.

💬 Avec la prétopologie, on lit la structure interne du modèle plutôt que de coller une explication dessus après coup. C'est une vraie différence par rapport à LIME ou SHAP, et ça pèse quand l'AI Act te demande de justifier chaque décision pour les systèmes à haut risque. Bon, les manchots c'est pédagogique, mais j'attends de voir ça sur un modèle de scoring en production.

RecherchePaper
1 source
Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3
336MarkTechPost 

Google DeepMind présente Vision Banana, générateur d'images affiné par instructions surpassant SAM 3 et Depth Anything V3

Google DeepMind a publié le 22 avril 2026 un article de recherche intitulé "Image Generators are Generalist Vision Learners" (arXiv:2604.20329) présentant Vision Banana, un modèle unifié capable d'effectuer simultanément des tâches de compréhension visuelle avancées tout en conservant ses capacités de génération d'images. Ce modèle surpasse des systèmes spécialisés de référence sur plusieurs benchmarks clés : il dépasse SAM 3 en segmentation sémantique et d'instances, et Depth Anything V3 en estimation de profondeur métrique monoculaire, en ajoutant également la prédiction de normales de surface. Vision Banana est construit à partir de Nano Banana Pro (NBP), le générateur d'images de pointe de Google, auquel une procédure d'instruction-tuning légère a été appliquée en intégrant une faible proportion de données de vision par ordinateur dans le mélange d'entraînement d'origine. Ce résultat remet en question une hypothèse fondamentale qui structurait le domaine depuis des années : les modèles génératifs et les modèles discriminatifs étaient considérés comme deux familles distinctes, l'un produisant des images, l'autre les interprétant. L'équipe de Google montre que l'entraînement à la génération d'images réalistes oblige implicitement un modèle à comprendre la géométrie, la sémantique, la profondeur et les relations entre objets. Cette connaissance latente peut ensuite être reformatée pour des tâches de perception, sans ajouter de têtes de décodage spécialisées : toutes les sorties sont exprimées comme des images RGB suivant des schémas de couleurs précis et inversibles, permettant d'en extraire des valeurs quantitatives pour l'évaluation sur benchmark. Aucune donnée des benchmarks d'évaluation n'est incluse dans l'instruction-tuning, ce qui garantit une généralisation réelle plutôt qu'une mémorisation de domaine. L'analogie centrale avancée par l'équipe est celle des grands modèles de langage : de même que le pré-entraînement génératif sur du texte construit des représentations riches réutilisables par instruction-tuning, l'entraînement à la génération d'images jouerait le même rôle fondateur pour la vision. Cette approche présente trois avantages pratiques : un seul modèle couvre un large spectre de tâches en changeant uniquement le prompt, la quantité de nouvelles données nécessaires est faible puisque l'instruction-tuning ne fait qu'apprendre à formater les sorties en RGB, et les capacités génératives initiales sont préservées. Si ce paradigme se confirme à plus grande échelle, il pourrait réduire significativement le coût de développement des systèmes de perception visuelle et relancer le débat sur la frontière entre génération et compréhension dans les architectures multimodales, un enjeu central pour les prochaines générations de modèles fondationnels.

UELes laboratoires et entreprises européens de vision par ordinateur pourraient adopter cette approche unifiée pour réduire significativement le coût de développement de leurs systèmes de perception visuelle, sans impact réglementaire ou commercial direct immédiat.

💬 C'est le genre de résultat qui remet tout à plat. On partait du principe depuis des années que générer des images et comprendre des images, c'étaient deux métiers différents, deux familles de modèles séparées. Google vient de montrer que le générateur apprend la géométrie et la profondeur en chemin, sans qu'on lui demande, et qu'un petit instruction-tuning suffit à reformater ça pour battre SAM 3 ou Depth Anything. Si le parallèle avec les LLM tient vraiment à grande échelle, on va économiser beaucoup de modèles spécialisés.

RecherchePaper
1 source
Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage
337MarkTechPost 

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Microsoft a publié OpenMementos, un jeu de données conçu pour entraîner des modèles de langage capables de raisonnement long, structuré et compressible. Le dataset, disponible sur HuggingFace sous l'identifiant microsoft/OpenMementos, organise chaque trace de raisonnement en une série de blocs délimités par des tokens spéciaux (<|blockstart|>, <|blockend|>) accompagnés chacun de leur résumé condensé, appelé memento, encadré par <|summarystart|> et <|summaryend|>. Un tutoriel technique détaillé, conçu pour fonctionner directement dans Google Colab, montre comment accéder au dataset en mode streaming sans le télécharger intégralement, analyser sa structure interne, mesurer les taux de compression bloc-par-bloc sur 500 exemples répartis selon le domaine et la source, puis préparer les données pour un fine-tuning supervisé. L'ensemble du pipeline repose sur des bibliothèques Python standard : HuggingFace Datasets, Transformers, Pandas et Matplotlib. La valeur centrale d'OpenMementos réside dans son architecture de compression. Chaque réponse longue d'un modèle de raisonnement est découpée en blocs discrets, puis chaque bloc est automatiquement réduit à un memento de quelques phrases. Le tutoriel mesure ce rapport de compression en caractères et en mots par domaine, révélant à quel point les mementos permettent de préserver l'essentiel du raisonnement avec une fraction du volume textuel. Cette structure est directement exploitable pour l'entraînement : plutôt que de forcer un modèle à reproduire intégralement des chaînes de pensée verbeuses, on peut l'entraîner à produire des résumés intermédiaires compacts, ce qui réduit les coûts de calcul à l'inférence tout en maintenant la cohérence logique sur des problèmes complexes. Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires d'IA depuis fin 2024 : comment rendre les modèles de raisonnement économiquement viables. Les approches chain-of-thought et les architectures de type "thinking model", popularisées par OpenAI avec o1 puis par DeepSeek-R1 et Qwen-QwQ, génèrent des traces de raisonnement extrêmement longues et coûteuses à stocker, transmettre et inférer. Microsoft répond à ce défi avec une solution de compression supervisée des traces, en annotant explicitement les résumés intermédiaires au niveau des blocs. OpenMementos fournit ainsi une base d'entraînement structurée pour des modèles capables de "penser de façon compacte", une propriété qui pourrait devenir déterminante à mesure que les applications industrielles exigent des latences et des coûts d'inférence maîtrisés sur des tâches de raisonnement multi-étapes.

RecherchePaper
1 source
Yong Wang transforme l'information en connaissances
338IEEE Spectrum AI 

Yong Wang transforme l'information en connaissances

Yong Wang, assistant professeur en informatique et science des données à l'Université Technologique de Nanyang à Singapour, vient de recevoir le prix Significant New Researcher Award 2025 du comité technique visualisation et graphiques de l'IEEE Computer Society. Cette distinction, l'une des plus prestigieuses pour les chercheurs en début de carrière dans le domaine de la visualisation de données, récompense ses travaux sur l'utilisation des techniques de visualisation pour rendre les outils d'intelligence artificielle plus compréhensibles et accessibles. Wang, membre IEEE et éditeur associé d'IEEE Transactions on Visualization and Computer Graphics, concentre ses recherches sur l'interaction humain-ordinateur et la collaboration humain-IA, deux champs en pleine expansion à mesure que le volume de données mondiales dépasse la capacité d'interprétation humaine. Ce prix met en lumière une contribution qui dépasse le cadre académique : si les interfaces de visualisation sont bien conçues, elles peuvent démocratiser l'accès aux technologies avancées pour des publics non spécialistes. Dans un contexte où l'IA pénètre rapidement l'entreprise, la médecine et la recherche, la capacité à rendre lisibles des modèles complexes devient un enjeu stratégique. Les travaux de Wang s'inscrivent directement dans cette problématique : comment permettre à un plus grand nombre de personnes de comprendre, d'interroger et de collaborer avec des systèmes d'IA sans nécessiter une expertise technique approfondie. Son influence grandissante sur ces questions lui vaut d'être désormais reconnu parmi les figures montantes de son domaine à l'échelle internationale. Le parcours de Wang illustre une trajectoire peu ordinaire. Né dans un village agricole de la province du Hunan, dans le sud-ouest de la Chine, il a grandi dans un foyer sans ordinateur, où la télévision elle-même était considérée comme un objet de valeur. Ses parents, sans formation universitaire, ont néanmoins soutenu ses études, son père finançant une partie de sa scolarité grâce à des emplois en usine et sur des chantiers en ville. Attiré par la robotique et l'informatique après avoir découvert ces domaines à la télévision, Wang a intégré l'Institut de Technologie de Harbin, réputé pour ses programmes d'ingénierie, où il a obtenu une licence en automatisme en 2011. Il a ensuite poursuivi ses études à l'Université des Sciences et Technologies de Huazhong à Wuhan, puis à l'Université des Sciences et Technologies de Hong Kong, avant de rejoindre Singapour. Sa trajectoire, des rizières du Hunan aux laboratoires de recherche en IA, incarne précisément la vision qu'il défend : donner à davantage de personnes les outils pour participer à la science et à l'innovation.

RecherchePaper
1 source
Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles
339MarkTechPost 

Google DeepMind présente Decoupled DiLoCo, une architecture asynchrone à 88 % de goodput malgré les pannes matérielles

Google DeepMind a présenté Decoupled DiLoCo (Distributed Low-Communication), une nouvelle architecture d'entraînement distribué conçue pour entraîner de grands modèles de langage sur plusieurs centres de données géographiquement éloignés, sans nécessiter la synchronisation permanente que demandent les approches classiques. L'architecture divise le calcul en groupes de puces indépendants, appelés "learner units", qui s'entraînent de manière semi-autonome avant de partager un signal de gradient compressé avec un optimiseur central. Le gain en bande passante est spectaculaire : là où l'entraînement distribué standard exige environ 198 Gbps de connectivité entre huit centres de données, Decoupled DiLoCo n'en requiert que 0,84 Gbps, soit une réduction de plusieurs ordres de grandeur compatible avec une infrastructure réseau ordinaire. Lors de simulations impliquant 1,2 million de puces soumises à des taux de pannes élevés, le système a maintenu un "goodput" (fraction du temps effectivement consacrée à l'entraînement utile) de 88%, contre seulement 27% pour les méthodes parallèles classiques. Ces chiffres révèlent un changement profond dans la manière dont on peut envisager l'entraînement à grande échelle. La principale fragilité des architectures actuelles tient à leur synchronisation bloquante : à chaque étape, toutes les puces doivent attendre la plus lente avant de passer à la suivante, ce qui rend un cluster de milliers d'accélérateurs extrêmement vulnérable aux défaillances matérielles. Decoupled DiLoCo rompt avec cette logique en rendant la synchronisation asynchrone : si un groupe de puces tombe en panne ou ralentit, les autres continuent à s'entraîner. L'équipe a poussé le test jusqu'à la "chaos engineering", une méthode qui consiste à introduire délibérément des pannes artificielles pendant un entraînement en cours. Le système a non seulement survécu à la perte de learner units entiers, mais les a réintégrés automatiquement à leur retour, un comportement qualifié d'"auto-réparation". Decoupled DiLoCo s'appuie sur deux travaux antérieurs de Google : Pathways, un système d'IA distribué fondé sur des flux de données asynchrones permettant à différentes ressources de calcul d'avancer à leur propre rythme, et DiLoCo, qui avait déjà démontré qu'il était possible de réduire drastiquement les communications inter-centres de données en multipliant les étapes locales avant chaque synchronisation. La combinaison des deux ouvre la voie à un entraînement véritablement planétaire, où des centres de données situés sur des continents différents peuvent contribuer à un même modèle sans infrastructure réseau dédiée. Dans un contexte où les modèles frontières mobilisent des centaines de milliards de paramètres et des dizaines de milliers de puces, cette résilience architecturale pourrait devenir une condition sine qua non pour qui veut maintenir des entraînements longs sans interruptions catastrophiques.

UELes laboratoires européens travaillant sur l'entraînement de grands modèles pourraient adopter cette approche pour mutualiser des centres de calcul géographiquement dispersés sans infrastructure réseau dédiée coûteuse.

RechercheOpinion
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
340arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

RechercheOpinion
1 source
Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome
341arXiv cs.RO 

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Des chercheurs ont publié sur arXiv (identifiant 2310.02635, cinquième révision) un cadre appelé RLFP, Reinforcement Learning with Foundation Priors, conçu pour rendre l'apprentissage par renforcement viable sur des robots réels, sans ingénierie manuelle des récompenses. Au coeur du système se trouve l'algorithme FAC (Foundation-guided Actor-Critic), qui s'appuie simultanément sur trois types de modèles fondationnels : un modèle de politique, un modèle de valeur, et un modèle de récompense de succès. Sur cinq tâches de manipulation dextère réalisées avec de vrais robots, FAC atteint un taux de succès moyen de 86 % après seulement une heure d'apprentissage en temps réel. Sur le benchmark simulé Meta-world, il obtient 100 % de succès sur 7 des 8 tâches évaluées, en moins de 100 000 frames d'interaction, là où les méthodes de référence avec récompenses manuelles nécessitent 1 million de frames pour des performances comparables. L'impact industriel potentiel est significatif. L'un des verrous majeurs du déploiement de la robotique apprenante en environnement réel est double : la quantité astronomique de données requise par le RL classique, et le coût humain de la conception des fonctions de récompense, qui exige des ingénieurs spécialisés pour chaque nouvelle tâche. RLFP adresse les deux simultanément, en multipliant par environ dix l'efficacité en données et en automatisant la génération de signal de récompense via des modèles pré-entraînés. Si les résultats se confirment hors conditions de laboratoire, ce type de cadre pourrait réduire drastiquement le temps de mise en service d'un bras industriel sur une nouvelle opération, un enjeu clé pour les intégrateurs. Ce travail s'inscrit dans une tendance de fond qui voit les grands modèles de langage et de vision (VLM/LLM) utilisés comme priors pour guider l'exploration robotique, une approche concurrente des méthodes par imitation pure (apprentissage à partir de démonstrations humaines) ou par curriculum appris. Parmi les travaux proches figurent SayCan (Google), Code as Policies (DeepMind) et les récents VLA comme pi-0 (Physical Intelligence) ou OpenVLA. L'équipe indique que RLFP est agnostique au type de modèle fondationnel utilisé et robuste aux priors bruités, ce qui est une affirmation forte qu'il faudra valider sur des benchmarks extérieurs. Le code et les visualisations sont disponibles publiquement, ce qui facilite la reproduction indépendante.

RechercheOpinion
1 source
Système de navigation vision-langage incarné et déployable avec cognition hiérarchique et exploration contextuelle
342arXiv cs.RO 

Système de navigation vision-langage incarné et déployable avec cognition hiérarchique et exploration contextuelle

Une équipe de chercheurs a publié en avril 2026 sur arXiv (référence 2604.21363) un système de navigation embodied par vision et langage (VLN) conçu pour fonctionner en temps réel sur des plateformes robotiques embarquées aux ressources limitées. L'architecture repose sur trois modules asynchrones découplés : un module de perception temps-réel pour l'acquisition continue de l'environnement, un module d'intégration mémorielle pour l'agrégation spatiale et sémantique, et un module de raisonnement pour la prise de décision de haut niveau via un modèle vision-langage (VLM). Le coeur du système est un graphe de mémoire cognitive construit de façon incrémentale, décomposé en sous-graphes pour alimenter le VLM sans saturer la mémoire embarquée. Pour optimiser l'exploration, les auteurs reformulent le problème comme un Weighted Traveling Repairman Problem (WTRP) contextuel, qui minimise le temps d'attente pondéré des points de vue candidats. Les expériences portent à la fois sur des environnements simulés et sur des plateformes robotiques réelles, avec des résultats supérieurs aux approches VLN existantes en taux de succès et en efficacité de navigation. Ce travail s'attaque directement à une tension structurelle du domaine : les systèmes VLN les plus performants exigent des capacités de raisonnement qui restent typiquement hors de portée d'un matériel embarqué. Le découplage en modules asynchrones est une réponse architecturale concrète à cette contrainte, permettant de maintenir une boucle de perception à faible latence sans bloquer le raisonnement lourd. La démonstration sur hardware contraint réel, pas seulement en simulation, est le point de validation critique : elle réduit l'argument du sim-to-real gap qui frappe la majorité des publications académiques sur les VLA et VLN. Pour un intégrateur ou un décideur industriel, cela suggère que des robots capables de suivre des instructions en langage naturel dans des environnements non-structurés pourraient être déployés sans infrastructure GPU dédiée. La navigation embodied par vision et langage est un champ en pleine consolidation, porté par les progrès des VLM multimodaux (GPT-4o, LLaVA, InternVL) et par la disponibilité de benchmarks comme R2R ou REVERIE. La plupart des approches récentes sacrifient soit la généralisation soit la vitesse d'inférence pour tenir sur un robot réel. Ce papier s'inscrit dans un courant de recherche qui cherche à rendre ces systèmes embarquables sans fine-tuning massif, une direction que suivent également des équipes comme celles de CMU, ETH Zurich ou du LAAS-CNRS côté européen. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés publics et une intégration dans des plateformes commerciales comme Boston Dynamics Spot ou des AMR industriels, mais ces éléments ne sont pas annoncés dans l'abstract.

UEDes équipes européennes comme ETH Zurich et le LAAS-CNRS travaillent sur des directions similaires, mais ce papier n'implique pas directement d'acteurs ou de déploiements en France/UE.

RechercheOpinion
1 source
Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques
343Apple Machine Learning 

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper
1 source
Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts
344MarkTechPost 

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Une bibliothèque Python open source baptisée OpenMythos propose une reconstruction théorique de l'architecture dite "Claude Mythos", une approche de raisonnement approfondi qui mise sur l'itération computationnelle plutôt que sur l'augmentation du nombre de paramètres. Publiée sur PyPI sous le nom open-mythos, elle permet de construire des modèles de langage dotés d'un mécanisme de profondeur récurrente, où la même couche de traitement est traversée plusieurs fois en boucle. Le tutoriel publié explore deux variantes du mécanisme d'attention : GQA (Grouped Query Attention) et MLA (Multi-head Latent Attention), compare leur empreinte mémoire respective, entraîne un modèle sur une tâche de parité binaire, et inspecte l'utilisation des experts dans des couches de type Mixture-of-Experts (MoE). Les expériences montrent que MLA réduit la taille du cache KV d'un facteur d'environ 2 par rapport à GQA pour une séquence de 64 tokens sur 4 boucles. L'enjeu central de l'architecture est ce que les auteurs appellent la "depth extrapolation" : la capacité à augmenter le nombre de boucles de raisonnement au moment de l'inférence, sans réentraîner le modèle. Un modèle entraîné avec 4 itérations peut ainsi être utilisé avec 8 ou 16 boucles pour améliorer ses performances sur des tâches complexes, sans modifier aucun paramètre. Ce paradigme s'inscrit dans la tendance plus large du "test-time compute", qui consiste à allouer davantage de calcul au moment de la génération plutôt qu'à l'entraînement. Le tutoriel valide également la stabilité numérique du modèle via les propriétés spectrales de la matrice de mise à jour récurrente, un point critique pour éviter l'explosion ou la disparition des gradients dans les boucles profondes. Le module ACT (Adaptive Computation Time) permet en outre au modèle de décider dynamiquement combien d'itérations sont nécessaires pour chaque token. Cette publication s'inscrit dans un contexte de forte effervescence autour des architectures alternatives aux transformeurs classiques. La référence à "Claude Mythos" suggère une inspiration directe des travaux d'Anthropic, même si le projet reste une reconstruction théorique non officielle. Le champ des architectures récurrentes profondes connaît un regain d'intérêt depuis 2024, porté par des travaux comme les Recurrent Depth Transformers de Google DeepMind et les architectures hybrides SSM/attention. OpenMythos se positionne comme un outil pédagogique et expérimental pour explorer ces idées, à destination de chercheurs et d'ingénieurs qui cherchent à comprendre comment atteindre des capacités de raisonnement plus profondes sans multiplier les paramètres, une piste particulièrement pertinente dans un contexte où l'entraînement de modèles frontières est devenu prohibitif pour la majorité des acteurs.

RecherchePaper
1 source
Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients
345AWS ML Blog 

Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients

Amazon Web Services présente un environnement unifié pour les modèles de fondation biologiques multimodaux (BioFMs), une nouvelle catégorie d'intelligences artificielles entraînées sur des données hétérogènes issues du vivant. Selon une analyse de Delile et al. publiée en 2025, les BioFMs actuellement déployés se répartissent entre la documentation clinique (35 %), l'analyse de données omiques incluant ADN, épigénétique et ARN (30 %), la conception de protéines et de molécules (20 %), et l'imagerie médicale (15 %). Parmi les modèles multimodaux les plus avancés figurent Latent-X1 et Latent-X2 de Latent Labs, capables de prédire des structures protéiques en 3D et de générer des molécules liant les cibles thérapeutiques comme des anticorps ou des miniprotéines. Arc Institute a développé Evo 2, qui modélise l'intégralité du dogme central de la biologie pour interpréter et prédire la structure et la fonction de l'ADN, de l'ARN et des protéines. Harvard et AstraZeneca ont co-développé MADRIGAL, qui prédit les résultats cliniques de combinaisons médicamenteuses en intégrant des données structurelles, transcriptomiques et de viabilité cellulaire. John Snow Labs propose Medical VLM-24B, un modèle à 24 milliards de paramètres qui traite simultanément des notes cliniques, des résultats biologiques et des images radiologiques (radiographie, IRM, scanner). L'enjeu de ces modèles multimodaux est de combler une lacune critique dans la prise de décision médicale et pharmaceutique : aujourd'hui, les données biologiques restent fragmentées entre silos. Un chercheur en oncologie analyse séparément les données génomiques, les images histologiques et les dossiers patients, alors que les insights décisifs se cachent précisément dans les corrélations entre ces flux. En fusionnant ces modalités dans un seul modèle, les BioFMs permettent une médecine personnalisée plus précise, accélèrent la découverte de médicaments et réduisent les effets indésirables liés aux polythérapies. Bioptimus avec M-Optimus décode ainsi conjointement histologie et données cliniques pour soutenir la recherche jusqu'au suivi patient, tandis que le modèle IRM 3D de GE Healthcare ouvre la voie à des applications de segmentation et de génération de comptes rendus radiologiques automatisés. Le tournant décisif pour les modèles unimodaux a été la prédiction de la structure des protéines par AlphaFold, récompensée par le prix Nobel de chimie 2024. Ce succès a légitimé les BioFMs comme infrastructure sérieuse et attiré des investissements massifs d'acteurs académiques et industriels. La convergence vers le multimodal suit la même trajectoire que les modèles généralistes comme Amazon Nova 2 Omni, capable de traiter texte, images, vidéo et voix au sein d'un seul système. AWS se positionne comme infrastructure centrale de ce marché en offrant compute scalable, outils de développement et intégrations partenaires. L'intégration de Nach01 d'Insilico Medicine, qui combine langage naturel, chimie computationnelle et structure moléculaire 3D, illustre comment le multimodal devient le nouveau standard pour l'ensemble du cycle de développement du médicament.

UELa startup française Bioptimus, avec son modèle M-Optimus combinant histologie et données cliniques, est directement impliquée dans cette dynamique des modèles biologiques multimodaux qui redessine la recherche médicale et pharmaceutique en Europe.

RecherchePaper
1 source
Une startup d'un milliard de dollars avec une vision différente de l'IA
346AI News 

Une startup d'un milliard de dollars avec une vision différente de l'IA

Yann LeCun, ancien directeur scientifique de l'intelligence artificielle chez Meta, a fondé AMI Labs (Advanced Machine Intelligence Labs) après avoir quitté son poste fin 2025. La startup vient de lever un milliard de dollars de financement, une somme remarquable pour une équipe de seulement 12 personnes. LeCun prévoit de ne pas commercialiser de produit avant au moins cinq ans, positionnant AMI Labs comme une organisation de recherche pure. Son approche repose sur des architectures d'IA modulaires composées de plusieurs blocs spécialisés : un modèle du monde propre au domaine d'application, un acteur chargé de proposer des actions via l'apprentissage par renforcement, un module critique qui évalue ces options selon des règles fixes, un système de perception adapté au type de données traité (vidéo, texte, audio), une mémoire à court terme, et un configurateur orchestrant l'ensemble. Chaque instance serait entraînée uniquement sur des données pertinentes à son environnement, contrairement aux grands modèles de langage nourris de l'intégralité du web. Cette approche remet fondamentalement en question le paradigme dominant des LLMs comme GPT ou Claude. Là où ces modèles généralistes mobilisent des centaines de milliards de paramètres et nécessitent une infrastructure colossale pour fonctionner, les modules spécialisés d'AMI Labs pourraient se contenter de quelques centaines de millions de paramètres, voire tourner directement sur un appareil local. Le coût d'entraînement et d'inférence serait alors une fraction de celui des modèles actuels, rendant l'IA viable pour des acteurs qui ne disposent pas des ressources d'Anthropic, OpenAI, Google ou Meta. Pour les entreprises, cela ouvrirait la voie à des systèmes IA déployables en interne, sans dépendance aux grandes plateformes cloud. Le contexte donne tout son poids à cette prise de position. Les LLMs ont absorbé des ressources exponentiellement croissantes à chaque génération, et les techniques d'amélioration récentes, comme le prompting récursif des modèles de raisonnement, alourdissent encore la facture. Seuls de très grands groupes peuvent aujourd'hui se permettre de les exploiter à perte. LeCun, l'un des pères fondateurs du deep learning et lauréat du prix Turing 2018, défend depuis plusieurs années l'idée que les LLMs constituent une impasse pour atteindre une intelligence artificielle véritablement générale. Des précédents existent : les systèmes d'apprentissage automatique capables de maîtriser des jeux vidéo ou de plateau illustrent déjà la puissance des approches ciblées. Si AMI Labs parvient à ses fins, l'industrie pourrait connaître un rééquilibrage majeur, fragmentant un marché aujourd'hui dominé par une poignée d'acteurs disposant de budgets quasi illimités.

UESi l'approche modulaire d'AMI Labs aboutit, les entreprises européennes moins capitalisées pourraient déployer des systèmes IA en interne sans dépendance aux grandes plateformes cloud américaines.

RechercheOpinion
1 source
CuspAI, ou la promesse d’une science accélérée par l’intelligence artificielle
347FrenchWeb 

CuspAI, ou la promesse d’une science accélérée par l’intelligence artificielle

CuspAI, startup britannique fondée en 2024 par Chad Edwards, s'est imposée comme l'un des acteurs les plus prometteurs de l'IA appliquée à la découverte de matériaux. La société développe une plateforme d'intelligence artificielle capable de modéliser et prédire les propriétés de nouveaux matériaux en une fraction du temps qu'exigerait l'expérimentation classique en laboratoire. Après avoir levé plusieurs dizaines de millions de dollars auprès d'investisseurs spécialisés dans les deeptech, CuspAI entend accélérer des cycles de R&D qui s'étendent habituellement sur une décennie. L'enjeu est considérable : la découverte de nouveaux matériaux conditionne des secteurs entiers, des batteries pour véhicules électriques aux semi-conducteurs, en passant par les panneaux solaires et les matériaux de construction à faible empreinte carbone. En réduisant de plusieurs années le délai entre l'idée et le prototype validé, CuspAI pourrait déverrouiller des goulots d'étranglement qui freinent la transition énergétique et l'industrie manufacturière mondiale. Pour les laboratoires et les industriels, il s'agit d'un changement de paradigme comparable à ce que la simulation numérique a représenté dans les années 1980. Cette ambition s'inscrit dans une vague plus large d'IA scientifique, dite « AI for science », portée aussi bien par DeepMind avec AlphaFold que par des startups comme Insilico Medicine dans le médicament ou Orbital Materials dans les matériaux avancés. CuspAI se différencie par sa focalisation sur les matériaux solides et sa volonté de s'intégrer directement dans les flux de travail industriels, visant des partenariats avec de grands groupes chimiques et énergétiques plutôt qu'une approche purement académique.

UELes industriels européens engagés dans la transition énergétique (batteries, panneaux solaires, matériaux bas carbone) pourraient bénéficier directement de la plateforme CuspAI pour accélérer leurs cycles de R&D.

RecherchePaper
1 source
Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents
348MarkTechPost 

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Une équipe de chercheurs de Google Cloud AI, de l'Université de l'Illinois à Urbana-Champaign et de l'Université Yale a présenté ReasoningBank, un cadre mémoire destiné aux agents IA qui distille les stratégies de raisonnement à partir de leurs réussites comme de leurs échecs. Le système fonctionne en trois étapes exécutées autour de chaque tâche accomplie : récupération mémoire, extraction mémoire, et consolidation mémoire. Avant de démarrer une nouvelle tâche, l'agent interroge ReasoningBank via une recherche par similarité vectorielle pour récupérer l'élément de mémoire le plus pertinent, injecté directement dans son prompt système. Les expériences d'ablation montrent qu'un seul élément récupéré (k=1) donne de meilleurs résultats qu'un lot plus large : le taux de succès atteint 49,7% avec k=1, contre 44,4% avec k=4. Une fois la tâche terminée, un extracteur de mémoire analyse la trajectoire et la condense en items structurés comportant un titre, une description en une phrase, et un contenu de 1 à 3 phrases. Pour évaluer si la tâche était réussie ou non, le système emploie un LLM-as-a-Judge, qui reste robuste même lorsque sa précision descend à 70%. Le problème que ReasoningBank cherche à résoudre est fondamental : les agents IA actuels souffrent d'une amnésie structurelle. Chaque tâche est abordée comme si aucune expérience antérieure n'existait, et les leçons apprises disparaissent dès la fin de l'exécution. Les approches existantes n'y remédient qu'en partie. La mémoire de trajectoire brute, utilisée par le système Synapse, enregistre chaque action mais génère trop de bruit pour être directement réutilisable. La mémoire de flux, mise en oeuvre dans Agent Workflow Memory, extrait des procédures réutilisables, mais uniquement à partir des succès, ce qui élimine le signal d'apprentissage contenu dans les échecs. ReasoningBank traite les deux de manière asymétrique : les réussites fournissent des stratégies validées, les échecs alimentent des mises en garde et des leçons préventives. Les chercheurs poussent le système plus loin avec MaTTS, une approche de mise à l'échelle au moment du test combinée à la mémoire. Plutôt que de générer plusieurs trajectoires pour une tâche et n'en conserver qu'une, MaTTS exploite l'ensemble de ces trajectoires comme signal contrastif pour enrichir ReasoningBank. Cette technique s'appuie sur une tendance déjà bien établie en raisonnement mathématique et en programmation, où le calcul supplémentaire au moment de l'inférence améliore nettement les performances. L'enjeu dépasse la simple optimisation technique : il s'agit de permettre aux agents déployés en entreprise, sur des tâches web, de résolution de bugs ou de navigation d'interface, de capitaliser sur leur expérience accumulée plutôt que de la jeter après chaque session.

RecherchePaper
1 source
Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs
349arXiv cs.RO 

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

Une équipe de chercheurs a publié une nouvelle méthode d'apprentissage par renforcement baptisée Occupancy Reward Shaping (ORS), conçue pour résoudre l'un des problèmes les plus tenaces du domaine : l'attribution du crédit. Dans les environnements à récompenses rares, un agent autonome peut enchaîner des dizaines d'actions avant d'obtenir un signal de succès ou d'échec, ce qui rend extrêmement difficile l'identification des décisions qui ont réellement conduit au résultat. L'article, publié sur arXiv sous la référence 2604.20627, propose d'extraire la géométrie temporelle du monde à partir de modèles génératifs, puis de la convertir en une fonction de récompense auxiliaire via le transport optimal. Appliquée à 13 tâches de locomotion et de manipulation à long horizon, ORS améliore les performances de 2,2 fois en moyenne par rapport aux approches existantes. La méthode a également été testée sur un problème réel et exigeant : le contrôle du plasma dans trois configurations de réacteur à fusion nucléaire de type Tokamak. L'impact potentiel de cette avancée est significatif pour tous les systèmes autonomes qui doivent apprendre à partir de données collectées offline, c'est-à-dire sans interaction en temps réel avec l'environnement. Les robots industriels, les systèmes de planification médicale ou les agents de contrôle de processus physiques complexes sont directement concernés. La garantie théorique centrale d'ORS, que le remodelage de la récompense ne modifie pas la politique optimale, est cruciale : elle signifie que la méthode accélère l'apprentissage sans introduire de biais ou de comportements indésirables, ce qui est un prérequis pour toute application dans des contextes à risque élevé comme la fusion nucléaire. L'attribution du crédit temporel est un problème fondamental de l'apprentissage par renforcement depuis ses origines, et de nombreuses approches ont tenté de le contourner via des récompenses intermédiaires conçues à la main ou des architectures récurrentes. ORS se distingue en exploitant les modèles de monde génératifs, qui connaissent un regain d'intérêt depuis les travaux de DeepMind et d'autres laboratoires sur la planification basée sur des modèles. En combinant ces modèles avec le transport optimal, un outil mathématique issu de la théorie de la mesure, les auteurs ouvrent une voie systématique pour encoder la structure géométrique de n'importe quel environnement. Le code source est disponible publiquement sur GitHub, ce qui facilitera l'adoption et les travaux de réplication dans la communauté.

UELa méthode ORS, validée sur des réacteurs Tokamak, pourrait intéresser le projet ITER hébergé à Cadarache (France), principal programme mondial de fusion nucléaire financé par l'UE.

RecherchePaper
1 source
SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions
350arXiv cs.RO 

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

Des chercheurs ont publié SpaCeFormer, un nouveau modèle de segmentation d'instances 3D en vocabulaire ouvert capable d'analyser une scène entière en seulement 0,14 seconde, soit 100 à 1000 fois plus vite que les pipelines existants combinant vision 2D et reconstruction 3D. Le modèle repose sur un transformeur dit « space-curve » sans proposition préalable, qui combine une attention par fenêtres spatiales avec une sérialisation via la courbe de Morton pour produire des caractéristiques cohérentes dans l'espace. Un décodeur amélioré par RoPE prédit ensuite directement les masques d'instances à partir de requêtes apprises, sans faire appel à des propositions de régions externes. Pour l'entraîner, les auteurs ont constitué SpaCeFormer-3M, le plus grand jeu de données de segmentation 3D en vocabulaire ouvert jamais créé : 3 millions de légendes cohérentes sur plusieurs vues, couvrant 604 000 instances issues de 7 400 scènes. Ce dataset atteint un rappel de masques 21 fois supérieur aux approches monovues précédentes, soit 54,3 % contre 2,5 % à un seuil IoU supérieur à 0,5. Les performances obtenues sur les benchmarks de référence illustrent un saut qualitatif significatif. Sur ScanNet200, SpaCeFormer atteint un score mAP zero-shot de 11,1, soit 2,8 fois mieux que la meilleure méthode sans proposition antérieure. Sur ScanNet++ et Replica, il dépasse respectivement 22,9 et 24,1 mAP, surpassant tous les modèles précédents y compris ceux exploitant des entrées 2D multi-vues. Cette combinaison de vitesse et de précision ouvre la voie à des applications temps réel dans des environnements non structurés, où les catégories d'objets ne peuvent pas être définies à l'avance. La segmentation d'instances 3D en vocabulaire ouvert est une brique fondamentale pour la robotique autonome et la réalité augmentée ou virtuelle : un robot ou un casque AR doit pouvoir identifier et délimiter n'importe quel objet dans une scène, même inconnu. Les méthodes antérieures souffraient soit d'une latence prohibitive liée à l'agrégation de sorties de modèles fondationnaux sur plusieurs centaines de secondes, soit d'une fragmentation des masques due à l'absence de cohérence multi-vues. SpaCeFormer résout les deux verrous simultanément, et la mise à disposition publique du dataset SpaCeFormer-3M devrait accélérer les travaux de la communauté sur ce problème.

RecherchePaper
1 source