RecherchearXiv cs.RO · 23 avr. 2026, 07:00· 1 min de lecture

ALAS : synthèse adaptative d'actions à long terme par séparation de flux asynchrones

Des chercheurs ont publié ALAS (Adaptive Long-Horizon Action Synthesis), un nouveau cadre d'apprentissage pour la robotique présenté dans un préprint arXiv (2604.20721). Ce système s'attaque à un problème central : permettre à un agent robotique d'accomplir des tâches longues et multi-étapes dans des scènes variées, ce qu'on appelle les tâches à "horizon long" dans le domaine de l'interaction humain-scène. Lors des tests comparatifs, ALAS affiche une amélioration moyenne de 23 % du taux de réussite par sous-tâche et de 29 % de l'efficacité d'exécution par rapport aux méthodes existantes.

Ces résultats comptent parce que la robotique bute depuis des années sur un plafond de généralisation : les agents actuels apprennent à enchaîner des sous-tâches pré-entraînées, mais échouent dès que l'environnement ou la combinaison de compétences change légèrement. Un robot qui sait ranger une table dans un bureau peut se retrouver paralysé dans une cuisine. ALAS rompt cette dépendance en séparant explicitement la compréhension de l'environnement de l'exécution motrice, ce qui autorise le transfert vers des scènes et des compétences inédites sans tout réapprendre depuis zéro. Pour les applications industrielles et domestiques, cela rapproche concrètement la perspective d'un robot polyvalent capable de s'adapter sans reconfiguration lourde.

L'architecture d'ALAS s'inspire du cerveau humain, plus précisément de la distinction neurologique entre les voies "où" et "quoi" du cortex visuel. Elle repose sur deux modules distincts : l'un dédié à la compréhension spatiale de la scène (fonctions des objets, relations géométriques, sémantique de l'environnement), l'autre au traitement des états moteurs de l'agent (degrés de liberté des articulations, schémas de mouvement). Ce découplage complet entre perception environnementale et contrôle moteur est la clé du transfert inter-domaines. La recherche en robotique s'oriente de plus en plus vers ces architectures bio-inspirées pour dépasser les limites du simple apprentissage par imitation, et ALAS constitue une étape notable dans cette direction, même si des validations sur des systèmes physiques réels restent à venir.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image. Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA. La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

RecherchePaper

1 source

2arXiv cs.RO

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

Une équipe de chercheurs a publié sur arXiv (référence 2604.24449) une nouvelle méthode baptisée SPLIT, conçue pour simuler des capteurs tactiles à base d'images utilisés en robotique. Le travail se concentre principalement sur le capteur DIGIT, un capteur tactile optique répandu dans la communauté robotique. SPLIT repose sur une stratégie d'arithmétique dans l'espace latent qui dissocie explicitement la géométrie de contact des propriétés optiques propres au capteur. Concrètement, le système décompose ce qu'il "voit" en deux composantes indépendantes : la forme de l'objet qui appuie sur le capteur, et les caractéristiques visuelles intrinsèques du capteur lui-même. La méthode intègre également une simulation par éléments finis (FEM) calibrée avec résolution variable, offrant un compromis ajustable entre vitesse de calcul et fidélité physique. Cette capacité de dissociation change profondément la manière dont on peut entraîner des modèles d'apprentissage automatique pour la perception tactile. Jusqu'ici, chaque nouvelle unité physique d'un capteur nécessitait une recalibration coûteuse en temps et en données. SPLIT élimine cette contrainte : une fois entraîné, le modèle peut s'adapter à différentes variantes du capteur DIGIT, voire se transférer vers des capteurs d'une autre famille, comme le GelSight R1.5, sans réentraînement complet. La méthode supporte en outre une simulation bidirectionnelle : elle peut générer des images réalistes à partir de maillages de déformation, mais aussi reconstruire un maillage à partir d'une image tactile réelle. La vitesse d'inférence dépasse celle des approches concurrentes existantes. Le manque de données d'entraînement réalistes est l'un des principaux freins au développement de la robotique tactile. Collecter des interactions physiques variées est lent, coûteux et difficile à reproduire à grande échelle, ce qui pousse la communauté vers des simulateurs capables de générer des données synthétiques crédibles. SPLIT s'inscrit dans cette tendance en proposant une solution généraliste, là où les méthodes antérieures restaient souvent liées à un seul type de capteur. En permettant le transfert inter-capteurs et en réduisant le besoin en données réelles, cette approche pourrait accélérer significativement le développement de robots capables de manipuler des objets avec précision et dextérité.

RecherchePaper

1 source

3Apple Machine Learning

SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires

Des chercheurs ont présenté SQUIRE (Slot QUery Intermediate REpresentations), un nouveau système d'assistance à la création d'interfaces utilisateur conçu pour aider les développeurs front-end à prototyper plus efficacement. L'outil s'appuie sur l'IA générative mais introduit une couche intermédiaire structurée, les "slot queries", entre l'intention du développeur et le code produit, afin de rendre la génération plus prévisible et plus contrôlable. Le problème que SQUIRE cherche à résoudre est bien réel : les assistants IA actuels, qui fonctionnent via une interface de chat, offrent beaucoup de flexibilité mais peu de précision. Le langage naturel reste ambigu, et les modèles peuvent répondre de façon imprévisible, forçant les développeurs à itérer longuement avant d'obtenir un résultat satisfaisant. En introduisant des représentations intermédiaires explicites, SQUIRE permet à l'utilisateur de spécifier ses intentions de manière plus structurée, réduisant ainsi les allers-retours et accélérant le cycle de prototypage. Cette approche s'inscrit dans une tendance plus large de la recherche en interaction homme-machine : plutôt que de confier entièrement la génération à un modèle de langage via un prompt libre, on intercale des étapes de structuration qui préservent le contrôle humain. Des systèmes similaires ont émergé dans d'autres domaines de la génération de code, et SQUIRE applique ce principe au domaine spécifique des interfaces graphiques, où la précision visuelle et fonctionnelle est particulièrement exigeante. Les suites potentielles incluent une intégration dans des environnements de développement existants comme Figma ou VS Code.

RecherchePaper

1 source

4arXiv cs.RO

Prédiction collaborative de trajectoires par fusion tardive

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau cadre de prédiction collaborative des trajectoires pour véhicules autonomes, baptisé "late fusion". L'idée centrale consiste à faire coopérer plusieurs véhicules connectés en partageant non plus des cartes de caractéristiques perceptuelles volumineuses, mais directement les prédictions de trajectoires déjà calculées par chaque véhicule individuellement. Le système a été évalué sur trois jeux de données de référence du domaine : OPV2V, V2V4Real et DeepAccident. Sur le dataset réel V2V4Real, la fusion tardive améliore le taux de succès de trajectoire de 1,69 % et 1,22 % pour les deux véhicules intelligents impliqués, par rapport à une prédiction purement individuelle. Cette approche répond à un problème concret qui freine le déploiement des systèmes V2V en conditions réelles : l'échange de représentations de haute dimension entre véhicules consomme une bande passante considérable et suppose une synchronisation parfaite entre les agents, deux hypothèses rarement vérifiées sur route. En déplaçant la collaboration vers le module de prédiction plutôt que vers la perception, le volume de données échangées chute drastiquement. La robustesse du système face aux occlusions, aux angles morts et aux erreurs de capteurs s'en trouve également améliorée, puisque chaque véhicule apporte une perspective complémentaire sur les agents trafic à risque. La prédiction de trajectoire est l'un des verrous les plus critiques de la conduite autonome : anticiper le comportement des autres usagers de la route conditionne directement la sécurité des décisions de freinage et d'évitement. Les méthodes existantes de fusion collaborative, dites "early" ou "intermediate fusion", ont certes démontré leur efficacité en simulation, mais peinent à passer à l'échelle dans des environnements aux ressources réseau limitées. Ce travail, agnostique au modèle sous-jacent de prédiction, ouvre la voie à une intégration modulaire dans des pipelines autonomes existants. La prochaine étape logique sera de tester cette approche sur des flottes hétérogènes à grande échelle et dans des scénarios urbains denses où les occlusions sont les plus fréquentes.

UELes travaux sur la coopération V2V en conditions réseau réelles alimentent indirectement les débats réglementaires européens sur les véhicules connectés et autonomes, sans impact direct sur la France ou l'UE.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic