Identification d'objets hors distribution pour la…

Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels

56

1arXiv cs.RO

Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels

Des chercheurs ont publié une méthode semi-supervisée d'annotation d'images baptisée "label propagation", conçue pour accélérer l'entraînement des robots de service domestiques. Présentée dans un article arXiv (2604.22992), l'approche combine un générateur de masques agnostique aux classes avec un ensemble de réseaux de Hopfield qui attribuent automatiquement des étiquettes en exploitant trois espaces d'embeddings issus de modèles de fondation : CLIP, ViT et Theia. Le système passe à l'échelle jusqu'à 50 classes d'objets différents tout en maintenant un effort d'annotation humaine minimal, et parvient à étiqueter automatiquement 60 % des données dans le cadre de la compétition RoboCup@Home. Le code et les jeux de données sont disponibles publiquement sur GitHub (ais-bonn/label\_propagation). Cette avancée s'attaque directement à l'un des goulets d'étranglement les plus coûteux du développement robotique : l'annotation manuelle des données d'entraînement. Dans des contextes comme RoboCup@Home, où les équipes disposent d'un temps de préparation très limité avant les épreuves, automatiser 60 % du travail d'étiquetage représente un gain opérationnel considérable. Les détecteurs à vocabulaire ouvert actuels peinent à généraliser au-delà de quelques catégories, et l'entraînement entièrement supervisé reste chronophage et difficile à déployer rapidement sur de nouveaux environnements domestiques. La robotique de service grand public bute depuis des années sur la diversité et l'imprévisibilité des objets du quotidien. Les approches classiques nécessitent des milliers d'annotations humaines pour chaque nouvelle catégorie d'objet, ce qui freine le déploiement dans des foyers réels aux configurations variées. En s'appuyant sur des modèles de fondation pré-entraînés comme CLIP pour enrichir les représentations sémantiques, cette méthode contourne partiellement ce problème en propageant les étiquettes connues vers des exemples visuellement similaires non annotés. Les compétitions comme RoboCup@Home servent de bancs d'essai réalistes pour ces techniques, et la publication ouverte du code pourrait faciliter leur adoption par d'autres équipes de recherche en robotique domestique.

UELa méthode est développée par le laboratoire AIS de l'Université de Bonn (Allemagne), ce qui en fait une contribution directement issue de la recherche européenne en robotique, avec un code open source exploitable par les équipes de recherche européennes participant aux compétitions RoboCup.

RecherchePaper

1 source

Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration

51

2arXiv cs.RO

Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration

Des chercheurs ont publié fin avril 2026 sur arXiv (2604.22102) un système baptisé "Wiggle and Go!" capable de manipuler dynamiquement une corde en zero-shot, c'est-à-dire sans essais préalables sur la tâche cible ni jeu de données réel spécifique à cette tâche. L'architecture repose sur deux étages : un module d'identification système qui observe le comportement mécanique de la corde en la faisant "osciller" brièvement, prédit ses paramètres physiques descriptifs (raideur, amortissement, distribution de masse), puis transmet ces paramètres à un optimiseur qui génère les commandes motrices pour exécuter la tâche. Sur une tâche de frappe 3D d'une cible avec la corde, le système atteint une précision moyenne de 3,55 cm, contre 15,34 cm lorsque les paramètres de la corde ne sont pas pris en compte, soit une réduction d'erreur d'un facteur supérieur à 4. Le coefficient de corrélation de Pearson entre les fréquences de Fourier des trajectoires simulées et réelles atteint 0,95 sur des trajectoires non vues pendant l'entraînement. L'intérêt technique de cette approche est de découpler l'identification de l'objet de la politique de manipulation : un seul module d'identification système alimente plusieurs politiques différentes sans réentraînement, ce qui permet de basculer entre tâches (frappe, lancer, enroulement) sans collecte de données réelles supplémentaires. C'est précisément ce point qui est structurellement difficile dans la manipulation d'objets déformables : les cordes, câbles et textiles n'ont pas de modèle physique fixe, leur comportement varie selon le matériau, la longueur et l'humidité. Les approches concurrentes exigent soit des milliers d'essais réels pour calibrer un modèle, soit des itérations successives sur la tâche elle-même. "Wiggle and Go!" contourne les deux en exploitant des priors de simulation appris, avec une phase d'observation courte et non destructive. La manipulation d'objets déformables est un problème ouvert en robotique depuis plus d'une décennie, avec des applications directes en logistique (câblage, lien de paquets), en chirurgie assistée et en industrie textile. Le sim-to-real reste le verrou central : les moteurs physiques peinent à reproduire le comportement non-linéaire des matériaux souples, et la moindre erreur sur un lancer dynamique est irrécupérable, comme le soulignent explicitement les auteurs. Des équipes comme celle de Pieter Abbeel (UC Berkeley) ou Deepak Pathak (CMU) travaillent sur des approches comparables par apprentissage par renforcement ou diffusion de trajectoires, mais souvent avec des données réelles massives. Ce travail s'inscrit dans une tendance croissante vers la robotique fondée sur l'identification physique légère plutôt que sur la collecte de données exhaustive, une direction qui intéresse particulièrement les intégrateurs industriels confrontés à des environnements de production variables. Le code et les vidéos sont disponibles sur le site du projet.

RecherchePaper

1 source

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

43

3arXiv cs.RO

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration). Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles. La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

UELes équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

RecherchePaper

1 source

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

49

4arXiv cs.RO

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

Une équipe de chercheurs a publié une nouvelle méthode d'apprentissage par renforcement baptisée Occupancy Reward Shaping (ORS), conçue pour résoudre l'un des problèmes les plus tenaces du domaine : l'attribution du crédit. Dans les environnements à récompenses rares, un agent autonome peut enchaîner des dizaines d'actions avant d'obtenir un signal de succès ou d'échec, ce qui rend extrêmement difficile l'identification des décisions qui ont réellement conduit au résultat. L'article, publié sur arXiv sous la référence 2604.20627, propose d'extraire la géométrie temporelle du monde à partir de modèles génératifs, puis de la convertir en une fonction de récompense auxiliaire via le transport optimal. Appliquée à 13 tâches de locomotion et de manipulation à long horizon, ORS améliore les performances de 2,2 fois en moyenne par rapport aux approches existantes. La méthode a également été testée sur un problème réel et exigeant : le contrôle du plasma dans trois configurations de réacteur à fusion nucléaire de type Tokamak. L'impact potentiel de cette avancée est significatif pour tous les systèmes autonomes qui doivent apprendre à partir de données collectées offline, c'est-à-dire sans interaction en temps réel avec l'environnement. Les robots industriels, les systèmes de planification médicale ou les agents de contrôle de processus physiques complexes sont directement concernés. La garantie théorique centrale d'ORS, que le remodelage de la récompense ne modifie pas la politique optimale, est cruciale : elle signifie que la méthode accélère l'apprentissage sans introduire de biais ou de comportements indésirables, ce qui est un prérequis pour toute application dans des contextes à risque élevé comme la fusion nucléaire. L'attribution du crédit temporel est un problème fondamental de l'apprentissage par renforcement depuis ses origines, et de nombreuses approches ont tenté de le contourner via des récompenses intermédiaires conçues à la main ou des architectures récurrentes. ORS se distingue en exploitant les modèles de monde génératifs, qui connaissent un regain d'intérêt depuis les travaux de DeepMind et d'autres laboratoires sur la planification basée sur des modèles. En combinant ces modèles avec le transport optimal, un outil mathématique issu de la théorie de la mesure, les auteurs ouvrent une voie systématique pour encoder la structure géométrique de n'importe quel environnement. Le code source est disponible publiquement sur GitHub, ce qui facilitera l'adoption et les travaux de réplication dans la communauté.

UELa méthode ORS, validée sur des réacteurs Tokamak, pourrait intéresser le projet ITER hébergé à Cadarache (France), principal programme mondial de fusion nucléaire financé par l'UE.

RecherchePaper

1 source

Identification d'objets hors distribution pour la segmentation d'anomalies LiDAR 3D

À lire aussi

Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels

Wiggle and Go! : identification du système pour la manipulation dynamique de corde sans démonstration

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs