RobotiqueInteresting Engineering6sem

Les robots peuvent désormais éplucher, trancher et manipuler des objets de forme irrégulière

Résumé IASource uniqueImpact UE

Des chercheurs de l'École polytechnique fédérale de Lausanne (EPFL) et de l'Institut de recherche Idiap ont présenté une nouvelle méthode permettant aux robots de manipuler des objets de formes irrégulières avec une précision inédite. Le système génère une carte en nuage de points de l'objet observé, identifie des repères clés à sa surface, puis construit une représentation continue et lisse de cette géométrie, quelle que soit la taille ou la forme de l'objet. Lors des tests, des robots ont réussi à effectuer des tâches en contact direct avec des surfaces, comme éplucher des bananes et des patates douces, les trancher ou sonder leur surface. L'approche s'est montrée robuste même face à des données de capteurs incomplètes ou bruitées, ainsi que dans des environnements encombrés. Sur 50 objets déformés aléatoirement, la méthode a produit des trajectoires d'action plus stables et cohérentes que les techniques conventionnelles.

Cette avancée s'attaque à l'un des problèmes fondamentaux de la robotique : transférer des compétences de manipulation d'un objet à un autre sans réentraînement massif. Là où un humain adapte instinctivement son geste pour éplucher un légume inconnu en s'appuyant sur sa compréhension intuitive des surfaces, les robots actuels échouent face à la variabilité géométrique des objets du quotidien. En rendant les représentations indépendantes de la forme spécifique, le cadre développé à Lausanne permettrait à terme de déployer des robots capables d'opérer dans des cuisines, des chaînes agroalimentaires ou des environnements industriels sans nécessiter des milliers d'exemples d'entraînement pour chaque nouvel objet rencontré.

Sur le plan technique, la méthode exploite la géométrie différentielle discrète et l'équation de diffusion thermique pour propager les informations géométriques à travers la surface d'un objet, directement depuis des nuages de points bruts, sans nécessiter de modèle 3D propre. Elle combine cette diffusion avec des techniques de Monte Carlo pour gérer les transitions entre mouvements libres et contact physique, produisant des référentiels locaux orientés qui guident des actions simples comme glisser, couper ou sonder. Ce cadre modulaire s'intègre avec plusieurs stratégies de contrôle existantes, dont la téléopération, l'optimisation de trajectoires et l'apprentissage par renforcement. La publication positionne cette approche géométrique comme une alternative prometteuse aux méthodes purement basées sur l'apprentissage profond, dont la gourmandise en données reste un frein majeur à la généralisation dans le monde réel.

Impact France/UE

Menée par l'EPFL et l'Institut Idiap (Suisse), cette avancée ouvre des perspectives concrètes pour l'automatisation des chaînes agroalimentaires et industrielles européennes, en réduisant drastiquement le besoin en données d'entraînement pour chaque nouvel objet.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MIT Technology Review

Des travailleurs indépendants forment des robots humanoïdes, et des benchmarks IA plus fiables

Des travailleurs à la tâche, recrutés dans plus de 50 pays dont le Nigeria, l'Inde et l'Argentine, filment désormais leurs gestes quotidiens pour entraîner les robots humanoïdes de demain. C'est le modèle de Micro1, une entreprise qui collecte ces vidéos — souvent captées via un iPhone fixé sur le front — et les revend aux fabricants de robots. Pendant ce temps, OpenAI a bouclé la plus grande levée de fonds de l'histoire de la Silicon Valley : 122 milliards de dollars, en amont d'une introduction en bourse très attendue pour plus tard cette année. Et selon le MIT Technology Review, les benchmarks actuels d'évaluation de l'IA seraient fondamentalement inadaptés à l'usage réel de ces systèmes. Ces trois signaux convergent vers un même constat : l'IA et la robotique entrent dans une phase d'industrialisation massive, avec des modèles économiques qui soulèvent autant de questions qu'ils n'apportent de réponses. Les travailleurs de Micro1 sont bien payés à l'échelle locale, mais leur travail pose des problèmes sérieux de consentement éclairé et de confidentialité des données — qui est filmé, dans quel contexte, et qui en profite réellement ? Du côté des benchmarks, Angela Aristidou, professeure à l'University College London et chercheuse associée au Stanford Human-Centered AI Institute, plaide pour une évaluation radicalement différente : non plus des performances isolées sur des tâches abstraites, mais une mesure de la capacité de l'IA à fonctionner dans des environnements réels, multi-acteurs, sur la durée. Sans cette réforme, les risques et les capacités réelles de l'IA resteront systématiquement mal évalués. L'essor des humanoïdes n'est pas un phénomène marginal : les lecteurs du MIT Technology Review l'ont récemment élu « 11e percée technologique » à ajouter à la liste 2026 des dix innovations majeures. Ce vote populaire illustre l'appétit du public pour ces machines, au moment même où les entreprises du secteur se disputent les données d'entraînement les plus précieuses — les vidéos de gestes humains dans des contextes domestiques. Quant à OpenAI, sa valorisation stratosphérique s'accompagne d'ambitions sociales affichées : selon Vanity Fair, l'entreprise préparerait un projet visant à « repenser le contrat social ». Dans ce contexte, les appels de militants à quitter ChatGPT, relayés par le MIT Technology Review lui-même, témoignent d'une tension croissante entre l'accélération technologique et ses implications pour la société.

UELa chercheuse Angela Aristidou (University College London / Stanford HAI) plaide pour une réforme des benchmarks IA, un enjeu directement lié à l'évaluation des systèmes soumis à l'AI Act européen.

RobotiqueActu

1 source

2IEEE Spectrum AI

Des agents IA pour les équipes de robots

Le laboratoire de physique appliquée de l'université Johns Hopkins (APL) a publié une présentation détaillant ses travaux récents sur l'IA agentique appliquée aux équipes de robots collaboratifs. Baptisée "Agentic AI for Robot Teams", cette communication expose une architecture scalable conçue pour doter des systèmes robotiques hétérogènes de capacités d'autonomie, de coordination et d'adaptabilité. Les chercheurs y décrivent comment des agents fondés sur des grands modèles de langage (LLM) peuvent être déployés sur du matériel réel, avec des démonstrations impliquant des équipes de robots aux profils et capacités différents. Le document, disponible sous forme de livre blanc, présente également les leçons tirées des phases de recherche et développement en cours. L'enjeu est considérable : faire travailler ensemble des robots qui ne partagent ni les mêmes capteurs, ni les mêmes actionneurs, ni les mêmes logiciels impose des défis de coordination que les architectures classiques peinent à résoudre. En intégrant des LLM comme couche de raisonnement et de planification, les équipes de l'APL cherchent à rendre ces systèmes capables de s'adapter dynamiquement aux imprévus, de se répartir les tâches et de maintenir une cohérence collective sans supervision humaine constante. Cette approche pourrait transformer des domaines comme la logistique autonome, la gestion de catastrophes, les opérations militaires ou l'exploration de milieux hostiles, où envoyer des équipes humaines reste risqué ou impossible. Le Johns Hopkins APL est l'un des principaux centres de recherche appliquée du Département de la Défense américain, ce qui situe ces travaux dans un contexte stratégique lié à la robotique militaire et aux systèmes autonomes multi-agents. La montée en puissance des LLM depuis 2022 a ouvert une nouvelle voie pour la robotique agentique, jusqu'ici freinée par la rigidité des architectures de contrôle traditionnelles. Les suites annoncées portent sur la généralisation de l'architecture à des équipes plus larges et plus hétérogènes, ainsi que sur l'amélioration de la robustesse dans des environnements dégradés ou incertains.

RobotiqueActu

1 source

3arXiv cs.RO

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper

1 source

4arXiv cs.RO

Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile

Des chercheurs ont présenté un nouveau système d'apprentissage pour robots humanoïdes capable de manipuler des objets avec une dextérité inédite, en intégrant le sens du toucher comme modalité centrale. Baptisé HTD (Humanoid Transformer with Touch Dreaming), ce modèle multimodal de type encodeur-décodeur Transformer combine la vision multi-caméras, la proprioception et la détection tactile pour permettre à un robot humanoïde d'accomplir des tâches nécessitant des contacts physiques complexes et fréquents. Testé sur cinq tâches réelles impliquant des manipulations délicates, HTD affiche une amélioration relative de 90,9 % du taux de succès moyen par rapport aux approches concurrentes les plus solides. L'enjeu central de ce travail est de résoudre l'un des défis les plus persistants de la robotique humanoïde : la coordination entre stabilité du corps entier, agilité des mains et conscience du contact physique. Dans les environnements réels, un robot qui saisit un objet fragile ou manipule un outil doit constamment ajuster sa prise en fonction des forces ressenties, une capacité que les systèmes purement visuels peinent à développer. Grâce à la technique du "touch dreaming", la politique apprise ne se contente pas de prédire des séquences d'actions, elle anticipe également les forces futures exercées par les articulations des mains et les états tactiles latents à venir, ce qui l'oblige à construire des représentations internes riches et sensibles au contact. Les expériences d'ablation confirment que cette prédiction dans l'espace latent est plus efficace que la prédiction brute des données tactiles, avec un gain relatif de 30 % supplémentaire en taux de succès. L'architecture repose sur un contrôleur de la partie basse du corps entraîné par apprentissage par renforcement, qui assure la stabilité posturale pendant les manipulations complexes. La collecte de données de démonstration s'effectue via un système de téléopération en réalité virtuelle qui intègre à la fois des mains dextères et des capteurs tactiles, permettant de recueillir des interactions riches en contact sans étape de pré-entraînement tactile séparée. Ce travail, dont les matériaux sont publiés en open source, s'inscrit dans une tendance plus large de la recherche en robotique visant à doter les humanoïdes de capacités sensori-motrices proches de celles des humains, condition indispensable avant un déploiement dans des environnements domestiques ou industriels non contrôlés.

RobotiqueOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour