RobotiquearXiv cs.RO · 23 avr. 2026, 07:00· 2 min de lecture

QuadPiPS : planificateur de pas pour quadrupèdes avec perception et prédiction d'affordances sémantiques

Des chercheurs ont publié QuadPiPS, un système de planification de pas pour robots quadrupèdes qui intègre la perception visuelle en temps réel pour naviguer sur des terrains complexes. Le système repose sur une représentation locale appelée "legged egocan", une carte ego-centrique de l'environnement immédiat du robot qui combine des données géométriques et sémantiques pour identifier les zones de pose sûres. Pour planifier les mouvements, QuadPiPS segmente le sol en "superpixels", des régions planes candidates pour les appuis, puis calcule des trajectoires optimisées entre ces points d'appui via des méthodes d'optimisation non linéaire. Le tout est exécuté sous contrôle prédictif de modèle (MPC) et contrôle de corps entier. Les tests ont été menés sur dix environnements de simulation avec cinq systèmes de référence, puis validés physiquement sur le quadrupède Unitree Go2 équipé d'un calculateur embarqué sur mesure, ainsi que sur le robot ANYmal C de ANYbotics.

Les résultats montrent que QuadPiPS surpasse ses concurrents dans les scénarios à faible nombre de points d'appui disponibles, précisément les situations les plus dangereuses pour un robot mobile. C'est dans ces environnements critiques, comme des terrains escarpés, des surfaces trouées ou des obstacles rapprochés, que la planification précise des pas fait toute la différence entre un robot qui trébuche et un système fiable. La capacité à raisonner sur les affordances du terrain en temps réel ouvre la voie à un déploiement dans des milieux industriels risqués, des opérations de recherche en zone sinistrée ou l'inspection d'infrastructures inaccessibles.

La locomotion des robots à pattes reste l'un des défis majeurs de la robotique mobile : contrairement aux robots à roues, ils doivent planifier chaque appui individuellement en tenant compte de la dynamique du corps entier. QuadPiPS s'appuie sur le cadre de planification ALEF, qu'il étend en séparant explicitement les sous-espaces de décision discrets et continus pour gagner en efficacité. L'essor des LLM embarqués et des capteurs compacts rend ce type d'approche perception-action de plus en plus viable hors laboratoire, et les prochaines étapes devraient viser une intégration dans des pipelines de navigation autonome plus larges.

Dans nos dossiers

Robots humanoïdes

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Microsoft Research

GroundedPlanBench : planification de tâches longues horizon pour la manipulation robotique avec ancrage spatial

Des chercheurs ont publié GroundedPlanBench, un nouveau benchmark conçu pour évaluer la capacité des modèles de vision-langage (VLM) à planifier des séquences d'actions robotiques tout en déterminant précisément où chaque action doit s'effectuer dans l'espace. Le benchmark s'appuie sur 308 scènes de manipulation robotique issues du dataset DROID, à partir desquelles des experts ont défini 1 009 tâches allant de séquences courtes (1 à 4 actions) à des chaînes longues et complexes (jusqu'à 26 actions). Chaque tâche est formulée selon deux styles d'instruction : explicite ("poser une cuillère sur l'assiette blanche") ou implicite ("ranger la table"). Pour accompagner ce benchmark, l'équipe a également développé V2GP (Video-to-Spatially Grounded Planning), un framework qui convertit des vidéos de démonstration robotique en données d'entraînement spatialement ancrées, en exploitant notamment SAM3, le modèle de segmentation vidéo open-vocabulary de Meta, pour suivre les objets manipulés image par image. Ce processus a permis de générer 43 000 plans ancrés. L'enjeu est de taille : aujourd'hui, la plupart des systèmes robotiques fonctionnent en deux temps séparés — un VLM génère un plan en langage naturel, puis un second modèle le traduit en actions exécutables. Cette approche découplée introduit des erreurs en cascade, car le langage naturel reste ambigu ou halluciné lorsqu'il s'agit de préciser à la fois ce qu'il faut faire et à quel endroit. GroundedPlanBench force les modèles à traiter ces deux dimensions simultanément, ce que les VLMs actuels — qu'ils soient open-source ou propriétaires — peinent à faire sur des tâches longues. Les résultats montrent que l'approche de planification ancrée améliore à la fois le taux de réussite des tâches et la précision des actions, surpassant les architectures découplées aussi bien sur le benchmark qu'en conditions réelles avec de vrais robots. Ce travail s'inscrit dans un mouvement plus large visant à doter les robots d'une compréhension spatiale fine du monde réel, au-delà de la simple compréhension sémantique. Les VLMs ont transformé la planification robotique en rendant possible l'interprétation d'instructions en langage naturel, mais l'ancrage spatial — savoir précisément sur quel objet agir et où le déposer — reste un verrou majeur pour les tâches du quotidien. En proposant à la fois un protocole d'évaluation standardisé et une méthode pour générer automatiquement des données d'entraînement à partir de vidéos de démonstration existantes, cette contribution pourrait accélérer le développement de robots manipulateurs capables d'opérer de façon autonome dans des environnements non contrôlés. Les prochaines étapes probables concerneront l'extension à des scènes encore plus dynamiques et à des instructions encore plus ambiguës, là où la frontière entre compréhension linguistique et raisonnement spatial est la plus ténue.

RobotiquePaper

1 source

2arXiv cs.RO

Planification multi-robots en millisecondes : primitives accélérées par vecteurs pour la planification par échantillonnage

Une équipe de chercheurs a publié une avancée significative dans la planification de mouvements pour systèmes multi-robots, en étendant le cadre VAMP (Vector-Accelerated Motion Planning) au domaine de la planification de mouvements multi-robots (MRMP). Leurs travaux, présentés dans l'article arXiv:2604.23960, introduisent deux nouvelles primitives algorithmiques baptisées MotVal (multi-robot Motion Validation) et FFC (FindFirstConflict), qui exploitent le parallélisme SIMD, une technique d'exécution simultanée d'opérations identiques sur plusieurs données, pour accélérer massivement les calculs. Les résultats sont frappants : sur les tests de validation de mouvements purs, le gain de vitesse atteint plus de 1 100 fois par rapport aux approches conventionnelles, et les temps de planification globaux progressent d'un facteur supérieur à 850 dans de nombreux scénarios, permettant de générer des trajectoires coordonnées en quelques millisecondes. Ces performances changent concrètement ce qu'il est possible d'envisager pour les systèmes robotiques en temps réel. Aujourd'hui, la planification de trajectoires pour plusieurs robots simultanément constitue un goulot d'étranglement majeur : les délais de calcul empêchent les robots d'opérer de façon fluide et réactive, notamment dans des environnements dynamiques comme les entrepôts automatisés, les lignes de production ou la chirurgie assistée. Réduire ces délais à l'échelle de la milliseconde ouvre la voie à des flottes de robots capables de se coordonner en temps quasi réel, sans compromettre la sécurité ni la précision. Les gains ont été observés sur des configurations variées, incluant des bras manipulateurs, des robots à corps rigide et des équipes hétérogènes combinant différents types de machines. La planification de mouvements multi-robots est un problème combinatoire notoirement difficile, dont la complexité explose avec le nombre d'agents. VAMP, le cadre sur lequel s'appuient ces travaux, avait déjà démontré l'efficacité de l'accélération vectorielle pour un seul robot. Cette extension au cas multi-robot représente un saut qualitatif important. La capacité à modifier des algorithmes MRMP existants pour intégrer ces primitives suggère une adoption potentiellement large, sans repartir de zéro. Les prochaines étapes naturelles incluront des tests en environnements réels et l'intégration dans des middlewares robotiques standards comme ROS 2, où ce type d'accélération pourrait rapidement devenir un composant incontournable.

RobotiquePaper

1 source

3arXiv cs.RO

Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO

Des chercheurs ont publié une architecture permettant d'intégrer un agent de sécurité guidé par un grand modèle de langage (LLM) dans des robots embarqués fonctionnant à la périphérie du réseau, tout en respectant les normes industrielles de sécurité fonctionnelle. Le système, présenté dans une prépublication arXiv (2604.20193), repose sur une architecture perception-calcul-contrôle conforme à la norme ISO 13849. Concrètement, il convertit des règles de sécurité formulées en langage naturel en prédicats exécutables, déployés sur un environnement d'exécution hétérogène et redondant. Pour garantir la tolérance aux pannes, les chercheurs adoptent une redondance duale symétrique : deux modules indépendants fonctionnent en parallèle pour la perception, le calcul et le contrôle. Le prototype tourne sur une plateforme à double processeur RK3588, une puce ARM développée par Rockchip, et a été évalué dans des scénarios typiques d'interaction humain-robot. L'enjeu est fondamental : la sécurité fonctionnelle industrielle exige des comportements déterministes, c'est-à-dire prévisibles et reproductibles à chaque exécution, alors que la perception par IA reste intrinsèquement probabiliste. Cette incompatibilité freine depuis des années le déploiement de robots intelligents dans des espaces où des humains circulent. En atteignant le niveau ISO 13849 Catégorie 3 et Performance Level d avec du matériel grand public peu coûteux, cette approche ouvre la voie à des systèmes robotiques certifiables sans processeurs spécialisés hors de prix. Pour les intégrateurs industriels et fabricants de cobots, c'est un signal clair : la sécurité certifiable pourrait bientôt s'appliquer à bien plus large échelle. La montée en puissance des robots collaboratifs dans les usines, entrepôts et environnements de soins a rendu urgente la question de la certification. Les normes ISO 13849 définissent des niveaux de performance de PL a à PL e selon la probabilité de défaillance dangereuse ; atteindre PL d est généralement requis pour des équipements opérant à proximité directe d'humains. L'utilisation d'un LLM pour interpréter et codifier automatiquement des règles de sécurité en langage naturel est une approche originale qui pourrait simplifier radicalement la configuration de ces systèmes. La prochaine étape décisive sera la validation formelle par des organismes de certification indépendants, condition indispensable à une adoption industrielle à grande échelle.

UELes fabricants européens de cobots et intégrateurs industriels pourraient accéder à une voie de certification ISO 13849 PL d à moindre coût, sous réserve de validation par des organismes notifiés européens.

RobotiqueOpinion

1 source

4MarkTechPost

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic