RobotiqueMarkTechPost2h

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Résumé IASource uniqueImpact UE

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action.

Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU.

Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Pandaily

AGIBOT et l'Institut de promotion du commerce et des investissements de Macao concluent un partenariat stratégique pour déployer l'IA incarnée à l'échelle mondiale

AGIBOT, entreprise chinoise spécialisée dans la robotique et l'intelligence artificielle incarnée, a signé un accord-cadre de partenariat stratégique avec l'Institut de promotion du commerce et des investissements de Macao (IPIM), lors d'une cérémonie tenue à Lisbonne, au Portugal. Cet accord prévoit la création d'une entité commerciale à Macao dédiée à la fabrication, à l'assemblage, à la R&D, ainsi qu'aux ventes et services après-vente de robots. La zone de coopération approfondie Guangdong-Macao à Hengqin servira de base de production, tandis que Macao constituera le centre commercial et de marque, selon un modèle hybride du type "R&D à Macao, production à Hengqin". Les deux parties envisagent également d'établir un centre de données conjoint avec des universités locales, orienté vers la collecte de données et le développement d'applications en intelligence artificielle incarnée. Les marchés cibles comprennent la Grande Baie, les pays lusophones et l'Asie du Sud-Est. Ce partenariat représente une étape significative dans la stratégie de mondialisation d'AGIBOT, qui s'appuie sur le positionnement unique de Macao comme plateforme de coopération commerciale entre la Chine et les pays de langue portugaise. Pour AGIBOT, l'accès à ce corridor diplomatique et économique ouvre des débouchés dans des marchés émergents difficiles à pénétrer directement depuis la Chine continentale, notamment le Brésil, le Portugal, l'Angola ou le Mozambique. L'IPIM apportera un accompagnement complet via son service "China-Portuguese Trade Navigator", incluant consultations sur les environnements d'investissement, cadres réglementaires, mise en relation avec des partenaires locaux, et soutien au développement des talents technologiques. Ce type de structure permettrait à AGIBOT de contourner certaines barrières réglementaires et géopolitiques en bénéficiant du statut particulier de Macao au sein du système juridique sino-portugais. La robotique incarnée, qui désigne des systèmes d'IA intégrés dans des robots physiques capables d'interagir avec leur environnement réel, est devenue l'un des fronts les plus compétitifs de l'industrie technologique mondiale. AGIBOT, fondée en 2023 et soutenue par des investisseurs de premier plan, s'est positionnée parmi les acteurs chinois les plus ambitieux de ce secteur, aux côtés d'Unitree Robotics et de Fourier Intelligence. La signature à Lisbonne n'est pas anodine : elle illustre une tendance plus large des entreprises chinoises de haute technologie à utiliser Macao comme tête de pont vers l'Europe et l'Afrique lusophone, profitant des avantages fiscaux et de la liberté de circulation des capitaux propres à ce territoire. AGIBOT a indiqué qu'elle avancerait sur ce projet en veillant à la conformité réglementaire, tout en s'impliquant activement dans la formation de talents locaux, ce qui pourrait faciliter son intégration dans les écosystèmes technologiques des marchés cibles.

UELe partenariat, signé à Lisbonne, vise à utiliser Macao comme tête de pont vers le Portugal et l'Europe lusophone, ce qui pourrait à terme ouvrir des débouchés commerciaux pour les robots AGIBOT sur le marché européen.

RobotiqueActu

1 source

2arXiv cs.RO

Modèles VLA : éviter le verrouillage et préserver le contrôle lors de l'affinage avec peu de données

Des chercheurs ont publié sur arXiv un article présentant DeLock, une méthode destinée à résoudre un problème concret rencontré lors de l'entraînement de politiques robotiques dites "vision-langage-action" (VLA). Ces modèles, conçus pour contrôler des robots en combinant perception visuelle et instructions en langage naturel, perdent leur capacité à généraliser dès qu'on les affine sur un petit jeu de données. Le phénomène, baptisé "lock-in", se manifeste sous deux formes : le concept lock-in, où le modèle se fixe sur les objets ou attributs vus à l'entraînement, et le spatial lock-in, où il se cantonne aux positions spatiales rencontrées durant la phase de fine-tuning. DeLock combine la préservation de l'ancrage visuel pendant le post-entraînement avec un guidage contrastif appliqué au moment de l'inférence pour orienter dynamiquement la génération d'actions selon de nouvelles instructions. Sur huit évaluations en simulation et en conditions réelles, il surpasse les méthodes concurrentes et égale ou dépasse les performances d'une politique généraliste entraînée sur un volume de données nettement plus important. Ce résultat est particulièrement significatif pour les équipes qui développent des robots polyvalents avec des budgets de données limités. Jusqu'ici, récupérer la généralisation perdue après un fine-tuning minimal exigeait soit des signaux de supervision supplémentaires issus de modèles fondationnels, soit des jeux de données augmentés, deux ressources coûteuses à produire. DeLock montre qu'il est inutile de chercher ailleurs : la connaissance pré-entraînée du modèle suffit, à condition de ne pas l'écraser pendant l'adaptation. Pour les développeurs d'applications robotiques industrielles ou domestiques, cela ouvre la voie à des déploiements spécialisés beaucoup plus accessibles, sans sacrifier la flexibilité face à des ordres inédits. Le lock-in illustre une tension fondamentale en apprentissage automatique entre spécialisation et généralisation, particulièrement aiguë en robotique où collecter des démonstrations physiques est lent et onéreux. Les grandes politiques VLA généralistes comme OpenVLA ou pi0 ont montré que l'entraînement à grande échelle produit des agents capables de suivre des instructions variées, mais leur adaptation à des tâches précises reste fragile. DeLock s'inscrit dans un courant de recherche cherchant à rendre ces modèles à la fois spécialisables et robustes, une propriété indispensable si l'on veut déployer des robots utiles dans des environnements réels et changeants.

RobotiqueOpinion

1 source

3MarkTechPost

MolmoAct : implémentation pour le raisonnement spatial 3D, le suivi de trajectoire et la prédiction robotique

Des chercheurs d'AllenAI ont publié MolmoAct, un modèle multimodal de 7 milliards de paramètres conçu pour raisonner dans l'espace tridimensionnel à partir d'observations visuelles. Le modèle, identifié sous la référence allenai/MolmoAct-7B-D-0812, accepte des entrées multi-vues, c'est-à-dire plusieurs images prises sous différents angles, et génère à partir d'instructions en langage naturel trois types de sorties : une estimation de profondeur, une trajectoire visuelle tracée, et des commandes d'action directement exploitables par un système robotique. Un tutoriel d'implémentation complet a été publié pour permettre aux développeurs de reproduire l'ensemble du pipeline dans Google Colab, en s'appuyant sur PyTorch 2.0 ou supérieur, la bibliothèque Transformers en version 4.52, et une infrastructure GPU standard. Ce type de modèle représente un changement de paradigme dans la robotique pilotée par l'IA : plutôt que de séparer la perception visuelle, la compréhension spatiale et la planification motrice dans des modules distincts, MolmoAct intègre ces trois capacités dans un seul réseau neuronal interrogeable en langage humain. Concrètement, un opérateur peut demander au modèle d'atteindre un objet dans une scène complexe, et le système produit directement la séquence d'actions requise, en tenant compte des distances et obstacles perçus dans les images. Pour les équipes travaillant sur des bras robotiques, des drones autonomes ou des systèmes d'assistance, cette architecture réduit considérablement la complexité d'intégration et ouvre la voie à des robots pilotables par des non-spécialistes. MolmoAct s'inscrit dans une vague de modèles dits "action-reasoning" qui cherchent à combler le fossé entre vision par ordinateur et contrôle robotique. AllenAI, l'institut de recherche fondé par Paul Allen et affilié à l'Université de Washington, développe depuis plusieurs années la famille de modèles Molmo, positionnée comme une alternative ouverte aux modèles multimodaux propriétaires de Google ou OpenAI. La publication d'un tutoriel d'implémentation pas-à-pas, avec un code entièrement reproductible et accessible sur des GPUs grand public, traduit une volonté délibérée de démocratiser ces capacités. La prochaine étape naturelle sera l'évaluation de MolmoAct sur des benchmarks robotiques standardisés et son intégration dans des environnements physiques réels, où la robustesse face aux variations d'éclairage et d'occlusion restera le principal défi.

RobotiqueOpinion

1 source

4arXiv cs.RO

KERV : décodage spéculatif à correction cinématique pour modèles VLA incarnés

Des chercheurs ont publié KERV (Kinematic-Rectified Speculative Decoding), un nouveau cadre d'optimisation destiné à accélérer les modèles Vision-Language-Action (VLA) utilisés pour le contrôle robotique. Ces modèles VLA, qui pilotent les robots en générant des séquences de tokens représentant des actions, souffrent d'une vitesse d'inférence trop faible pour de nombreuses applications en temps réel. L'approche proposée combine la technique de décodage spéculatif (Speculative Decoding, SD) avec des prédictions issues de la cinématique robotique, permettant d'atteindre une accélération de 27 à 37 % selon les tâches, sans perte mesurable du taux de succès. Le décodage spéculatif, déjà éprouvé pour les grands modèles de langage, pose deux problèmes spécifiques lorsqu'on l'applique aux VLA : d'une part, la correction des erreurs de tokens implique des re-inférences coûteuses en calcul ; d'autre part, régler le seuil d'acceptation des tokens est délicat et sensible au contexte. KERV résout ces deux obstacles en intégrant un filtre de Kalman basé sur la cinématique, qui prédit les actions futures et corrige les erreurs du décodage spéculatif sans recourir à ces re-inférences. Une stratégie d'ajustement dynamique du seuil d'acceptation, également fondée sur la cinématique, vient compléter le dispositif pour s'adapter automatiquement aux conditions d'exécution. Cette contribution s'inscrit dans une tendance de fond : la robotique incarnée (embodied intelligence) cherche à réduire l'écart entre les capacités de raisonnement des IA génératives et les contraintes du monde physique, notamment la latence. Les modèles VLA, en plein essor depuis les travaux de Google et Physical Intelligence sur des architectures comme RT-2 ou pi0, sont prometteurs mais trop lents pour des robots opérant dans des environnements dynamiques. En greffant la physique du mouvement sur l'inférence neuronale, KERV ouvre une voie pragmatique vers des robots plus réactifs, sans nécessiter de refonte architecturale majeure, un atout décisif pour le déploiement industriel à court terme.

RobotiqueOpinion

1 source