Aller au contenu principal
MolmoAct : implémentation pour le raisonnement spatial 3D, le suivi de trajectoire et la prédiction robotique
RobotiqueMarkTechPost7sem

MolmoAct : implémentation pour le raisonnement spatial 3D, le suivi de trajectoire et la prédiction robotique

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs d'AllenAI ont publié MolmoAct, un modèle multimodal de 7 milliards de paramètres conçu pour raisonner dans l'espace tridimensionnel à partir d'observations visuelles. Le modèle, identifié sous la référence allenai/MolmoAct-7B-D-0812, accepte des entrées multi-vues, c'est-à-dire plusieurs images prises sous différents angles, et génère à partir d'instructions en langage naturel trois types de sorties : une estimation de profondeur, une trajectoire visuelle tracée, et des commandes d'action directement exploitables par un système robotique. Un tutoriel d'implémentation complet a été publié pour permettre aux développeurs de reproduire l'ensemble du pipeline dans Google Colab, en s'appuyant sur PyTorch 2.0 ou supérieur, la bibliothèque Transformers en version 4.52, et une infrastructure GPU standard.

Ce type de modèle représente un changement de paradigme dans la robotique pilotée par l'IA : plutôt que de séparer la perception visuelle, la compréhension spatiale et la planification motrice dans des modules distincts, MolmoAct intègre ces trois capacités dans un seul réseau neuronal interrogeable en langage humain. Concrètement, un opérateur peut demander au modèle d'atteindre un objet dans une scène complexe, et le système produit directement la séquence d'actions requise, en tenant compte des distances et obstacles perçus dans les images. Pour les équipes travaillant sur des bras robotiques, des drones autonomes ou des systèmes d'assistance, cette architecture réduit considérablement la complexité d'intégration et ouvre la voie à des robots pilotables par des non-spécialistes.

MolmoAct s'inscrit dans une vague de modèles dits "action-reasoning" qui cherchent à combler le fossé entre vision par ordinateur et contrôle robotique. AllenAI, l'institut de recherche fondé par Paul Allen et affilié à l'Université de Washington, développe depuis plusieurs années la famille de modèles Molmo, positionnée comme une alternative ouverte aux modèles multimodaux propriétaires de Google ou OpenAI. La publication d'un tutoriel d'implémentation pas-à-pas, avec un code entièrement reproductible et accessible sur des GPUs grand public, traduit une volonté délibérée de démocratiser ces capacités. La prochaine étape naturelle sera l'évaluation de MolmoAct sur des benchmarks robotiques standardisés et son intégration dans des environnements physiques réels, où la robustesse face aux variations d'éclairage et d'occlusion restera le principal défi.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
1MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique
2Ars Technica AI 

Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique

Hugging Face a publié le projet LeRobot Humanoid, une paire de jambes robotiques humanoïdes conçue pour être accessible aux chercheurs et aux développeurs. L'ensemble coûte environ 2 500 dollars et repose sur des pièces imprimées en 3D ainsi que des composants disponibles dans le commerce. La publication est complète : elle comprend une liste de matériaux, les fichiers nécessaires à l'impression des pièces, la documentation de câblage, les instructions d'assemblage physique, ainsi que des outils logiciels pour calibrer et contrôler le robot, que ce soit dans un corps physique ou en simulation. Le projet a été présenté dans un billet de blog cosigné par Virgile Batto, ingénieur en robotique chez Hugging Face. Cette initiative pourrait significativement abaisser la barrière d'entrée dans la recherche en robotique humanoïde. Jusqu'ici, développer un robot physique capable de servir de plateforme d'expérimentation représentait un investissement prohibitif, souvent réservé aux grands laboratoires académiques ou aux entreprises bien financées. Disposer d'un corps physique à moins de 3 000 dollars permet aux équipes de taille modeste de tester et d'entraîner des logiciels d'IA robotique en conditions réelles, là où la simulation seule montre ses limites. L'accès au code source, aux schémas et aux fichiers de fabrication facilite aussi la modification, la réparation et l'instrumentation du robot selon les besoins spécifiques de chaque expérience. Hugging Face s'est imposé comme une infrastructure centrale de l'écosystème IA open source, notamment autour des modèles de langage et de vision. Son incursion dans la robotique physique s'inscrit dans une dynamique plus large où plusieurs acteurs tentent de démocratiser le développement de robots intelligents, face à des projets commerciaux comme ceux de Figure AI, 1X Technologies ou Boston Dynamics, qui restent hors de portée pour la plupart des chercheurs indépendants. LeRobot Humanoid ne prétend pas concurrencer ces plateformes avancées, mais vise explicitement un public qui veut comprendre, modifier et apprendre, ouvrant potentiellement la voie à une communauté de robotique ouverte comparable à ce qu'a été Hugging Face pour les modèles de langage.

UEHugging Face, entreprise aux origines françaises cofondée à Paris, démocratise la recherche en robotique humanoïde avec un kit open source à 2 500 $, ouvrant la voie aux laboratoires académiques européens aux budgets limités.

💬 2 500 dollars pour rentrer dans la recherche en robotique humanoïde, c'est une vraie rupture. Hugging Face fait exactement ce qu'ils ont fait pour les LLMs : mettre les fichiers, la doc et les outils sur la table et laisser la communauté faire le reste. Une paire de jambes imprimées chez soi c'est encore loin de Figure AI, mais c'est pas le but.

RobotiqueOpinion
1 source
Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact
3arXiv cs.RO 

Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact

Des chercheurs ont publié sur arXiv (référence 2604.20692) un cadre d'évaluation cinématique permettant d'analyser les configurations de pincement des mains robotiques sans avoir recours à des modèles d'objets ni à des modèles de force de contact. La méthode repose sur le calcul de l'espace de travail atteignable par chaque bout de doigt à partir des configurations articulaires, puis sur la détection de configurations de pincement réalisables en évaluant les relations géométriques entre les paires de bouts de doigts. Quatre structures cinématiques différentes de main ont été comparées afin d'examiner leur influence sur les configurations de pincement possibles. Pour les concepteurs de mains robotiques, cet apport est concret : il devient possible d'évaluer la dextérité de préhension d'un prototype dès les premières phases de conception, sans avoir à modéliser les objets à saisir ni à simuler les forces de contact. Ces étapes, traditionnellement coûteuses en temps de calcul et en données, constituaient un frein majeur à l'itération rapide sur les designs. En permettant une évaluation fondée uniquement sur la structure cinématique de la main, le framework ouvre la voie à des cycles de développement plus courts et à une comparaison objective entre différentes architectures mécaniques. La robotique de manipulation traverse une période d'intense compétition, portée par l'essor des robots humanoïdes et des bras industriels autonomes. Les mains robotiques dotées d'une dextérité fine restent l'un des grands défis non résolus du secteur, que ce soit pour des usages industriels ou médicaux. Les méthodes d'évaluation existantes supposent généralement que l'objet à manipuler est connu à l'avance, ce qui les rend peu utiles lors des premières étapes de conception matérielle. Ce travail s'inscrit dans un courant de recherche visant à abstraire l'évaluation de la dextérité, et pourrait à terme être intégré dans des outils de conception assistée par ordinateur pour accélérer le développement de nouvelles générations de mains robotiques polyvalentes.

RobotiqueActu
1 source
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
4MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour