Aller au contenu principal
Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir
RobotiqueThe Decoder3j

Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Les World Action Models (WAM) constituent une nouvelle famille de modèles d'IA pour la robotique, documentée dans une étude récente qui recense et organise une centaine de publications scientifiques autour de deux grandes lignes architecturales. Contrairement aux systèmes actuels, ces modèles ne se contentent pas d'associer des mouvements à des images de caméra : ils simulent mentalement les conséquences d'une action avant de l'exécuter, en modélisant comment l'environnement va évoluer.

L'enjeu est considérable pour le secteur. Les robots industriels et domestiques actuels restent fragiles face à l'imprévu, car leurs modèles n'ont aucune représentation interne de la physique du monde. Les WAM offrent une capacité de planification proactive : un bras robotique peut anticiper qu'attraper un objet d'une certaine façon le fera basculer, et corriger sa trajectoire avant même de bouger. Cela ouvre la voie à des robots beaucoup plus robustes et adaptables dans des environnements non contrôlés.

L'avantage décisif de cette approche réside dans les données d'entraînement : les WAM peuvent apprendre à partir de vidéos ordinaires du monde réel, sans étiquetage des actions robotiques, un type de donnée qui était jusqu'ici quasi inutilisable pour les IA robotiques classiques. Cette propriété lève un verrou majeur, car les vidéos non annotées sont disponibles en quantité massive sur internet. La compétition entre laboratoires de recherche et géants de la tech pour maîtriser ce type de modèle devrait s'intensifier dans les prochains mois.

💬 Le point de vue du dev

Ce qui m'intéresse là-dedans, c'est pas le robot qui réfléchit avant de bouger, c'est qu'il peut apprendre à partir de vidéos ordinaires, sans annotation spécifique. Les données robotiques étiquetées coûtent une fortune à produire, les vidéos YouTube non, et il y en a des milliards d'heures. C'est le genre de verrou qui, une fois levé, accélère tout le reste.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact
1arXiv cs.RO 

Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact

Des chercheurs ont publié sur arXiv (référence 2604.20692) un cadre d'évaluation cinématique permettant d'analyser les configurations de pincement des mains robotiques sans avoir recours à des modèles d'objets ni à des modèles de force de contact. La méthode repose sur le calcul de l'espace de travail atteignable par chaque bout de doigt à partir des configurations articulaires, puis sur la détection de configurations de pincement réalisables en évaluant les relations géométriques entre les paires de bouts de doigts. Quatre structures cinématiques différentes de main ont été comparées afin d'examiner leur influence sur les configurations de pincement possibles. Pour les concepteurs de mains robotiques, cet apport est concret : il devient possible d'évaluer la dextérité de préhension d'un prototype dès les premières phases de conception, sans avoir à modéliser les objets à saisir ni à simuler les forces de contact. Ces étapes, traditionnellement coûteuses en temps de calcul et en données, constituaient un frein majeur à l'itération rapide sur les designs. En permettant une évaluation fondée uniquement sur la structure cinématique de la main, le framework ouvre la voie à des cycles de développement plus courts et à une comparaison objective entre différentes architectures mécaniques. La robotique de manipulation traverse une période d'intense compétition, portée par l'essor des robots humanoïdes et des bras industriels autonomes. Les mains robotiques dotées d'une dextérité fine restent l'un des grands défis non résolus du secteur, que ce soit pour des usages industriels ou médicaux. Les méthodes d'évaluation existantes supposent généralement que l'objet à manipuler est connu à l'avance, ce qui les rend peu utiles lors des premières étapes de conception matérielle. Ce travail s'inscrit dans un courant de recherche visant à abstraire l'évaluation de la dextérité, et pourrait à terme être intégré dans des outils de conception assistée par ordinateur pour accélérer le développement de nouvelles générations de mains robotiques polyvalentes.

RobotiqueActu
1 source
Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris
2The Decoder 

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris

La start-up américaine Physical Intelligence a présenté π0.7, un nouveau modèle de fondation pour robots capable de recombiner des compétences acquises lors de l'entraînement pour accomplir des tâches inédites. Le principe rappelle directement le fonctionnement des grands modèles de langage, qui assemblent des fragments de leur corpus d'entraînement pour générer du texte nouveau. Les chercheurs qualifient ce phénomène de premières traces de "généralisation compositionnelle" en robotique, une capacité jusqu'ici considérée comme l'un des grands verrous du domaine. L'enjeu est considérable : un robot capable de composer librement ses compétences peut théoriquement s'adapter à des environnements non prévus lors de l'entraînement, sans reprogrammation manuelle. C'est précisément ce qui distingue l'intelligence artificielle générale de la robotique traditionnelle, figée dans des séquences prédéfinies. Physical Intelligence reconnaît toutefois que le modèle présente encore des défauts notables, signe que cette généralisation reste fragile et partielle à ce stade. Physical Intelligence, fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Berkeley, s'est imposée comme l'un des acteurs les plus ambitieux de la robotique dite "généraliste". La société avait déjà publié π0 en 2024, un premier modèle de fondation polyvalent entraîné sur une large variété de tâches physiques. L'annonce de π0.7 s'inscrit dans une course plus large impliquant Figure AI, Agility Robotics et Tesla, tous en quête du même Graal : un robot capable d'apprendre une fois et de s'adapter partout.

RobotiqueOpinion
1 source
Des blocs reconfigurables permettent aux robots d'assembler et réutiliser des bâtiments
3Interesting Engineering 

Des blocs reconfigurables permettent aux robots d'assembler et réutiliser des bâtiments

Des chercheurs du MIT ont mis au point un système de construction modulaire dans lequel des unités structurelles légères, appelées voxels, peuvent être assemblées par des robots pour former des bâtiments à l'échelle réelle. Publiés par le groupe de recherche du MIT, ces travaux présentent des blocs géométriquement conçus pour s'emboîter sans fixations permanentes, selon un principe de réseau en treillis où les forces se répartissent sur l'ensemble de l'assemblage plutôt que de se concentrer dans des colonnes ou des poutres isolées. Les robots progressent le long de la structure au fur et à mesure de sa construction, plaçant et connectant chaque unité en séquence. L'ensemble du système a été pensé autour de ce que les machines peuvent exécuter de manière fiable, une logique inverse par rapport au chantier traditionnel, où les outils robotiques sont généralement intégrés à des méthodes conçues pour des équipes humaines. L'enjeu est à la fois environnemental et économique. Les chercheurs estiment que la construction par voxels pourrait produire une empreinte carbone nettement inférieure à celle des méthodes conventionnelles, grâce à deux facteurs : une utilisation plus légère des matériaux par volume construit, et la possibilité de récupérer et de réutiliser les composants en fin de vie plutôt que de les démolir. Le béton et l'acier génèrent d'importants volumes de carbone incorporé lors de leur fabrication ; un voxel, lui, pourrait théoriquement traverser plusieurs bâtiments successifs au cours de sa durée de vie. L'automatisation modifie également l'équation du travail : en confiant les tâches de placement répétitives à des robots, le système pourrait réduire les coûts et accélérer les délais de construction pour des structures standardisées. Le projet s'inscrit dans une trajectoire de recherche plus large sur la construction numérique, l'idée que les bâtiments, à l'image de produits manufacturés, peuvent être spécifiés en unités discrètes lisibles par des machines. Mais des limites importantes subsistent à ce stade. Le système s'applique uniquement à des formes géométriquement simples ; les plans irréguliers, les structures mixtes en hauteur et l'intégration des réseaux électriques, de plomberie ou de climatisation dans les parois portantes restent hors de portée. L'imperméabilité, l'isolation thermique et acoustique ne sont pas non plus résolues par la géométrie des voxels seuls. La question de la montée en échelle vers des chantiers multi-étages en conditions réelles demeure entière. Si ces obstacles sont surmontés, l'approche pourrait transformer en profondeur la manière dont architectes et ingénieurs conçoivent et démantèlent les bâtiments de demain.

RobotiqueActu
1 source
Des agents IA pour les équipes de robots
4IEEE Spectrum AI 

Des agents IA pour les équipes de robots

Le laboratoire de physique appliquée de l'université Johns Hopkins (APL) a publié une présentation détaillant ses travaux récents sur l'IA agentique appliquée aux équipes de robots collaboratifs. Baptisée "Agentic AI for Robot Teams", cette communication expose une architecture scalable conçue pour doter des systèmes robotiques hétérogènes de capacités d'autonomie, de coordination et d'adaptabilité. Les chercheurs y décrivent comment des agents fondés sur des grands modèles de langage (LLM) peuvent être déployés sur du matériel réel, avec des démonstrations impliquant des équipes de robots aux profils et capacités différents. Le document, disponible sous forme de livre blanc, présente également les leçons tirées des phases de recherche et développement en cours. L'enjeu est considérable : faire travailler ensemble des robots qui ne partagent ni les mêmes capteurs, ni les mêmes actionneurs, ni les mêmes logiciels impose des défis de coordination que les architectures classiques peinent à résoudre. En intégrant des LLM comme couche de raisonnement et de planification, les équipes de l'APL cherchent à rendre ces systèmes capables de s'adapter dynamiquement aux imprévus, de se répartir les tâches et de maintenir une cohérence collective sans supervision humaine constante. Cette approche pourrait transformer des domaines comme la logistique autonome, la gestion de catastrophes, les opérations militaires ou l'exploration de milieux hostiles, où envoyer des équipes humaines reste risqué ou impossible. Le Johns Hopkins APL est l'un des principaux centres de recherche appliquée du Département de la Défense américain, ce qui situe ces travaux dans un contexte stratégique lié à la robotique militaire et aux systèmes autonomes multi-agents. La montée en puissance des LLM depuis 2022 a ouvert une nouvelle voie pour la robotique agentique, jusqu'ici freinée par la rigidité des architectures de contrôle traditionnelles. Les suites annoncées portent sur la généralisation de l'architecture à des équipes plus larges et plus hétérogènes, ainsi que sur l'amélioration de la robustesse dans des environnements dégradés ou incertains.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour