RobotiqueThe Decoder · 14 mars 2026, 11:25· 1 min de lecture

Nouveaux modèles de robotique : Ai2 met à disposition des versions entraînées uniquement en simulation pour éviter la collecte de données dans le monde réel

L'Allen Institute for AI (Ai2) franchit une étape significative dans le domaine de la robotique en publiant de nouveaux modèles entraînés exclusivement en environnements virtuels simulés, sans recourir à la moindre donnée issue du monde réel. Ces modèles sont capables d'opérer dans des environnements physiques réels malgré l'absence totale de données d'entraînement réelles, une démonstration qui remet en question une hypothèse fondamentale du domaine.

L'enjeu est considérable : la collecte de données robotiques dans le monde réel est l'un des principaux goulets d'étranglement du secteur. Elle est coûteuse, lente et difficile à mettre à l'échelle. Si la simulation seule suffit à produire des modèles fonctionnels, cela ouvre la voie à un développement beaucoup plus rapide et accessible de systèmes robotiques, en particulier pour des acteurs qui ne disposent pas de flottes de robots physiques ou d'infrastructures de collecte à grande échelle.

Ai2 s'inscrit dans une tendance plus large dite de "sim-to-real transfer", qui consiste à entraîner des agents dans des mondes virtuels avant de les déployer dans la réalité. Ce qui distingue ici l'approche de l'institut, c'est la revendication d'un transfert sans aucune donnée réelle, là où la plupart des méthodes actuelles combinent simulation et fine-tuning sur données physiques. Les modèles sont mis à disposition publiquement, signalant une volonté de contribuer à la recherche ouverte en robotique.

Cette publication pourrait accélérer les travaux sur des architectures de modèles robotiques plus généralisables, réduisant la dépendance aux données propriétaires coûteuses, un avantage stratégique non négligeable à mesure que la compétition dans la robotique incarnée s'intensifie entre laboratoires académiques et acteurs industriels comme Google DeepMind, Figure ou Physical Intelligence.

Dans nos dossiers

Google DeepMind

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact

Des chercheurs ont publié sur arXiv (référence 2604.20692) un cadre d'évaluation cinématique permettant d'analyser les configurations de pincement des mains robotiques sans avoir recours à des modèles d'objets ni à des modèles de force de contact. La méthode repose sur le calcul de l'espace de travail atteignable par chaque bout de doigt à partir des configurations articulaires, puis sur la détection de configurations de pincement réalisables en évaluant les relations géométriques entre les paires de bouts de doigts. Quatre structures cinématiques différentes de main ont été comparées afin d'examiner leur influence sur les configurations de pincement possibles. Pour les concepteurs de mains robotiques, cet apport est concret : il devient possible d'évaluer la dextérité de préhension d'un prototype dès les premières phases de conception, sans avoir à modéliser les objets à saisir ni à simuler les forces de contact. Ces étapes, traditionnellement coûteuses en temps de calcul et en données, constituaient un frein majeur à l'itération rapide sur les designs. En permettant une évaluation fondée uniquement sur la structure cinématique de la main, le framework ouvre la voie à des cycles de développement plus courts et à une comparaison objective entre différentes architectures mécaniques. La robotique de manipulation traverse une période d'intense compétition, portée par l'essor des robots humanoïdes et des bras industriels autonomes. Les mains robotiques dotées d'une dextérité fine restent l'un des grands défis non résolus du secteur, que ce soit pour des usages industriels ou médicaux. Les méthodes d'évaluation existantes supposent généralement que l'objet à manipuler est connu à l'avance, ce qui les rend peu utiles lors des premières étapes de conception matérielle. Ce travail s'inscrit dans un courant de recherche visant à abstraire l'évaluation de la dextérité, et pourrait à terme être intégré dans des outils de conception assistée par ordinateur pour accélérer le développement de nouvelles générations de mains robotiques polyvalentes.

RobotiqueActu

1 source

2The Decoder

Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir

Les World Action Models (WAM) constituent une nouvelle famille de modèles d'IA pour la robotique, documentée dans une étude récente qui recense et organise une centaine de publications scientifiques autour de deux grandes lignes architecturales. Contrairement aux systèmes actuels, ces modèles ne se contentent pas d'associer des mouvements à des images de caméra : ils simulent mentalement les conséquences d'une action avant de l'exécuter, en modélisant comment l'environnement va évoluer. L'enjeu est considérable pour le secteur. Les robots industriels et domestiques actuels restent fragiles face à l'imprévu, car leurs modèles n'ont aucune représentation interne de la physique du monde. Les WAM offrent une capacité de planification proactive : un bras robotique peut anticiper qu'attraper un objet d'une certaine façon le fera basculer, et corriger sa trajectoire avant même de bouger. Cela ouvre la voie à des robots beaucoup plus robustes et adaptables dans des environnements non contrôlés. L'avantage décisif de cette approche réside dans les données d'entraînement : les WAM peuvent apprendre à partir de vidéos ordinaires du monde réel, sans étiquetage des actions robotiques, un type de donnée qui était jusqu'ici quasi inutilisable pour les IA robotiques classiques. Cette propriété lève un verrou majeur, car les vidéos non annotées sont disponibles en quantité massive sur internet. La compétition entre laboratoires de recherche et géants de la tech pour maîtriser ce type de modèle devrait s'intensifier dans les prochains mois.

💬 Ce qui m'intéresse là-dedans, c'est pas le robot qui réfléchit avant de bouger, c'est qu'il peut apprendre à partir de vidéos ordinaires, sans annotation spécifique. Les données robotiques étiquetées coûtent une fortune à produire, les vidéos YouTube non, et il y en a des milliards d'heures. C'est le genre de verrou qui, une fois levé, accélère tout le reste.

RobotiqueOpinion

1 source

3arXiv cs.RO

Les modèles vision-langage-action en robotique : panorama des jeux de données, benchmarks et moteurs de données

Une équipe de chercheurs a publié sur arXiv (référence 2604.23001) une analyse exhaustive de l'état des données dans les modèles Vision-Langage-Action (VLA) appliqués à la robotique. Ces modèles, qui permettent à un robot de percevoir son environnement visuel, d'interpréter des instructions en langage naturel et d'exécuter des actions physiques, connaissent des progrès spectaculaires depuis deux ans. Pourtant, selon les auteurs, le vrai goulot d'étranglement n'est pas l'architecture des modèles : c'est l'infrastructure des données. L'étude passe en revue trois dimensions clés, les jeux de données, les benchmarks d'évaluation, et les moteurs de génération de données, en cartographiant systématiquement leurs forces et leurs lacunes. Ce travail met en lumière un problème fondamental qui freine toute la discipline : collecter des données robotiques de haute fidélité coûte extrêmement cher, ce qui pousse les équipes vers des données synthétiques moins réalistes. Les benchmarks actuels, censés mesurer les capacités des robots, peinent à évaluer deux compétences pourtant cruciales, la généralisation compositionnelle (combiner des tâches apprises pour en résoudre de nouvelles) et le raisonnement sur des séquences longues. Autrement dit, les robots paraissent performants dans les tests, mais restent fragiles face à des situations légèrement différentes de celles rencontrées lors de l'entraînement. Pour les industriels et les laboratoires qui investissent massivement dans la robotique autonome, ce décalage entre métriques et réalité représente un risque concret. Le domaine de l'IA incarnée (embodied AI) est aujourd'hui dominé par des acteurs comme Google DeepMind, Meta, Physical Intelligence ou encore des équipes universitaires qui rivalisent pour entraîner des robots généralistes. Les auteurs identifient quatre défis ouverts : aligner les représentations visuelles et textuelles, améliorer la supervision multimodale, mieux évaluer le raisonnement, et générer des données à grande échelle sans perdre en réalisme physique. Leur conclusion est nette : traiter l'infrastructure de données comme un objet de recherche à part entière, et non comme un arrière-plan technique, est la condition pour que les prochaines générations de VLA tiennent leurs promesses hors des laboratoires.

RobotiqueOpinion

1 source

4The Decoder

Xiaomi-Robotics-1 montre que plus de données valent mieux que des modèles plus grands pour entraîner des robots à se déplacer

Xiaomi a entraîné son modèle Xiaomi-Robotics-1 en s'appuyant sur plus de 100 000 heures de données de mouvement, collectées non pas via des robots mais grâce à des humains munis de préhenseurs portatifs équipés de caméras. Cette méthode permet de capturer des gestes naturels et variés à moindre coût, sans mobiliser de flottes de robots physiques pour l'entraînement. Le constat central de l'étude est clair : augmenter le volume de données a bien plus amélioré les performances du modèle que d'agrandir sa taille. Les chercheurs de Xiaomi notent également que les gains de performance n'ont pas encore atteint de plateau, ce qui suggère qu'il existe encore une marge de progression significative en continuant simplement à collecter davantage de données. Ce résultat a une portée importante pour l'industrie de la robotique, où le débat entre "scaling" des modèles et scaling des données reste vif, à l'image des discussions similaires dans le monde des grands modèles de langage. Si la donnée prime sur la taille du modèle, cela change la stratégie d'investissement des entreprises du secteur : plutôt que de construire des architectures toujours plus massives et coûteuses en calcul, il devient plus rentable de financer des campagnes de collecte de données à grande échelle. Toutefois, l'article souligne une limite de taille : les taux de réussite absolus des tâches restent faibles, ce qui rappelle que la robotique généraliste est encore loin d'une maturité comparable à celle du traitement du langage. Cette approche s'inscrit dans une tendance plus large de l'industrie à chercher des méthodes de collecte de données moins coûteuses que le télé-opération classique de robots, qui nécessite du matériel spécialisé et des opérateurs formés. En utilisant des préhenseurs portables, Xiaomi rejoint d'autres acteurs explorant des pipelines de données "human-first" pour l'apprentissage robotique. La question qui reste ouverte est de savoir jusqu'où cette courbe de progression liée aux données peut se poursuivre avant de rencontrer d'autres obstacles, comme la diversité des environnements réels ou la fiabilité physique des robots déployés hors laboratoire.

RobotiquePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic