Aller au contenu principal
Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart
RobotiqueThe Decoder6sem

Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Des chercheurs de Nvidia, de l'UC Berkeley et de Stanford ont publié un nouveau cadre d'évaluation destiné à mesurer systématiquement la capacité des modèles d'IA à contrôler des robots via du code. Leurs résultats sont sans appel : sans abstractions conçues par des humains, c'est-à-dire sans briques logicielles préfabriquées qui simplifient les tâches complexes, même les meilleurs modèles disponibles échouent à piloter efficacement un robot. En revanche, des approches comme le "test-time compute scaling" ciblé, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement, permettent de combler significativement cet écart de performance.

Ces conclusions ont des implications directes pour l'industrie de la robotique autonome. Elles remettent en question l'idée que les grands modèles de langage peuvent, seuls et sans infrastructure spécialisée, prendre en charge le contrôle bas niveau de machines physiques. Pour les entreprises qui misent sur des robots autonomes dans la logistique, la fabrication ou les services, cela signifie que la conception humaine reste indispensable, du moins à court terme, et que l'autonomie complète exige encore un travail d'ingénierie non négligeable.

Ce travail s'inscrit dans une course plus large entre les laboratoires de recherche et les industriels pour rendre les robots véritablement programmables par l'IA. Nvidia, déjà très présent dans l'infrastructure d'entraînement des modèles, cherche à étendre son influence vers la couche applicative de la robotique. L'approche par échafaudage agentique, qui enchaîne des modules spécialisés plutôt que de tout déléguer à un seul modèle, semble aujourd'hui la piste la plus prometteuse pour franchir ce verrou technique.

Impact France/UE

Les industriels européens de la robotique (logistique, fabrication, services) doivent intégrer que l'autonomie complète par IA nécessite encore une ingénierie humaine substantielle, ce qui prolonge les délais et coûts de déploiement dans leurs feuilles de route.

💬 Le point de vue du dev

Sans abstractions humaines, même les meilleurs modèles ratent le contrôle robotique, et ça, c'est pas vraiment une surprise. La vraie info, c'est que l'échafaudage agentique (enchaîner des modules spécialisés plutôt que tout déléguer à un seul modèle) tient mieux ses promesses que le scaling brut à l'entraînement. Reste à voir si ça tient en prod ou si ça reste un beau résultat de labo Stanford.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des robots humanoïdes commencent à trier les bagages dans un aéroport de Tokyo face à la pénurie de main-d'œuvre
1Ars Technica AI 

Des robots humanoïdes commencent à trier les bagages dans un aéroport de Tokyo face à la pénurie de main-d'œuvre

Japan Airlines lance en mai 2026 une expérimentation de robots humanoïdes à l'aéroport international de Haneda, à Tokyo. Ces machines seront déployées pour trier les bagages et charger le fret, avec l'ambition d'élargir progressivement leurs missions au nettoyage des cabines d'avion et à la manipulation d'équipements au sol comme les chariots à bagages. Les essais sont prévus jusqu'en 2028, ce qui signifie que les passagers en transit à Haneda pourront vraisemblablement croiser ces robots en action sur le tarmac ou dans les zones de traitement des bagages au cours des deux prochaines années. Cette initiative répond à une pression concrète sur le marché du travail japonais : la fréquentation des aéroports a fortement progressé ces dernières années, creusant un écart entre les besoins en personnel et les candidats disponibles. Pour Japan Airlines, automatiser des tâches physiques répétitives et pénibles comme la manutention des bagages permettrait de compenser ce déficit sans dépendre de recrutements difficiles à réaliser. Si les essais s'avèrent concluants, ce modèle pourrait s'étendre à d'autres compagnies ou aéroports confrontés aux mêmes contraintes démographiques, notamment dans un Japon où le vieillissement de la population aggrave les tensions sur l'emploi manuel. Les robots humanoïdes franchissent ainsi une nouvelle étape après leurs premiers déploiements dans les usines automobiles et les entrepôts logistiques, environnements relativement contrôlés où les tâches sont prévisibles. Un aéroport représente un défi autrement plus complexe : espaces ouverts, flux irréguliers, interactions avec des humains, objets de formes variées. La grande majorité des automatisations industrielles reposent encore sur des bras robotisés spécialisés, conçus pour répéter indéfiniment un geste identique. Les robots humanoïdes, eux, doivent s'adapter en temps réel à des situations changeantes, ce qui met à l'épreuve les dernières générations de logiciels de perception et de contrôle moteur. L'expérience de Haneda servira de test grandeur nature pour mesurer si la technologie actuelle est réellement à la hauteur de ces environnements imprévisibles.

UELes aéroports européens confrontés à des tensions similaires sur le marché du travail pourraient s'appuyer sur les résultats de cette expérimentation pour évaluer la maturité des robots humanoïdes dans leurs propres opérations de piste et de bagagerie.

RobotiqueOpinion
1 source
Les modèles du monde au service d'interventions endovasculaires robotisées autonomes et sûres
2arXiv cs.RO 

Les modèles du monde au service d'interventions endovasculaires robotisées autonomes et sûres

Des chercheurs ont développé un système d'intelligence artificielle capable de naviguer de manière autonome dans les vaisseaux sanguins pour traiter des accidents vasculaires cérébraux, sans intervention humaine directe. Publiés sur arXiv, leurs travaux portent sur la thrombectomie mécanique, une procédure d'urgence qui consiste à retirer un caillot obstruant une artère cérébrale. L'agent IA repose sur TD-MPC2, un algorithme d'apprentissage par renforcement basé sur un modèle du monde, capable de planifier ses actions en anticipant les conséquences de ses mouvements. Testé sur des anatomies vasculaires propres à chaque patient, il affiche un taux de succès de 58 % en simulation, contre 36 % pour le meilleur algorithme concurrent (SAC, Soft Actor-Critic), une différence statistiquement significative (p < 0,001). En laboratoire, sur des répliques physiques de vaisseaux réels guidées par fluoroscopie, TD-MPC2 atteint 68 % de succès contre 60 % pour SAC, avec une trajectoire plus optimale, bien qu'au prix de procédures légèrement plus longues. La force exercée par l'outil sur les parois vasculaires reste en moyenne à 0,15 newton, très en dessous du seuil de rupture estimé à 1,5 newton. Ces résultats constituent une première mondiale : c'est la première fois qu'un système d'IA autonome pour la thrombectomie est validé à la fois en simulation sur des données patient inédites et sur des fantômes vasculaires physiques sous guidage fluoroscopique. L'enjeu est considérable car la thrombectomie mécanique est une course contre la montre : chaque minute perdue aggrave les séquelles neurologiques. Un système autonome fiable pourrait réduire la dépendance aux neuroradiologues interventionnels, dont la disponibilité 24h/24 est limitée, notamment dans les hôpitaux de taille moyenne. La thrombectomie robotisée fait l'objet d'une compétition intense depuis plusieurs années, portée par des acteurs comme Siemens Healthineers, Corindus (filiale de Siemens) ou des startups comme Endowave. L'approche par modèles du monde est plus récente dans ce domaine : elle permet à l'agent de simuler mentalement les conséquences de ses actions avant d'agir, ce qui améliore la robustesse face à la diversité anatomique des patients. Les prochaines étapes passeront probablement par des essais précliniques sur animal avant toute perspective d'application clinique humaine.

UELa technologie pourrait à terme réduire les inégalités d'accès aux soins dans les hôpitaux européens de taille moyenne manquant de neuroradiologues interventionnels disponibles 24h/24.

RobotiquePaper
1 source
GENESIS AI veut apprendre aux robots les gestes humains à grande échelle
3FrenchWeb 

GENESIS AI veut apprendre aux robots les gestes humains à grande échelle

Genesis AI, startup cofondée entre Paris et la Californie, ambitionne de reproduire dans le domaine physique la révolution qu'a opérée l'intelligence artificielle générative dans le logiciel. La société développe une approche destinée à enseigner aux robots des gestes humains complexes à grande échelle, en s'inspirant directement de la logique des grands modèles de langage : collecter des volumes massifs de données pour permettre une généralisation large des capacités motrices. L'objectif est de doter les systèmes robotiques d'une flexibilité comparable à celle que les LLMs ont apportée aux tâches cognitives. L'enjeu est considérable pour l'ensemble de la filière robotique industrielle et grand public. Aujourd'hui, programmer un robot pour qu'il reproduise fidèlement un geste humain reste une tâche laborieuse, spécifique à chaque contexte, et difficile à transférer d'une situation à une autre. Si Genesis AI parvient à construire un modèle généraliste du mouvement physique, cela pourrait accélérer massivement le déploiement de robots dans des environnements non structurés : entrepôts, soins à domicile, industrie manufacturière. La robotique connaît depuis 2023 une véritable effervescence autour des "foundation models" appliqués au mouvement, avec des acteurs comme Physical Intelligence (Pi), Figure AI ou Apptronik qui investissent massivement dans cette direction aux États-Unis. Genesis AI se distingue par son ancrage européen, notamment parisien, dans un secteur dominé par les capitaux américains et asiatiques. La capacité à générer et annoter des données de mouvement à grande échelle reste le verrou technologique central que la startup entend faire sauter.

UEGenesis AI, co-fondée à Paris, représente une initiative européenne dans la robotique fondationnelle, un secteur jusqu'ici dominé par les capitaux américains et asiatiques.

RobotiqueOpinion
1 source
Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir
4The Decoder 

Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir

Les World Action Models (WAM) constituent une nouvelle famille de modèles d'IA pour la robotique, documentée dans une étude récente qui recense et organise une centaine de publications scientifiques autour de deux grandes lignes architecturales. Contrairement aux systèmes actuels, ces modèles ne se contentent pas d'associer des mouvements à des images de caméra : ils simulent mentalement les conséquences d'une action avant de l'exécuter, en modélisant comment l'environnement va évoluer. L'enjeu est considérable pour le secteur. Les robots industriels et domestiques actuels restent fragiles face à l'imprévu, car leurs modèles n'ont aucune représentation interne de la physique du monde. Les WAM offrent une capacité de planification proactive : un bras robotique peut anticiper qu'attraper un objet d'une certaine façon le fera basculer, et corriger sa trajectoire avant même de bouger. Cela ouvre la voie à des robots beaucoup plus robustes et adaptables dans des environnements non contrôlés. L'avantage décisif de cette approche réside dans les données d'entraînement : les WAM peuvent apprendre à partir de vidéos ordinaires du monde réel, sans étiquetage des actions robotiques, un type de donnée qui était jusqu'ici quasi inutilisable pour les IA robotiques classiques. Cette propriété lève un verrou majeur, car les vidéos non annotées sont disponibles en quantité massive sur internet. La compétition entre laboratoires de recherche et géants de la tech pour maîtriser ce type de modèle devrait s'intensifier dans les prochains mois.

💬 Ce qui m'intéresse là-dedans, c'est pas le robot qui réfléchit avant de bouger, c'est qu'il peut apprendre à partir de vidéos ordinaires, sans annotation spécifique. Les données robotiques étiquetées coûtent une fortune à produire, les vidéos YouTube non, et il y en a des milliards d'heures. C'est le genre de verrou qui, une fois levé, accélère tout le reste.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour