Aller au contenu principal
Cortex 2.0 : ancrer les modèles du monde dans les déploiements industriels réels
RobotiquearXiv cs.RO2sem

Cortex 2.0 : ancrer les modèles du monde dans les déploiements industriels réels

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté Cortex 2.0, un système de manipulation robotique industrielle qui rompt avec le contrôle réactif au profit d'une architecture de planification basée sur un modèle du monde. Décrit dans un article publié sur arXiv, le système génère plusieurs trajectoires futures candidates dans un espace latent visuel, les évalue selon leur probabilité de succès et leur efficacité, puis sélectionne la meilleure avant d'agir. Évalué sur des plateformes à un bras et deux bras, Cortex 2.0 a été testé sur quatre tâches d'une complexité croissante : saisie et placement d'objets, tri d'articles et de déchets, tri de vis, et déballage de boîtes à chaussures.

Les résultats montrent que Cortex 2.0 surpasse systématiquement les modèles Vision-Language-Action (VLA) de dernière génération sur l'ensemble des tâches évaluées. L'avantage est particulièrement net dans les environnements encombrés, avec des occlusions fréquentes et des manipulations à forte contrainte physique, c'est-à-dire précisément les situations où les approches réactives accumulent les erreurs et échouent. Pour l'industrie robotique, cela représente un changement de paradigme concret : des robots capables d'exécuter des séquences d'actions longues de manière fiable, sans nécessiter des environnements strictement contrôlés, ouvrent la voie à un déploiement plus large en logistique, en assemblage ou en tri de matériaux.

Les modèles VLA ont marqué une avancée importante ces dernières années en permettant aux robots de généraliser à de nouvelles tâches grâce à leur compréhension du langage et de la vision. Leur faiblesse structurelle reste néanmoins leur caractère réactif : ils optimisent l'action immédiate sans anticiper les conséquences à moyen terme, ce qui les fragilise sur des tâches longues où les erreurs s'accumulent. Cortex 2.0 s'inscrit dans un effort plus large pour doter les robots d'une capacité de planification par simulation, comparable à ce que l'on trouve dans des systèmes comme AlphaGo. Si ces résultats se confirment à plus grande échelle et sur une plus large diversité de tâches, ils pourraient accélérer significativement le déploiement de robots industriels autonomes dans des environnements réels et non scénarisés.

Impact France/UE

Si les résultats se confirment à plus grande échelle, les secteurs industriels européens, logistique, assemblage, tri de matériaux, pourraient bénéficier d'un déploiement accéléré de robots autonomes capables d'opérer dans des environnements réels non scénarisés.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les modèles du monde au service d'interventions endovasculaires robotisées autonomes et sûres
1arXiv cs.RO 

Les modèles du monde au service d'interventions endovasculaires robotisées autonomes et sûres

Des chercheurs ont développé un système d'intelligence artificielle capable de naviguer de manière autonome dans les vaisseaux sanguins pour traiter des accidents vasculaires cérébraux, sans intervention humaine directe. Publiés sur arXiv, leurs travaux portent sur la thrombectomie mécanique, une procédure d'urgence qui consiste à retirer un caillot obstruant une artère cérébrale. L'agent IA repose sur TD-MPC2, un algorithme d'apprentissage par renforcement basé sur un modèle du monde, capable de planifier ses actions en anticipant les conséquences de ses mouvements. Testé sur des anatomies vasculaires propres à chaque patient, il affiche un taux de succès de 58 % en simulation, contre 36 % pour le meilleur algorithme concurrent (SAC, Soft Actor-Critic), une différence statistiquement significative (p < 0,001). En laboratoire, sur des répliques physiques de vaisseaux réels guidées par fluoroscopie, TD-MPC2 atteint 68 % de succès contre 60 % pour SAC, avec une trajectoire plus optimale, bien qu'au prix de procédures légèrement plus longues. La force exercée par l'outil sur les parois vasculaires reste en moyenne à 0,15 newton, très en dessous du seuil de rupture estimé à 1,5 newton. Ces résultats constituent une première mondiale : c'est la première fois qu'un système d'IA autonome pour la thrombectomie est validé à la fois en simulation sur des données patient inédites et sur des fantômes vasculaires physiques sous guidage fluoroscopique. L'enjeu est considérable car la thrombectomie mécanique est une course contre la montre : chaque minute perdue aggrave les séquelles neurologiques. Un système autonome fiable pourrait réduire la dépendance aux neuroradiologues interventionnels, dont la disponibilité 24h/24 est limitée, notamment dans les hôpitaux de taille moyenne. La thrombectomie robotisée fait l'objet d'une compétition intense depuis plusieurs années, portée par des acteurs comme Siemens Healthineers, Corindus (filiale de Siemens) ou des startups comme Endowave. L'approche par modèles du monde est plus récente dans ce domaine : elle permet à l'agent de simuler mentalement les conséquences de ses actions avant d'agir, ce qui améliore la robustesse face à la diversité anatomique des patients. Les prochaines étapes passeront probablement par des essais précliniques sur animal avant toute perspective d'application clinique humaine.

UELa technologie pourrait à terme réduire les inégalités d'accès aux soins dans les hôpitaux européens de taille moyenne manquant de neuroradiologues interventionnels disponibles 24h/24.

RobotiquePaper
1 source
Décision interactive pour la conduite autonome par grands modèles de langage
2arXiv cs.RO 

Décision interactive pour la conduite autonome par grands modèles de langage

Des chercheurs ont publié sur arXiv un nouveau cadre de prise de décision pour véhicules autonomes, conçu spécifiquement pour les situations de trafic mixte à forte densité où coexistent voitures humaines et autonomes. Le système exploite les grands modèles de langage non pour générer du texte, mais pour analyser dynamiquement la scène routière et inférer les intentions des autres usagers. Il repose sur l'Object-Process Methodology (OPM), qui traduit les données perceptuelles brutes en objets, processus et relations compréhensibles par le modèle. Celui-ci identifie ensuite les intentions explicites et implicites des véhicules voisins, génère des trajectoires candidates par échantillonnage Monte Carlo, et sélectionne la trajectoire optimale sous contraintes conjointes de sécurité et d'efficacité. La décision finale est retranscrite en langage naturel et diffusée aux autres usagers via une interface homme-machine externe (eHMI). Testé dans un simulateur de conduite en convoi, le système surpasse les approches traditionnelles sur les critères de sécurité, confort et fluidité, et un test de style Turing révèle une forte ressemblance avec les comportements humains au volant. Ce travail s'attaque à l'un des principaux freins à l'adoption des véhicules autonomes : leur tendance aux comportements excessivement prudents dans les situations conflictuelles, qui génèrent blocages et méfiance du public. En dotant le véhicule d'une capacité de lecture des intentions des autres conducteurs et d'une communication proactive en langage naturel, le cadre proposé change la nature de l'interaction : il ne s'agit plus seulement d'éviter les accidents, mais d'expliquer en temps réel les décisions du robot pour instaurer une confiance partagée avec les piétons, cyclistes et automobilistes environnants. La conduite autonome en environnement mixte reste l'un des défis les plus complexes du secteur, au croisement de la robotique, des sciences cognitives et de l'IA générative. Des acteurs comme Waymo ou Mobileye investissent massivement dans ces problèmes d'interaction homme-machine. L'intégration des LLMs dans la boucle de décision en temps réel représente une direction émergente : elle permet d'exploiter le raisonnement de sens commun de ces modèles sans avoir à coder explicitement chaque scénario possible. Encore limité à la simulation, le système devra prouver sa robustesse et sa faible latence en conditions réelles, mais les auteurs y voient une voie crédible vers une conduite autonome réellement interactive et digne de confiance dans un trafic dense.

RobotiquePaper
1 source
Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart
3The Decoder 

Les modèles d'IA échouent à contrôler les robots sans structures humaines, mais les agents autonomes comblent cet écart

Des chercheurs de Nvidia, de l'UC Berkeley et de Stanford ont publié un nouveau cadre d'évaluation destiné à mesurer systématiquement la capacité des modèles d'IA à contrôler des robots via du code. Leurs résultats sont sans appel : sans abstractions conçues par des humains, c'est-à-dire sans briques logicielles préfabriquées qui simplifient les tâches complexes, même les meilleurs modèles disponibles échouent à piloter efficacement un robot. En revanche, des approches comme le "test-time compute scaling" ciblé, qui consiste à allouer davantage de puissance de calcul au moment de l'inférence plutôt qu'à l'entraînement, permettent de combler significativement cet écart de performance. Ces conclusions ont des implications directes pour l'industrie de la robotique autonome. Elles remettent en question l'idée que les grands modèles de langage peuvent, seuls et sans infrastructure spécialisée, prendre en charge le contrôle bas niveau de machines physiques. Pour les entreprises qui misent sur des robots autonomes dans la logistique, la fabrication ou les services, cela signifie que la conception humaine reste indispensable, du moins à court terme, et que l'autonomie complète exige encore un travail d'ingénierie non négligeable. Ce travail s'inscrit dans une course plus large entre les laboratoires de recherche et les industriels pour rendre les robots véritablement programmables par l'IA. Nvidia, déjà très présent dans l'infrastructure d'entraînement des modèles, cherche à étendre son influence vers la couche applicative de la robotique. L'approche par échafaudage agentique, qui enchaîne des modules spécialisés plutôt que de tout déléguer à un seul modèle, semble aujourd'hui la piste la plus prometteuse pour franchir ce verrou technique.

UELes industriels européens de la robotique (logistique, fabrication, services) doivent intégrer que l'autonomie complète par IA nécessite encore une ingénierie humaine substantielle, ce qui prolonge les délais et coûts de déploiement dans leurs feuilles de route.

💬 Sans abstractions humaines, même les meilleurs modèles ratent le contrôle robotique, et ça, c'est pas vraiment une surprise. La vraie info, c'est que l'échafaudage agentique (enchaîner des modules spécialisés plutôt que tout déléguer à un seul modèle) tient mieux ses promesses que le scaling brut à l'entraînement. Reste à voir si ça tient en prod ou si ça reste un beau résultat de labo Stanford.

RobotiqueOpinion
1 source
Pony.ai lance des tests de robotaxi sans conducteur à Dubaï et vise un déploiement commercial en 2026
4Pandaily 

Pony.ai lance des tests de robotaxi sans conducteur à Dubaï et vise un déploiement commercial en 2026

Pony.ai, entreprise chinoise spécialisée dans la conduite autonome, a lancé des tests de robotaxis entièrement sans chauffeur à Dubaï, franchissant une étape décisive dans son expansion au Moyen-Orient. La société, cotée au Nasdaq, collabore depuis plusieurs mois avec la Roads and Transport Authority (RTA) de Dubaï, et avait obtenu l'autorisation de tester sur voie publique dès septembre 2025. Les essais se déroulent désormais dans des conditions de circulation variées, sans aucun opérateur humain à bord. Le PDG James Peng a confirmé que le déploiement commercial est ciblé pour le second semestre 2026, avec un objectif de plus de 3 000 robotaxis opérationnels dans plus de 20 villes à travers le monde d'ici la fin de l'année, dont près de la moitié en dehors de la Chine. Ce cap est stratégiquement important pour Pony.ai, qui cherche à prouver que son modèle économique, déjà rentabilisé à l'échelle du véhicule à Guangzhou et Shenzhen, peut se répliquer à l'international. Dubaï représente l'un des marchés de mobilité intelligente les plus ambitieux au monde : la ville vise qu'un quart de tous ses déplacements soient autonomes d'ici 2030, dans le cadre de son programme "Smart City 2030". Réussir à Dubaï ouvre la voie à d'autres contrats régionaux et valide la capacité de l'entreprise à s'adapter à des environnements réglementaires et routiers très différents de la Chine. La stratégie internationale de Pony.ai repose sur un modèle dit "partner-driven" : ce sont des opérateurs locaux qui fournissent les véhicules et le support opérationnel, tandis que Pony.ai apporte sa technologie et son logiciel. Ce montage limite les besoins en capital propre et accélère le déploiement marché par marché. Outre Dubaï, des projets sont en cours à Doha et Zagreb. Cette expansion s'inscrit dans une stratégie "double moteur" combinant consolidation du marché chinois et internationalisation accélérée, alors que la concurrence mondiale dans le secteur des véhicules autonomes s'intensifie face à Waymo, WeRide et d'autres acteurs montants.

UEUn déploiement est évoqué à Zagreb (Croatie, UE) mais sans détails concrets, sans impact direct sur le marché français ou les régulations européennes à ce stade.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour