Aller au contenu principal

Dossier Robots humanoïdes — page 4

469 articles · page 4 sur 10

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle
151arXiv cs.RO RobotiqueOpinion

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
152arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

RobotiqueOpinion
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
153arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

RechercheOpinion
1 source
Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot
154arXiv cs.RO 

Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot

Une équipe de chercheurs présente Humanoid-GPT, un Transformer de style GPT avec attention causale, entraîné sur un corpus de 2 milliards de frames de capture de mouvement pour le contrôle du corps entier de robots humanoïdes. Publiée en juin 2026 sur arXiv (preprint, non encore évaluée par les pairs), l'étude décrit un pré-entraînement sur un corpus retargeté qui unifie l'ensemble des jeux de données mocap publics majeurs et des enregistrements internes à grande échelle. L'objectif central est la généralisation zero-shot: le modèle doit suivre des mouvements hautement dynamiques et s'adapter à des tâches de contrôle inédites sans réentraînement spécifique. L'approche s'attaque au compromis agility-generalization qui bride les trackers MLP peu profonds, architecture dominante jusqu'ici mais limitée par la rareté des données d'entraînement. En scalant simultanément les données et la capacité du modèle, Humanoid-GPT prétend résoudre ces deux dimensions avec un unique modèle génératif. Si ces résultats se confirment à la validation indépendante, le résumé restant vague sur les benchmarks exacts et les conditions expérimentales, cela réduirait concrètement le coût de déploiement pour les intégrateurs de systèmes humanoïdes qui doivent aujourd'hui entraîner des politiques séparées pour chaque tâche ou morphologie de robot. Cette contribution s'inscrit dans la tendance au scaling des politiques de contrôle humanoïde: NVIDIA avec GR00T N2, Physical Intelligence avec pi-0 et pi-0.5, ou Berkeley Humanoid ont chacun montré que les Transformers absorbent massivement des données de démonstration pour produire des politiques plus généralisables. Humanoid-GPT se positionne spécifiquement sur le motion tracking en amont des pipelines d'action, plutôt que sur la manipulation de bout en bout. L'absence d'affiliation institutionnelle visible dans le résumé et la nature preprint du document invitent à la prudence sur les affirmations de "new performance frontier"; les benchmarks comparatifs et la revue par les pairs seront déterminants pour l'adoption dans la communauté.

RobotiqueOpinion
1 source
OneVLA : un cadre unifié pour les tâches d'IA incarnée
155arXiv cs.RO 

OneVLA : un cadre unifié pour les tâches d'IA incarnée

Une équipe de recherche a publié fin mai 2026 sur arXiv (référence 2606.01241) un modèle baptisé OneVLA, présenté comme une architecture unifiée Vision-Langage-Action (VLA) capable de gérer à la fois la navigation autonome et la manipulation d'objets au sein d'un seul et même réseau. Le principe central repose sur une tête d'action commune qui génère des commandes de déplacement et des gestes de manipulation sans module séparé ni variante spécialisée selon la tâche. L'entraînement suit une stratégie progressive en plusieurs étapes, avec construction de jeux de données curés et un fine-tuning par Chain-of-Thought (CoT) visant à créer un transfert positif entre les deux domaines. Les expériences rapportées couvrent des environnements simulés et réels, et les auteurs affirment surpasser les modèles spécialisés à tâche unique ainsi que les approches cross-task existantes. Le code source et les poids du modèle sont annoncés comme devant être rendus publics, sans date précisée. L'enjeu est structurel pour le secteur : la quasi-totalité des VLA actuellement déployés ou publiés restent monolithiques par domaine. Pi-0 de Physical Intelligence excelle en manipulation dextère, GR00T N2 de NVIDIA intègre des capacités de navigation mais avec des têtes d'action distinctes, et la plupart des agents issus des travaux RT-X ou OpenVLA ne combinent pas les deux modalités de façon cohérente. Un modèle qui transfère positivement entre navigation et manipulation éviterait aux équipes d'intégration de maintenir deux pipelines d'inférence séparés, un coût opérationnel significatif en production. Le CoT appliqué à la planification motrice est également notable : il indique que le raisonnement symbolique peut renforcer la généralisation comportementale, une hypothèse jusqu'ici difficile à valider à l'échelle réelle. Ce travail s'inscrit dans une tendance de fond amorcée depuis 2024 vers les architectures dites "fondation" pour la robotique généraliste. Les limitations à signaler : il s'agit d'un preprint sans revue par les pairs, les benchmarks précis de performance (taux de succès par scénario, temps de cycle, conditions d'éclairage ou de charge) ne sont pas détaillés dans l'abstract, et aucune institution commerciale ni déploiement industriel n'est mentionné. Les prochaines étapes naturelles seraient la publication du code pour permettre une évaluation indépendante, ainsi qu'une validation sur plateformes humanoïdes réelles, là où la fusion navigation-manipulation est la plus critique pour des cas d'usage entrepôt ou logistique.

RobotiqueOpinion
1 source
Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA
156NVIDIA AI Blog 

Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA

Le workflow a été bloqué pour revue. Je fais la traduction directement. Taiwan abrite plus de 500 partenaires de l'écosystème NVIDIA, et c'est là que convergent plus d'un million de composants MGX destinés à la nouvelle infrastructure Vera Rubin, répartis sur 25 sites de production. Cette architecture de grande échelle implique l'ensemble de la chaîne d'approvisionnement : des acteurs de la fabrication de puces comme TSMC, SPIL, Kinsus, KYEC et UMTC aux géants de l'assemblage de serveurs que sont Foxconn, Pegatron, Quanta Cloud Technology (QCT), Wistron et Inventec. Mais ces industriels ne se contentent plus de construire l'infrastructure IA mondiale, ils l'appliquent à leurs propres usines. Foxconn déploie les blueprints NVIDIA Factory Operations et NemoClaw pour développer MoMClaw, un agent de gestion des opérations industrielles qui analyse en temps réel les signaux capteurs et machines, et fournit aux opérateurs des plans d'action en langage naturel. Les gains estimés sont substantiels : réduction de 80 % du temps d'analyse des causes racines, hausse de 15 % de la productivité, baisse de 10 % des pannes machines. La société construit par ailleurs un supercalculateur cloud à Taiwan pour 1,4 milliard de dollars, équipé de 10 000 GPU NVIDIA GB300 NVL72. L'enjeu dépasse la seule performance opérationnelle : Taiwan est en train de redéfinir ce que signifie construire de l'infrastructure IA à l'échelle industrielle. TSMC utilise les bibliothèques CUDA-X et des modèles IA pour la lithographie computationnelle, la simulation de transistors et le contrôle qualité, la bibliothèque cuLitho d'NVIDIA améliore le temps de cycle ou le coût de 20 à 50 % par rapport aux solutions CPU, tandis que cuEST accélère la simulation de matériaux semiconducteurs d'un facteur 50. QCT, de son côté, exploite des jumeaux numériques basés sur NVIDIA Omniverse pour planifier ses usines, et développe avec sa filiale Techman Robot un kit IA physique appuyé sur NVIDIA Jetson Thor et la plateforme Isaac GR00T, pour des robots humanoïdes comme le TM Xplore I, capables d'assembler des serveurs. Wistron simule des environnements de test thermique sur ses sites mondiaux grâce au framework PhysicsNeMo et à Cadence Reality DC Design. Cette dynamique s'inscrit dans une transition structurelle du secteur : NVIDIA ne se positionne plus seulement comme fournisseur de GPU, mais comme architecte d'un écosystème industriel intégré, où ses plateformes logicielles (Omniverse, Isaac, Metropolis, NeMo) pilotent autant la production que le produit final. Taiwan, qui concentre l'essentiel de la capacité mondiale de fabrication de semi-conducteurs avancés, devient ainsi le laboratoire grandeur nature de l'IA physique appliquée au manufacturing. Avec la montée en charge de Vera Rubin pour alimenter les "agentic AI factories" à l'échelle mondiale, la question n'est plus de savoir si l'IA va transformer l'industrie manufacturière, mais à quelle vitesse les acteurs qui ne participent pas à cet écosystème pourront rester compétitifs.

InfrastructureActu
1 source
Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA
157arXiv cs.RO 

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

Une équipe de chercheurs propose Hide-and-Seek (arXiv 2605.30834), un cadre de surveillance en temps réel des modèles VLA (Vision-Language-Action). Ces modèles permettent aux robots d'exécuter des instructions en langage naturel sur des tâches variées, mais ils restent sujets à des défaillances en cours d'exécution difficiles à intercepter. Hide-and-Seek reformule la détection de ces échecs comme un problème d'apprentissage supervisé à granularité grossière : en combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, il localise les actions responsables d'un échec à partir de labels de trajectoire uniquement, sans annotation pas-à-pas. La méthode a été évaluée sur les benchmarks LIBERO et VLABench ainsi que sur une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π₀ et π₀.₅ de Physical Intelligence. Pour les intégrateurs de robots pilotés par VLA, la détection fiable des défaillances en exécution est un prérequis non résolu pour tout déploiement industriel. Les approches existantes ont deux limitations majeures : le rééchantillonnage des actions est trop coûteux en calcul pour la production, et la propagation uniforme de labels de trajectoire à chaque pas de temps efface les signaux d'échec localisés dans le temps. Hide-and-Seek contourne cela en induisant des signaux temporellement structurés sans annotation fine, réduisant le coût d'étiquetage des données d'entraînement. Sous prédiction conforme (conformal prediction, qui offre des garanties statistiques sur le taux de faux positifs), la méthode atteint l'état de l'art en détection multi-tâche avec un compromis praticable entre précision et réactivité, et généralise à des tâches non vues à l'entraînement. Ce travail s'inscrit dans la montée en puissance des VLA depuis 2023-2024, portée par OpenVLA (UC Berkeley), la famille π₀/π₀.₅ de Physical Intelligence et RT-2 de Google DeepMind, et dans la question plus large du "demo-to-deployment gap". À mesure que ces modèles migrent des labos vers les lignes de production, un mécanisme de monitoring devient aussi critique que le modèle lui-même. Les benchmarks académiques utilisés facilitent les comparaisons avec les travaux concurrents, mais ne préjugent pas des performances en environnement industriel réel. La prochaine étape logique est l'intégration de Hide-and-Seek comme couche de supervision dans des pipelines de manipulation ou de déploiement humanoïde, où un échec non détecté peut engendrer des dommages matériels ou des arrêts de ligne coûteux.

RechercheOpinion
1 source
NVIDIA Research fait progresser la robotique de la simulation au monde réel
158NVIDIA AI Blog 

NVIDIA Research fait progresser la robotique de la simulation au monde réel

À l'occasion de l'International Conference on Robotics and Automation (ICRA) 2026, NVIDIA Research a présenté huit articles scientifiques parmi les 28 acceptés, tous centrés sur le transfert simulation-vers-réel en robotique. Les travaux couvrent l'ensemble de la chaîne de développement : coordination de bras multiples, navigation sur des morphologies de robots variées, préhension d'objets inconnus et manipulation de matières déformables. Parmi les systèmes présentés, ScheduleStream exploite les GPU pour planifier les mouvements de plusieurs bras robotiques en parallèle, atteignant une accélération de 3x par rapport aux approches séquentielles classiques, et tourne notamment sur la plateforme embarquée Jetson de NVIDIA. COMPASS, un cadre de politique de navigation, combine apprentissage par imitation et apprentissage par renforcement résiduel dans le simulateur Isaac Lab pour généraliser à des robots de morphologies très différentes, sans jamais utiliser de données réelles lors de l'entraînement. Résultat : un taux de succès moyen 4,5 fois supérieur à la référence, et environ 80 % de réussite sur 20 essais réels avec des robots mobiles autonomes et des humanoïdes. Grasp-MPC, de son côté, a été entraîné sur 2 millions de trajectoires simulées issues de 8 000 objets différents, apprenant à saisir des objets inédits dans des environnements encombrés avec un taux de succès de 75 %, contre 41 % pour la méthode de référence. L'importance de ces résultats tient à ce qu'ils résolvent des verrous concrets qui bloquaient l'industrialisation de la robotique. Former un robot à naviguer dans un environnement et devoir tout recommencer dès qu'on change de plateforme physique est un frein majeur au déploiement à grande échelle. COMPASS supprime ce problème en apprenant des compétences transférables entre corps mécaniques différents, ouvrant la voie à des flottes hétérogènes d'agents robotiques dans des entrepôts, des hôpitaux ou des usines. Grasp-MPC, lui, corrige en temps réel la trajectoire d'approche du robot dans les derniers centimètres, là où les systèmes à plan fixe échouent le plus souvent. Ces avancées signifient qu'il devient possible de déployer des robots capables de traiter des tâches non scriptées dans des environnements désordonnés et imprévisibles, sans recalibration permanente. Ces recherches s'inscrivent dans une mutation profonde du secteur : la robotique sort de l'ère des démos contrôlées pour entrer dans celle de l'autonomie généralisable. NVIDIA joue un rôle structurant dans cette transition en fournissant à la fois les outils de simulation (Isaac Lab, Omniverse NuRec pour les jumeaux numériques), les bibliothèques de calcul (cuRobo, GraspGen) et le matériel embarqué (Jetson). Le fait que COMPASS et Grasp-MPC atteignent des performances robustes sans aucune donnée réelle lors de l'entraînement est une preuve de maturité du sim-to-real. La prochaine étape sera l'intégration de modèles vision-langage-action capables de raisonner avant d'agir, plusieurs des papiers ICRA ouvrant déjà cette direction.

UELes industriels et laboratoires de robotique européens (automobile, logistique, santé) pourront exploiter ces avancées sim-to-real pour déployer des flottes robotiques hétérogènes sans recalibration permanente entre plateformes.

RobotiqueActu
1 source
AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation
159arXiv cs.RO 

AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation

AdaMorph est un framework de retargeting de mouvement humain vers robot, présenté dans un preprint arXiv (arXiv:2601.07284), qui propose d'unifier sous un seul modèle le transfert de mouvements vers des robots aux morphologies hétérogènes. Les auteurs ont évalué leur approche sur 12 humanoïdes distincts aux topologies cinématiques variées. Le système traite le retargeting comme une tâche de génération conditionnelle : les mouvements sont encodés dans un espace latent "morphology-agnostic" (indépendant de la morphologie du robot cible), puis décodés via un mécanisme de prompting dual. La clé technique est l'Adaptive Layer Normalization (AdaLN), qui module dynamiquement les features du décodeur selon les contraintes d'embodiment du robot cible, plutôt que de concaténer naïvement les paramètres cinématiques en entrée. Un objectif d'entraînement par curriculum garantit la plausibilité physique, notamment la cohérence d'orientation et de trajectoire par intégration. L'enjeu central qu'adresse AdaMorph est le passage à l'échelle : les solutions existantes entraînent un modèle distinct par robot, ce qui devient ingérable à mesure que le catalogue d'humanoïdes s'élargit. Un modèle unifié exploitant des sémantiques de mouvement partagées représente un changement architectural pertinent pour les équipes déployant sur plusieurs plateformes simultanément, qu'il s'agisse d'intégrateurs industriels ou de constructeurs comme Figure, 1X ou Agility Robotics. La généralisation zero-shot sur des mouvements complexes non vus à l'entraînement est le résultat le plus significatif : elle suggère que l'espace latent capture bien l'intent moteur de façon transférable, sans réentraînement par morphologie. Le retargeting de mouvement est un problème ouvert depuis les premières captures de mouvement appliquées à la robotique. Les approches actuelles, notamment les méthodes par apprentissage par renforcement de Berkeley ou des frameworks comme PHC (Perpetual Humanoid Control), traitent généralement une morphologie à la fois. AdaMorph s'inscrit dans la tendance des foundation models appliqués au contrôle robotique, comparable dans son ambition aux politiques généralisables de Physical Intelligence avec pi0. À souligner : il s'agit d'un résultat purement académique, validé en simulation sur 12 robots sans déploiement réel annoncé ni partenariat industriel mentionné. La question du transfert sim-to-real sur des tâches physiques contraintes reste entière.

RobotiquePaper
1 source
L’IA physique : le prochain marché que surveille déjà Wall Street
160Robot Magazine FR 

L’IA physique : le prochain marché que surveille déjà Wall Street

Wall Street identifie désormais la "Physical AI" comme le prochain cycle d'investissement majeur après l'IA générative. Selon plusieurs cabinets spécialisés, le marché mondial de la robotique intelligente et de l'IA physique pourrait dépasser 3 000 milliards de dollars d'ici 2040. Goldman Sachs est plus précis sur le segment humanoïde : 150 milliards de dollars d'ici 2035, avec un marché global de robotique intelligente franchissant les 400 milliards. NVIDIA, valorisé à plus de 3 000 milliards de dollars en 2026, est présenté comme le principal bénéficiaire actuel de cette tendance, son PDG Jensen Huang ayant publiquement intégré la "Physical AI" à sa feuille de route. Tesla, de son côté, est repositionnée dans cette grille de lecture grâce à son robot humanoïde Optimus, au-delà de son coeur de marché automobile. À noter : ces chiffres sont des projections de marché, pas des revenus confirmés, et l'article ne cite aucune métrique opérationnelle de déploiement. La rupture que pointe cet article est structurelle : l'IA générative est restée confinée aux écrans (texte, images, code), tandis que la Physical AI vise à en faire une force de travail dans le monde réel, capable de manipuler des objets, se déplacer et exécuter des tâches physiques de manière autonome. Pour un COO industriel ou un intégrateur, ce changement de paradigme est pertinent dans un contexte de pénuries de main-d'oeuvre persistantes et d'accélération de l'automatisation. Ce qui change pour les décideurs B2B, c'est l'horizon de planification : les fonds se positionnent déjà, ce qui signifie que les valuations des acteurs émergents (robotique, simulation, edge computing industriel) vont probablement se comprimer dans les 18 à 36 prochains mois, avant même que des déploiements à grande échelle soient prouvés. Ce récit s'inscrit dans un cycle bien rodé : après le cloud (AWS, Azure), puis l'IA générative (NVIDIA, OpenAI), les analystes financiers cherchent le prochain thème de surperformance. NVIDIA a amorcé ce pivot avec ses plateformes Isaac (simulation robotique) et Cosmos (world model pour robots), et ses partenariats avec Figure, 1X, Agility Robotics ou Boston Dynamics. Tesla joue la même carte avec Optimus, dont les premières vidéos de ligne de production interne ont été diffusées fin 2024, sans chiffres de cadence publiés. L'article reste toutefois une analyse financière généraliste : il ne cite aucun robot spécifique avec des métriques techniques (DOF, payload, cycle time), aucun site de déploiement confirmé, et aucun acteur européen malgré la pertinence d'entreprises comme Wandercraft ou Enchanted Tools sur ce segment. Les prochaines étapes annoncées restent floues, ce qui est caractéristique du registre "thème d'investissement émergent" plutôt que d'un bilan opérationnel.

UELa dynamique d'investissement Wall Street sur la Physical AI devrait indirectement comprimer les valorisations des startups robotiques européennes dans les 18-36 mois, avant tout déploiement prouvé, ce qui rend la fenêtre de levée de fonds pour des acteurs comme Wandercraft ou Enchanted Tools potentiellement plus courte.

RobotiqueOpinion
1 source
Hark obtient 700 millions de dollars pour son projet d’assistant IA universel
161Le Big Data 

Hark obtient 700 millions de dollars pour son projet d’assistant IA universel

La startup Hark a annoncé le 21 mai 2026 une levée de fonds de 700 millions de dollars, portant sa valorisation à 6 milliards de dollars à peine quelques mois après sa fondation fin 2025. Fondée par Brett Adcock, déjà connu pour avoir lancé le fabricant de robots humanoïdes Figure AI et la compagnie d'aviation électrique Archer Aviation, Hark développe un assistant IA universel destiné au grand public. Le tour de table a été mené par Parkway Venture Capital avec la participation de Nvidia, AMD Ventures, Intel Capital, Qualcomm Ventures, Salesforce Ventures et ARK Invest. L'entreprise prévoit de lancer ses premiers modèles multimodaux dès l'été 2026, avant de déployer sa propre gamme de matériel dédié. Malgré cette levée exceptionnelle, Hark reste très discrète sur les détails techniques de son produit. La vision portée par Hark tranche avec la majorité des acteurs actuels de l'IA générative, concentrés sur les copilotes professionnels, les outils de développement ou l'automatisation d'entreprise. La startup vise l'expérience quotidienne de l'utilisateur ordinaire : un assistant capable d'écouter et de parler naturellement, de comprendre des images, de conserver une mémoire persistante et de s'adapter profondément au contexte personnel de chaque utilisateur. Selon Abidur Chowdhury, ancien designer chez Apple et désormais directeur du design chez Hark, les outils IA actuels restent encore trop orientés développeurs ou usages professionnels avancés, laissant un vide béant pour le grand public. L'ambition déclarée est de créer une interface centrale entre l'utilisateur, ses services numériques et ses appareils connectés, combinant logiciel, matériel et IA agentive dans une expérience unifiée. Cette levée de fonds massive reflète une conviction qui s'impose de plus en plus dans la Silicon Valley : la prochaine grande plateforme technologique ne sera pas un simple logiciel, mais une interface IA native capable de remplacer progressivement les couches applicatives existantes. Le fait que des fabricants de semi-conducteurs concurrents comme Nvidia, AMD et Intel Capital investissent simultanément dans le même projet illustre l'enjeu stratégique que représente le contrôle de la couche applicative IA de nouvelle génération. Brett Adcock lui-même a publiquement critiqué les modèles IA actuels qu'il juge trop basiques, insuffisamment personnalisés et incapables d'interagir naturellement. Hark entre ainsi en compétition indirecte avec des projets similaires portés par des acteurs établis comme Apple Intelligence, Google Gemini ou OpenAI, mais parie sur une approche matériel-logiciel intégrée, comparable à ce qu'Apple a réalisé avec l'iPhone, pour s'imposer comme la prochaine interface dominante de l'ère IA.

💬 Adcock lève 700 millions sur une conviction simple : les assistants IA actuels sont encore des outils pour geeks, et le grand public n'a rien de vraiment utilisable. C'est pas faux, et ça explique pourquoi Nvidia, AMD et Intel ont tous mis au même pot malgré leur rivalité, chacun veut être dans la prochaine plateforme dominante. Reste à voir ce que ça vaut cet été quand les premiers modèles sortent.

BusinessActu
1 source
Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme
162arXiv cs.RO 

Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.19420) un framework de navigation sémantique appelé Dual-Heatmap Grounding, conçu pour convertir des instructions multimodales ouvertes (texte et image) en objectifs locaux physiquement atteignables par un robot. Plutôt que de prédire un waypoint déterministe unique, leur système génère deux cartes de chaleur : une affordance heatmap modélisant les régions continues accessibles dans le champ de vision du robot, et une facing heatmap encodant les contraintes d'orientation. Ces sorties denses forment un champ de potentiel sémantique différentiable, directement intégrable aux planificateurs locaux existants sans modification d'architecture. L'approche a été évaluée sur trois morphologies robotiques distinctes : le Jetbot (plateforme à roues), le H1 d'Unitree (humanoïde bipède) et l'Aliengo d'Unitree (quadrupède), via un benchmark de simulation construit par les auteurs avec un pipeline de données synthétiques assisté par des modèles de fondation. Les résultats atteignent le niveau state-of-the-art parmi les modèles comparables à 8 milliards de paramètres. Le problème adressé est souvent sous-estimé dans les déploiements réels : régresser un point unique vers le centre géométrique d'un objet cible positionne fréquemment le robot sur une zone non traversable (le milieu d'une table, le centre d'un obstacle), provoquant des échecs d'exécution en cascade difficiles à diagnostiquer. En prédisant une distribution spatiale sur les zones libres plutôt qu'un point fixe, le framework améliore significativement l'Affordance Rate (AR), soit la proportion de cibles effectivement exécutables par le planificateur aval. Pour les intégrateurs de robots de service, de logistique ou d'assistance, c'est un gain direct sur la fiabilité des tâches de navigation pilotées par langage naturel, sans toucher au reste de la stack. Ce travail s'inscrit dans la dynamique des modèles VLA (Vision-Language-Action), qui couplent compréhension sémantique et action physique dans un pipeline unifié. La régression de waypoints était jusqu'ici un standard de fait dans la navigation indoor, malgré ses limites documentées en environnements encombrés. Les travaux concurrents incluent LM-Nav, NavGPT et OpenFMNav. Il faut noter que le papier reste un preprint non peer-reviewed, et que l'ensemble des validations se limite à la simulation. La prochaine étape attendue est une évaluation sur robots physiques en conditions réelles, qui permettrait de mesurer le sim-to-real gap sur cette représentation par heatmap.

RobotiqueOpinion
1 source
ContextFlow : alignement hiérarchique tâche-état pour agents incarnés à long horizon
163arXiv cs.RO 

ContextFlow : alignement hiérarchique tâche-état pour agents incarnés à long horizon

Une équipe de chercheurs a publié en mai 2026 ContextFlow (arXiv:2605.19314), un cadre d'alignement destiné aux agents robotiques longue durée capables d'enchaîner navigation, recherche, approche et manipulation sur des séquences complexes. Le problème central est ce que les auteurs nomment le "task-state misalignment" : un écart de cohérence au niveau tâche, dans lequel le planificateur central, les observations en temps réel, la mémoire contextuelle et les exécuteurs spécialisés ne convergent plus vers la même décision de prochaine étape. Les symptômes concrets incluent les transferts de contrôle non justifiés ("unsupported handoffs"), le blocage de phase ("stage lock") et les replanifications inutiles qui dégradent la performance globale. Le système représente chaque étape comme un contrat explicite, convertit les observations en paquets d'évidence structurés, et applique cinq types de mises à jour : continue, refine, transfer, promote et repair. L'enjeu est structurant pour l'architecture des robots manipulateurs polyvalents. À mesure que les exécuteurs spécialisés, modèles vision-langage-action (VLA) ou stacks de navigation autonome, deviennent plus robustes, le vrai goulot d'étranglement se déplace : non plus la qualité d'exécution locale, mais la capacité à maintenir une frontière de tâche cohérente sur plusieurs dizaines d'étapes, un angle que les architectures hiérarchiques classiques négligent. Pour un intégrateur industriel, ContextFlow promet moins d'échecs silencieux en production et une meilleure diagnosticabilité des incidents. La séparation entre contrôle local délégué aux exécuteurs et cohérence globale gérée par ContextFlow permet aussi de remplacer ou améliorer les exécuteurs sans refondre l'architecture de planification. Ce travail s'inscrit dans une vague de recherche sur les agents incarnés longue durée, portée par la montée en puissance des VLA et des architectures "foundation model" couplées à des exécuteurs de compétences spécialisées. Les approches concurrentes incluent SayCan et TaPA pour la décomposition de tâches langagières, ainsi que les Behavior Trees pour la gestion d'état structuré. ContextFlow se distingue par son accent sur l'inspectabilité et la traçabilité des décisions d'alignement. Les auteurs valident leur approche sur des traces de démonstration de tâches longue durée, sans benchmark public ni déploiement sur robot physique : les résultats restent expérimentaux, ce qui constitue une limite à noter. Les prochaines étapes naturelles seraient une validation sur des plateformes matérielles, bras manipulateurs ou humanoïdes, et une comparaison quantitative avec des baselines de planification classiques.

RechercheOpinion
1 source
OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches
164arXiv cs.RO 

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Une équipe de chercheurs propose OxyGen, un système de gestion unifiée du cache KV (Key-Value) pour l'inférence des modèles VLA (Vision-Language-Action) sous parallélisme multi-tâches, décrit dans un preprint arXiv (2503.14371). Le travail cible en particulier π₀.₅, le modèle VLA de type Mixture-of-Transformers (MoT) développé par Physical Intelligence, une startup robotique fondée en 2023 par d'anciens chercheurs de Google et DeepMind. Sur un GPU NVIDIA GeForce RTX 4090, OxyGen atteint jusqu'à 3,7 fois la vitesse d'exécution par rapport à un système isolé classique, tout en maintenant simultanément un débit de plus de 200 tokens/s en génération de langage et une fréquence d'action de 70 Hz. Ces résultats ont également été validés sur un robot humanoïde physique embarquant un Jetson AGX Thor, la carte de calcul ciblée par NVIDIA pour les déploiements robotiques edge. Le problème que résout OxyGen est concret : lorsqu'un agent robotique doit exécuter simultanément plusieurs tâches (manipulation, conversation, mise à jour mémoire) à partir d'une même observation visuelle partagée, les systèmes d'inférence existants recalculent indépendamment le cache KV pour chaque tâche, générant une redondance coûteuse et une contention de ressources. Les auteurs identifient la gestion isolée des caches KV comme la cause racine et proposent deux optimisations clés : le partage cross-tâches du cache KV, qui élimine le recalcul des tokens d'observation lors du prefill, et le batching continu inter-frames, qui désolidarise la génération de langage à longueur variable de la génération d'actions à cadence fixe. Cette architecture est particulièrement structurante pour les intégrateurs qui cherchent à déployer des VLAs sur du matériel embarqué sans recourir à des serveurs GPU distants, un verrou majeur pour la commercialisation des robots à intelligence embarquée. Les modèles VLA de type MoT, dont π₀ (publié en octobre 2024) et π₀.₅ sont les représentants les plus visibles, routent les sorties hétérogènes vers des blocs transformer spécialisés tout en partageant un encodeur d'observation commun, ce qui rend techniquement possible le partage de cache KV inter-tâches proposé par OxyGen. Sur le plan concurrentiel, ce type d'optimisation d'inférence concerne aussi les VLAs de Google DeepMind (Gemini Robotics), OpenVLA, ainsi que les projets internes de Tesla pour Optimus Gen 3. Il s'agit à ce stade d'une contribution de recherche sans déploiement industriel annoncé, mais la validation sur robot réel avec Jetson AGX Thor embarqué indique une trajectoire claire vers le déploiement on-device à grande échelle.

RechercheOpinion
1 source
Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace
165arXiv cs.RO 

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

Une équipe de recherche publie sur arXiv (arXiv:2602.20200v2) OptimusVLA, un framework Vision-Language-Action (VLA) hiérarchique augmenté de deux modules de mémoire distincts : une Global Prior Memory (GPM) et une Local Consistency Memory (LCM). La GPM remplace le bruit gaussien isotrope standard, utilisé comme point de départ dans les politiques de diffusion, par des priors extraits de trajectoires sémantiquement similaires, réduisant ainsi le nombre d'évaluations de fonction (NFE) nécessaires au débruitage. La LCM, elle, modélise dynamiquement la séquence d'actions déjà exécutées pour contraindre la cohérence temporelle des prochains mouvements. Sur trois benchmarks de simulation, OptimusVLA atteint 98,6 % de taux de succès moyen sur LIBERO, améliore pi0 de 13,5 points sur CALVIN, et obtient 38 % sur le niveau Hard de RoboTwin 2.0. En évaluation réelle, il surpasse pi0 de 42,9 % sur la suite Généralisation et de 52,4 % sur la suite Long-horizon, avec un gain de vitesse d'inférence de 2,9x. Ces résultats pointent deux verrous concrets du paradigme VLA actuel : l'inefficacité computationnelle des politiques de diffusion à point de départ aléatoire, et l'amnésie des politiques réactives qui ignorent l'historique d'exécution. Le gain de 2,9x en inférence est significatif pour le déploiement temps-réel sur hardware embarqué. Le bond sur les tâches long-horizon (+52,4 % vs pi0) est probablement l'indicateur le plus pertinent pour les intégrateurs industriels, car les tâches réelles ne se réduisent pas à des gestes isolés. Il convient cependant de noter que l'article ne détaille pas le robot utilisé ni le nombre de scénarios testés en réel, ce qui limite l'évaluation indépendante de la portée de ces gains. Le modèle pi0, développé par Physical Intelligence (San Francisco), sert ici de référence principale dans la comparaison, ce qui illustre son statut de baseline de facto dans la recherche VLA en 2025. Le domaine compte également GR00T N2 de NVIDIA, OpenVLA ou encore les travaux de Google DeepMind, tous confrontés au même arbitrage efficacité/généralisation. OptimusVLA reste à ce stade un résultat de recherche préliminaire (preprint non évalué par les pairs), sans pipeline de déploiement ni partenaire industriel annoncé. La prochaine étape naturelle serait une validation sur une plateforme humanoïde commerciale avec des scénarios définis de façon indépendante.

RobotiqueOpinion
1 source
HoloMotion-1 : rapport technique
166arXiv cs.RO 

HoloMotion-1 : rapport technique

Un rapport technique déposé sur arXiv (2605.15336) présente HoloMotion-1, un modèle fondateur de mouvement pour robots humanoïdes conçu pour le suivi de posture corps entier en mode zero-shot, sans adaptation spécifique à la tâche cible. L'originalité du système tient à son corpus hybride : des mouvements reconstruits par vision à partir de vidéos "in-the-wild" constituent la principale source de diversité comportementale, tandis que des données de motion capture (MoCap) soigneusement sélectionnées assurent une supervision haute fidélité. Architecturalement, HoloMotion-1 s'appuie sur un Transformer Mixture-of-Experts (MoE) à activation sparse avec inférence par KV-cache pour le contrôle temps réel, complété par une stratégie d'entraînement sur séquences longues. Testé sur plusieurs benchmarks de mouvement non vus à l'entraînement, le modèle se transfère directement sur un robot humanoïde physique sans fine-tuning additionnel. Le transfert zero-shot vers hardware réel est l'affirmation la plus structurante du rapport : la majorité des approches de contrôle humanoïde exigent jusqu'ici un ajustement pour chaque morphologie ou environnement de déploiement, ce qui freine la généralisation industrielle. L'usage massif de vidéos in-the-wild comme source d'entraînement, plutôt que du MoCap en laboratoire, est une rupture méthodologique potentielle qui élargit le spectre de comportements appris sans nécessiter d'infrastructure de capture coûteuse. L'architecture MoE avec KV-cache emprunte à l'outillage des grands modèles de langage pour répondre aux contraintes de latence du contrôle embarqué temps réel. Le résumé mentionne une amélioration significative de la précision de tracking sur benchmarks, sans préciser les marges numériques. L'affiliation des auteurs n'est pas indiquée dans ce résumé arXiv, ce qui est inhabituel pour un rapport technique de cette envergure. HoloMotion-1 s'inscrit dans un espace concurrentiel actif : NVIDIA a publié GR00T N2 pour le contrôle généraliste d'humanoïdes, Physical Intelligence (pi_0) entraîne des politiques multi-tâche sur données hétérogènes, et plusieurs laboratoires comme CMU, UCB ou ETH Zurich travaillent sur le transfert sim-to-real. La notion de "modèle fondateur de mouvement" réutilisable sur plusieurs plateformes s'inscrit dans la tendance à standardiser les couches de contrôle bas niveau des humanoïdes. La prochaine étape logique serait la validation multi-morphologies sur des plateformes comme Unitree H1/G1, Fourier GR1 ou Agility Digit, et des tests en conditions industrielles réelles.

💬 Le zero-shot sur hardware réel, c'est l'assertion qui fait tout le travail ici. Si ça tient vraiment sans fine-tuning par morphologie, c'est une rupture nette avec ce qu'on voit d'habitude, où chaque robot demande son propre round d'adaptation. Bémol quand même : pas d'affiliation indiquée sur l'arXiv, les marges numériques absentes, ça sent le papier un peu pressé.

RobotiqueOpinion
1 source
Modèle du monde par retour d'information pour guidage précis des politiques de diffusion
167arXiv cs.RO 

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (référence 2605.15705v1) un nouveau paradigme pour améliorer la robustesse des politiques de diffusion en robotique manipulation. Leur approche, baptisée "feedback world model", s'attaque à un problème bien documenté : les modèles de monde (world models) utilisés pour anticiper les conséquences des actions robotiques perdent en fiabilité dès que le robot rencontre des états hors distribution d'entraînement. La méthode maintient un état de retour léger (feedback state) mis à jour en temps réel après chaque action, en exploitant l'observation directe de l'état suivant réel pour corriger itérativement les prédictions futures, sans données d'entraînement supplémentaires ni mise à jour des paramètres du modèle. Les expériences menées sur les benchmarks LIBERO-Plus et Robomimic, ainsi que sur des tâches de manipulation réelles, affichent une réduction de l'erreur de prédiction allant jusqu'à 76,4 % et une amélioration du taux de succès hors distribution (OOD) de 30 %. Les auteurs introduisent également une "action-aware guidance", un mécanisme qui amplifie les composantes de la prédiction contrôlables par l'action tout en supprimant les variations non pertinentes pour le contrôle. Le problème ciblé est structurant pour l'industrie robotique : les systèmes entraînés en simulation ou sur des jeux de données contraints échouent fréquemment en déploiement réel, précisément parce que les états rencontrés divergent de la distribution d'entraînement. La clé du résultat est que cette correction opère entièrement à l'inférence, ce qui la rend directement exploitable sans coût de réentraînement, un atout majeur pour les intégrateurs aux ressources de fine-tuning limitées. Les auteurs formalisent leur méthode comme un observateur en espace latent et en démontrent la convergence sous des conditions modérées, apportant une garantie théorique inhabituelle dans la littérature sur les world models. Cela contredit l'idée reçue selon laquelle la robustesse au distribution shift exige nécessairement plus de données ou un réentraînement ciblé. Les politiques de diffusion constituent depuis 2023 un paradigme dominant en manipulation robotique, adoptées dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures VLA de type GR00T (NVIDIA). Les world models en boucle ouverte associés à ces architectures sont une limite reconnue que des groupes comme Google DeepMind (RT-2) ou des laboratoires académiques cherchent activement à dépasser. Ce preprint, soumis en mai 2025, ne s'accompagne d'aucune annonce industrielle ni de pilote terrain identifié : il reste à ce stade une contribution académique. La prochaine étape naturelle serait une validation sur des robots humanoïdes ou des cellules de manipulation semi-structurées, là où les dérives hors distribution constituent le quotidien opérationnel.

💬 Le point douloureux de toutes les politiques de diffusion, c'est ce moment où le robot sort de sa distribution d'entraînement et part en vrille. Corriger ça à l'inférence, sans réentraîner, c'est exactement ce que les équipes d'intégration attendaient depuis des mois. Bon, c'est un preprint, pas de démo terrain encore, mais 30% de gain en OOD sur Robomimic avec des garanties de convergence, ça mérite qu'on y revienne dans six mois.

RechercheOpinion
1 source
SECOND-Grasp : préhension dextérique guidée par le contact sémantique
168arXiv cs.RO 

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

Des chercheurs ont publié en mai 2025 sur arXiv (2605.13117) SECOND-Grasp (SEmantic CONtact-guided Dexterous Grasping), un cadre unifié permettant à des mains robotiques multi-doigts d'adapter leurs stratégies de préhension à des consignes en langage naturel tout en garantissant la stabilité physique du contact. Le pipeline enchaîne un raisonnement vision-langage pour identifier les zones de contact probables, une segmentation multi-vues, puis un module baptisé SGCR (Semantic-Geometric Consistency Refinement) qui raffine ces prédictions par cohérence inter-vues et suppression des régions géométriquement invalides, produisant des cartes de contact 3D exploitables. Ces cartes alimentent un apprentissage de politique via cinématique inverse, entraîné sur le dataset DexGraspNet. Sur des catégories d'objets vus en entraînement, le système atteint 98,2 % de taux de succès au levage ; sur des catégories non vues, 97,7 % ; la préhension guidée par l'intention progresse de 12,8 % et 26,2 % respectivement face aux baselines, validé sur Shadow Hand et Allegro Hand. Le résultat le plus significatif est précisément cette quasi-absence de dégradation entre catégories vues et non vues : cela suggère que le couplage sémantique-géométrique produit des représentations suffisamment abstraites pour généraliser hors distribution, un verrou classique du dexterous grasping. L'intégration native du langage dans la planification de contact, plutôt qu'en couche de sélection aval, place SECOND-Grasp dans la lignée des architectures VLA appliquées à la manipulation fine, comme Pi-0 (Physical Intelligence) ou les travaux récents de DeepMind. Pour un décideur industriel, la promesse est lisible : un système capable de comprendre où et comment saisir selon une tâche verbalisée, sans ré-entraînement par catégorie d'objet. Les métriques restent toutefois issues de benchmarks contrôlés ; le transfert sim-to-real en environnement industriel non structuré n'est pas encore démontré. Le dexterous grasping est un chantier ouvert depuis les années 1990, longtemps fragmenté entre approches analytiques (calcul de wrench space) et méthodes data-driven. L'essor des modèles vision-langage a rouvert la question en conditionnant la préhension par le langage naturel. Les concurrents directs dans cet espace incluent GraspGPT, FoundationGrasp et les travaux de Stanford sur DexArt. En Europe, Enchanted Tools (robot Miroki) explore la manipulation expressive mais n'a pas publié de résultats comparables sur le grasping structuré. La prochaine étape naturelle pour SECOND-Grasp serait une validation sur plateforme physique en scène non contrôlée, potentiellement intégrée dans un pipeline humanoïde ou sur bras industriel polyvalent.

RobotiqueOpinion
1 source
Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs
169IEEE Spectrum Robotics 

Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs

Hello Robot annonce Stretch 4, une nouvelle version de son robot domestique non-humanoïde, conçu pour des déploiements pilotes réels dans des environnements résidentiels. La rupture principale avec les versions précédentes est l'intégration d'une base omnidirectionnelle : le robot peut désormais se translater dans n'importe quelle direction sans avoir à pivoter au préalable, grâce à des roues omnidirectionnelles initialement développées pour les fauteuils roulants motorisés, après six mois de développement dédié. La tête pan-tilt d'origine est remplacée par une suite sensorielle plus complète offrant un champ de vision nettement élargi : deux lidars hémisphériques, des caméras Luxonis pour la vision et la navigation, et une caméra de profondeur montée sur le poignet pour la manipulation. L'architecture de calcul repose sur un Intel NUC 15 pour le système principal, complété par un NVIDIA Jetson Orin NX mis à disposition des chercheurs pour le traitement visuel et l'IA. Le robot embarque des capacités autonomes de base (cartographie, navigation, autocharge) ainsi que des fonctionnalités de démonstration comme la saisie autonome d'objets. Aucun prix public n'a été communiqué, mais Hello Robot positionne Stretch 4 comme accessible comparé aux humanoïdes actuels. Ce lancement illustre une thèse alternative à la course aux humanoïdes : Aaron Edsinger (CEO) et Charlie Kemp (CTO) misent sur la sécurité, le coût maîtrisé et la praticabilité réelle plutôt que sur la morphologie anthropomorphe. La philosophie de Hello Robot sur l'autonomie tranche nettement avec le secteur : plutôt que de collecter massivement des données en espérant qu'une autonomie commercialement viable en émergera, l'entreprise conserve un opérateur humain dans la boucle, à des niveaux variables allant du contrôle direct à la supervision pure. Cette posture est plus prudente mais aussi plus immédiatement intégrable dans des contextes réels, notamment pour des intégrateurs ou des opérateurs non spécialisés. Sur le plan sensoriel, Hello Robot a renoncé à l'approche "Tesla" (multitude de caméras bon marché) au profit d'une logique "Waymo" : des données plus riches et fiables pour un comportement plus sûr et intelligent, au détriment potentiel du coût. Stretch existe depuis plusieurs années comme plateforme de recherche, avec une communauté active dans les laboratoires universitaires. Hello Robot a été fondé sur le principe du robot minimaliste, et Stretch 4 est le premier modèle explicitement conçu pour franchir le seuil vers des déploiements opérationnels. Le secteur de la robotique humanoïde est actuellement dominé par des acteurs très capitalisés comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et NVIDIA (GR00T N2), tous positionnés sur des cas d'usage industriels ou logistiques. Hello Robot occupe une niche différente : le marché domestique et de service, avec une approche morphologiquement sobre et des coûts structurellement plus bas. La prochaine étape annoncée est une phase de déploiements pilotes en environnement résidentiel réel, destinée à qualifier les conditions de passage à l'échelle.

UELes laboratoires de recherche européens utilisant la plateforme Stretch pourraient bénéficier de cette nouvelle version, mais aucun déploiement ou partenariat européen n'est annoncé.

RobotiqueOpinion
1 source
RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
170Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

RobotiqueOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
171arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

RechercheOpinion
1 source
MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”
172FrenchWeb 

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Le 7 juillet 2026, Paris accueille MACHINA by RAISE, un événement dédié à la robotique et à la "physical AI" organisé au sein de l'écosystème RAISE, l'un des principaux acteurs du capital-risque technologique en France. L'initiative se distingue des grands rendez-vous sectoriels en adoptant délibérément une perspective européenne, à rebours des formats dominants encore largement pilotés depuis les États-Unis et l'Asie, notamment la Chine et le Japon qui concentrent l'essentiel des investissements mondiaux en robotique industrielle et humanoïde. La "physical AI" désigne la convergence entre l'intelligence artificielle générative et les systèmes robotiques capables d'agir dans le monde réel : bras industriels, robots humanoïdes, véhicules autonomes. Ce segment connaît une accélération spectaculaire depuis 2024, portée par les annonces de Tesla, Figure AI ou encore 1X Technologies, et représente selon plusieurs analystes le prochain front compétitif majeur après les grands modèles de langage. Pour l'Europe, l'enjeu est de ne pas reproduire le décrochage observé dans les LLMs face aux acteurs américains. RAISE, qui gère plusieurs milliards d'euros d'actifs et finance des startups deeptech françaises, positionne MACHINA comme une plateforme de rencontre entre investisseurs, industriels et chercheurs pour structurer un écosystème européen cohérent. La France dispose d'atouts réels dans ce domaine, notamment via des laboratoires comme l'INRIA et des startups en robotique chirurgicale ou logistique, mais la compétition internationale reste féroce et les besoins en capitaux considérables pour atteindre une masse critique industrielle.

UEMACHINA by RAISE 2026 à Paris vise à structurer un écosystème européen de la physical AI, offrant aux startups deeptech françaises et aux investisseurs européens une plateforme pour réduire le décrochage face aux acteurs américains et asiatiques dans la robotique humanoïde et industrielle.

💬 Paris qui se positionne sur la physical AI, c'est le genre de pari qu'on peut pas se permettre de rater. On a déjà vu ce qui se passe quand on laisse les Américains structurer l'écosystème LLM sans contre-poids européen. Reste à voir si MACHINA sera vraiment un lieu de décision ou juste un beau networking event avec des robots en démo.

RobotiqueActu
1 source
Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre
173Le Big Data 

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Figure AI a publié le 8 mai 2026 une vidéo montrant deux de ses robots humanoïdes F.03 nettoyer une chambre et refaire un lit en moins de deux minutes, de manière entièrement autonome. Les deux machines ouvrent une porte, déplacent une chaise de bureau, rangent un casque audio, ferment un livre, puis s'attaquent ensemble à la confection du lit: elles saisissent la couette, la déplient et la lissent de façon synchronisée. Le tout est piloté par Helix-02, le système d'intelligence artificielle maison développé par Figure AI pour contrôler ses humanoïdes. L'entreprise affirme que c'est la première fois qu'un unique réseau neuronal gouverne plusieurs robots humanoïdes coopérant sur une tâche complexe, en combinant perception visuelle, locomotion et manipulation fine dans une seule architecture. Ce qui distingue cette démonstration des précédentes, c'est l'absence de chef d'orchestre centralisé entre les deux robots. Chacun analyse la scène via ses propres caméras et interprète les intentions de l'autre uniquement en observant ses mouvements, sans communication directe. Ils fonctionnent comme deux humains qui tendraient une housse de couette sans se concerter verbalement. Le moment le plus significatif techniquement reste la manipulation de la couette: un tissu souple change constamment de forme, ce qui oblige chaque robot à recalculer ses actions en temps réel à chaque geste de son partenaire. C'est un problème de robotique notoirement difficile, très différent de la manipulation d'objets rigides comme des boîtes ou des outils. Figure AI s'inscrit dans une course industrielle intense autour des robots humanoïdes destinés aux environnements domestiques et professionnels, un marché que convoitent aussi Tesla avec Optimus, Boston Dynamics, Agility Robotics ou encore 1X. La coopération multi-robot représente une étape charnière: un seul humanoïde ne suffit pas pour de nombreuses tâches du monde réel qui nécessitent deux paires de mains. Cependant, la prudence reste de mise face à ce type de démonstration. La pièce est soigneusement préparée avant l'exercice, les objets placés de façon optimale, et aucun élément imprévu ne vient perturber les robots pendant l'opération. La distance entre un environnement de démo contrôlé et un appartement ordinaire avec ses câbles, ses animaux de compagnie et son désordre quotidien reste considérable. Les progrès sont néanmoins réels et s'accélèrent: la question n'est plus de savoir si les humanoïdes atteindront ce niveau d'autonomie en conditions réelles, mais à quelle échéance.

RobotiqueOpinion
1 source
Modélisation neuronale d'ordre réduit avec simulation différentiable pour la perception tactile haute résolution
174arXiv cs.RO 

Modélisation neuronale d'ordre réduit avec simulation différentiable pour la perception tactile haute résolution

Des chercheurs ont publié le 7 mai 2026 sur arXiv (arXiv:2605.05053) un framework de simulation tactile baptisé "reduced-order neural simulation", conçu pour modéliser la déformation haute résolution des élastomères utilisés dans les capteurs tactiles robotiques. Le système couple une dynamique MPM (Material Point Method) à grille grossière avec un décodeur neuronal implicite qui reconstruit les détails sub-particulaires à partir d'états latents compacts. Par rapport à TacIPC, la référence actuelle du domaine, le framework atteint une accélération de simulation supérieure à 65 % et une réduction de 40 % de l'empreinte mémoire, tout en améliorant la fidélité géométrique. En rendu tactile et en reconstruction de surface 3D, la précision progresse de 25 %, avec production d'images de profondeur réalistes et de maillages surfaciques cohérents physiquement. Ce résultat est significatif pour les équipes travaillant sur la manipulation dextre, un verrou reconnu de la robotique humanoïde et industrielle. Les capteurs tactiles à élastomère (de type GelSight ou DIGIT) génèrent des données de déformation complexes que les pipelines de sim-to-real peinent à exploiter en temps réel : le coût computationnel des méthodes éléments finis (FEM) ou des MPM classiques les rend incompatibles avec les boucles de contrôle rapides ou les phases d'entraînement par reinforcement learning. Un simulateur différentiable 65 % plus rapide et 40 % moins gourmand en mémoire ouvre concrètement la voie à l'intégration du retour tactile dans des politiques VLA (Vision-Language-Action) entraînées à grande échelle, hypothèse jusqu'ici limitée par les coûts de simulation. Le problème de la simulation tactile haute fidélité est actif depuis plusieurs années : TacICP, TacSim et les variantes FEM constituent le socle sur lequel ce travail se positionne. Dans le paysage compétitif, des laboratoires comme MIT CSAIL, CMU et Stanford travaillent sur des capteurs et simulateurs tactiles similaires, tandis que des startups comme Contactile ou Roboskin développent des solutions commerciales. Les auteurs ne mentionnent pas de partenariat industriel ni de déploiement prévu, et l'article reste à ce stade une contribution académique sans validation sur hardware réel annoncée. La prochaine étape naturelle serait une intégration dans un pipeline de manipulation fermée-boucle pour mesurer le gap sim-to-real résiduel.

RecherchePaper
1 source
La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé
175Le Big Data 

La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé

Le 6 mai 2026, à la veille de l'anniversaire de Bouddha, le temple Jogye de Séoul, principal centre de l'ordre bouddhiste éponyme, l'un des plus influents de Corée du Sud, a organisé une cérémonie d'ordination pour un robot humanoïde. L'appareil, baptisé Gabi lors du rituel, mesure 1,30 mètre et repose sur la plateforme Unitree G1. Vêtu d'une robe monastique grise et brune, il s'est présenté devant des moines et des fidèles, les mains jointes, s'inclinant tandis qu'un moine lui remettait un chapelet de 108 perles. Un autocollant a remplacé la marque physique habituellement laissée par la brûlure d'encens. Cinq préceptes ont été spécialement réécrits pour lui : respecter la vie, ne pas endommager d'autres robots ou objets, obéir aux humains, éviter les comportements trompeurs et économiser son énergie. Gabi participera prochainement au festival des lanternes bouddhistes aux côtés de trois autres robots, Seokja, Mohee et Nisa. Au-delà du spectacle, l'initiative porte une intention explicitement philosophique. Le vénérable Seong Won, responsable culturel de l'ordre Jogye, a présenté l'ordination non comme un coup de communication mais comme une invitation à réfléchir à la coexistence entre humains et machines dans une société où l'intelligence artificielle occupe une place croissante. Pour les concepteurs du projet, intégrer un robot dans un espace aussi intimement humain que la spiritualité est précisément ce qui force la question : jusqu'où l'IA peut-elle s'immiscer dans des domaines que l'on croyait réservés à la conscience et à l'expérience subjective ? Le fait que les moines aient consulté ChatGPT et Gemini pour rédiger les règles morales de Gabi, une IA aidant à définir les principes éthiques d'un autre robot, illustre à quel point les frontières sont déjà brouillées. Cette ordination s'inscrit dans un contexte national particulier : la Corée du Sud est l'un des pays les plus avancés au monde en robotique et en adoption de l'IA, avec des robots déployés dans les cafés, les hôtels et les hôpitaux. L'ordre Jogye, qui administre plus de 1 700 temples à travers le pays, dispose d'une forte influence culturelle et d'une capacité réelle à faire résonner ce type d'initiative dans l'opinion publique. En choisissant d'ordonner un robot plutôt que de simplement l'exposer, les moines franchissent un pas symbolique fort : ils reconnaissent implicitement que la question de la place des machines dans la société humaine concerne désormais tous les espaces, y compris les plus sacrés. La prochaine étape, la participation de Gabi au festival des lanternes, sera un test grandeur nature de la réaction du public face à cette hybridation inédite entre tradition millénaire et technologie de pointe.

SociétéOpinion
1 source
Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes
176Le Big Data 

Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes

Boston Dynamics a publié le 5 mai 2026 une courte vidéo montrant son robot humanoïde Atlas réaliser un appui tendu renversé suivi d'un L-sit maintenu plusieurs secondes, avant de se relever sans assistance. Cette nouvelle génération d'Atlas affiche des caractéristiques techniques imposantes : 1,88 mètre de hauteur (6,2 pieds), 90 kilogrammes, 56 degrés de liberté articulaire, des rotations à 360° sur les articulations clés, une protection IP67 contre la poussière et l'eau, et une plage de fonctionnement de -20° à +40°C. Ce n'est plus un prototype de laboratoire : il s'agit d'une version conçue pour une industrialisation future, avec seulement deux types d'actionneurs distincts dans l'ensemble du corps. Le L-sit est une figure de gymnastique artistique qui exige une force abdominale extrême, un équilibre millimétré et une coordination quasi parfaite, déjà difficile pour un humain entraîné, quasi insoluble pour une machine de 90 kilos jusqu'à récemment. Ce que Boston Dynamics démontre ici, c'est la maturité de son pipeline d'apprentissage par renforcement : Atlas s'entraîne en simulation virtuelle sur des milliers d'essais, affine ses stratégies de mouvement, puis transfère ces réflexes acquis vers le robot physique. Le résultat visible est frappant, les gestes ne ressemblent plus à des séquences programmées point par point, mais à un équilibre instinctif, comme si la machine anticipait ses propres pertes de stabilité avant qu'elles ne surviennent. C'est un saut qualitatif majeur : la fluidité du mouvement est désormais comparable à celle d'un gymnaste humain de niveau intermédiaire. Derrière la démonstration spectaculaire, les enjeux sont industriels et stratégiques. Le travail sur la locomotion généraliste est piloté par le RAI Institute, dirigé par Marc Raibert, fondateur historique de Boston Dynamics, avec l'objectif de créer un système de contrôle unifié capable de gérer aussi bien la marche quotidienne que les figures acrobatiques. Hyundai, propriétaire de Boston Dynamics depuis 2021, prévoit de déployer Atlas dans sa gigantesque usine de Géorgie dès 2028, et vise à terme une production de 30 000 unités humanoïdes par an. Atlas n'est cependant pas seul sur ce marché : Figure, Agility Robotics, Tesla avec Optimus, et plusieurs startups chinoises se disputent les mêmes contrats industriels. Boston Dynamics possède probablement l'humanoïde techniquement le plus avancé, mais la transition d'une vidéo virale à une ligne de production fiable, rentable et à grande échelle reste le vrai défi, et c'est là que la compétition se jouera dans les deux prochaines années.

RobotiqueOpinion
1 source
Préhension indépendante du point de vue par VLM et observations partielles
177arXiv cs.RO 

Préhension indépendante du point de vue par VLM et observations partielles

Des chercheurs ont publié sur arXiv (arXiv:2603.07866v2) un pipeline de saisie robotique guidé par le langage naturel, conçu pour fonctionner dans des environnements encombrés avec des observations partielles. Le système prend en entrée une commande textuelle en langage libre, localise l'objet cible dans l'image RGB via détection open-vocabulary et segmentation d'instance, puis extrait un nuage de points centré sur l'objet à partir de données RGB-D. Pour compenser les zones occultées, le pipeline applique une compensation de profondeur par back-projection et une complétion du nuage de points en deux étapes. Il génère ensuite des candidats de saisie à 6 degrés de liberté (6-DoF), les filtre pour éviter les collisions, et sélectionne la saisie finale via des heuristiques orientées sécurité tenant compte de l'accessibilité, de la faisabilité d'approche et des dégagements. Évalué sur un robot quadrupède équipé d'un bras manipulateur, le pipeline atteint un taux de succès global de 90 % (9 saisies sur 10) contre 30 % (3/10) pour la baseline dépendante du point de vue, sur deux scénarios de table encombrés. Ce résultat est notable parce qu'il adresse l'un des blocages les plus persistants du manipulation robotique mobile: l'occultation partielle. Les robots humanoïdes et quadrupèdes déployés en entrepôt ou en atelier ne disposent jamais d'une vue complète de la scène. Passer de 30 % à 90 % de succès en conditions réelles de désordre, sans recalibrage de vue, valide l'approche de complétion de nuage de points couplée à la détection open-vocabulary: le système n'a pas besoin de connaître l'objet à l'avance, il le trouve par description textuelle. C'est exactement le type de généralisation que cherchent les intégrateurs industriels pour éviter la reprogrammation à chaque nouveau SKU. Ce travail s'inscrit dans la vague des pipelines VLA (Vision-Language-Action) qui tentent de combler le fossé entre compréhension sémantique et exécution physique fiable. Des approches concurrentes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) visent également la saisie généraliste, mais depuis des plateformes humanoïdes à deux bras. Ici, l'accent est mis sur les robots quadrupèdes à bras unique, segment moins couvert commercialement mais pertinent pour inspection et logistique en terrain semi-structuré. Les auteurs ne mentionnent pas de déploiement industriel immédiat, il s'agit d'un résultat de laboratoire; les prochaines étapes probables incluent des tests sur davantage de catégories d'objets et une évaluation hors table, en environnement ouvert.

RobotiqueOpinion
1 source
RLDX-1 : rapport technique
178arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

RobotiqueOpinion
1 source
Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
179arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

RobotiquePaper
1 source
AI² Robotics défend les modèles VLA et lance NeuroVLA
180Pandaily 

AI² Robotics défend les modèles VLA et lance NeuroVLA

Guo Yandong, fondateur et PDG d'AI² Robotics, a présenté NeuroVLA, un modèle d'action robotique de troisième génération qui réduit la latence de réponse de plusieurs centaines de millisecondes à quelques dizaines de millisecondes. L'entreprise articule l'évolution des architectures VLA (Vision-Language-Action) en trois stades : les modèles end-to-end de première génération unifiant perception et contrôle ; les systèmes de deuxième génération intégrant des world models pour le raisonnement prédictif ; et désormais NeuroVLA, architecture neuro-inspirée permettant une optimisation continue comparable à la mémoire musculaire. En parallèle, AI² Robotics a lancé AlphaBrain Platform, une boîte à outils open-source combinant modèles VLA neuro-inspirés, entraînement par reinforcement learning à base de tokens et architectures modulaires de world model, avec support des benchmarks de référence LIBERO et CALVIN. L'annonce ne précise ni contexte de déploiement réel, ni clients industriels : il s'agit d'un lancement de modèle et de plateforme, pas d'un déploiement terrain. La réduction de latence revendiquée est le chiffre à surveiller. En manipulation robotique, passer sous 50 ms est généralement considéré comme le seuil nécessaire pour des gestes précis en environnement non structuré. Si NeuroVLA tient ces performances hors laboratoire, cela représenterait une avancée concrète sur le sim-to-real gap, obstacle persistant à la commercialisation des robots VLA. L'ouverture d'AlphaBrain en open-source signale une stratégie d'écosystème : AI² Robotics cherche à fédérer des contributeurs autour de son approche architecturale, à l'image de ce que tente Physical Intelligence avec pi0. AI² Robotics est une startup chinoise spécialisée dans l'embodied AI pour robots manipulateurs et humanoïdes. La prise de position publique de Guo Yandong en faveur des VLA intervient dans un débat architectural actif : les pipelines VLA end-to-end, portés aussi par Figure AI et 1X Technologies, s'affrontent aux approches hybrides modulaires de Sanctuary AI ou Apptronik. Les prochains jalons crédibles à suivre sont les résultats publiés sur LIBERO et CALVIN, qui permettront une comparaison objective avec les modèles concurrents, ainsi que l'annonce éventuelle de pilotes industriels validant les métriques en conditions réelles.

RobotiqueOpinion
1 source
C’est incroyable ! Figure AI passe à 55 robots en une semaine (et ça inquiète)
181Le Big Data 

C’est incroyable ! Figure AI passe à 55 robots en une semaine (et ça inquiète)

Figure AI vient de franchir un cap industriel majeur dans la robotique humanoïde. En seulement 120 jours, la startup californienne a multiplié par 24 sa cadence de production sur son site BotQ, passant d'un robot par jour à un robot par heure, soit 55 unités sur la semaine du 29 avril 2026. Cette montée en puissance repose sur une chaîne de fabrication entièrement repensée : plus de 150 postes de travail connectés, un logiciel maison pilotant chaque étape, plus de 50 points de contrôle qualité, et plus de 80 tests fonctionnels par unité avant validation. Les robots subissent des cycles intensifs de squats, de jogging et de mouvements répétés pour simuler les conditions réelles dès la sortie de ligne. Les résultats sont saisissants : un rendement supérieur à 80 % dès la première sortie, un taux de réussite de 99,3 % sur les batteries, et plus de 9 000 actionneurs déjà produits. Cette accélération industrielle dépasse la simple performance logistique. Chaque robot déployé devient un capteur de données qui alimente Helix, le système d'intelligence artificielle maison de Figure AI. Plus la flotte s'agrandit, plus l'IA apprend vite, et plus les robots gagnent en autonomie réelle. Les nouvelles capacités s'appuient sur une approche dite de contrôle corporel complet guidé par la perception : équipés de caméras embarquées, les robots reconstruisent une vision 3D de leur environnement et anticipent leurs mouvements, que ce soit pour monter des escaliers, traverser des surfaces irrégulières ou s'adapter à des situations imprévues sans assistance humaine. Figure AI a également développé une infrastructure de gestion de flotte incluant diagnostic en temps réel, maintenance à distance et mises à jour simultanées sur l'ensemble des unités déployées. Figure AI s'inscrit dans une course industrielle qui oppose désormais plusieurs géants et startups bien financées sur un même terrain : la capacité à produire des humanoïdes en série et à les rendre opérationnels à grande échelle. Tesla, avec son robot Optimus, et Boston Dynamics font figure de concurrents directs, mais la vraie bataille se joue aujourd'hui sur les données réelles accumulées en déploiement. Celui qui dispose de la plus grande flotte apprenante accumule un avantage compétitif difficile à rattraper. Figure AI, soutenue par des investisseurs majeurs de la Silicon Valley et des partenariats industriels actifs notamment avec BMW, mise sur cette logique de flywheel : plus de robots, plus de données, de meilleures décisions, encore plus de robots. La question qui reste ouverte est celle de la vitesse à laquelle ces humanoïdes vont effectivement remplacer de la main-d'oeuvre dans des environnements industriels réels, une perspective qui fascine autant qu'elle inquiète.

UELe partenariat actif de Figure AI avec BMW expose directement le tissu industriel européen à la robotique humanoïde en série, avec des implications concrètes sur l'emploi dans les usines du continent.

RobotiqueOpinion
1 source
VISION-SLS : contrôle sûr par représentations visuelles apprises via synthèse système
182arXiv cs.RO 

VISION-SLS : contrôle sûr par représentations visuelles apprises via synthèse système

Des chercheurs ont publié VISION-SLS, une méthode de contrôle robotique capable de piloter un robot en temps réel à partir d'images RGB haute résolution tout en garantissant formellement la sécurité du comportement. La méthode a été testée sur plusieurs systèmes simulés : une voiture à 4 dimensions d'état, un quadrirotor à 10 dimensions, et un humanoïde à 59 dimensions opérant dans des conditions de visibilité partielle, le tout avec des flux vidéo d'au moins 512 x 512 pixels. Elle a également été validée sur un véritable véhicule terrestre contrôlé uniquement par ses caméras embarquées, surpassant les approches concurrentes en termes de taux de sécurité et de temps de calcul. Le code source est disponible sur GitHub. Ce qui distingue VISION-SLS des approches existantes, c'est sa capacité à combiner apprentissage profond et garanties formelles de sécurité, deux mondes qui s'ignoraient largement jusqu'ici. En robotique autonome, un système peut prendre de bonnes décisions en moyenne tout en échouant catastrophiquement dans des cas limites. VISION-SLS résout ce problème en construisant des bornes d'erreur calibrées empiriquement sur la représentation visuelle apprise, puis en intégrant ces incertitudes directement dans l'optimisation de la politique de contrôle via un cadre appelé System Level Synthesis (SLS). Résultat : le robot adopte un comportement actif de réduction d'incertitude, cherchant à mieux se localiser, tout en restant dans des zones certifiées sûres. Le défi fondamental que cherche à résoudre VISION-SLS est vieux comme la robotique moderne : comment piloter un système physique depuis des capteurs imparfaits, avec des dynamiques non linéaires, sans garanties de collision ? Les méthodes de contrôle classiques exigent un état complet et précis du système ; les méthodes d'apprentissage par renforcement offrent de bonnes performances moyennes mais sans garanties. SLS est un cadre de théorie du contrôle qui permet de concevoir des politiques robustes avec des garanties mathématiques, mais il était jusqu'ici inapplicable à des entrées visuelles haute dimension. VISION-SLS lève cet obstacle en apprenant une représentation compacte des images avec des bornes d'erreur exploitables, et en développant un solveur original basé sur la programmation convexe séquentielle couplée à des récursions de Riccati pour rendre le tout calculable en temps réel.

RobotiqueOpinion
1 source
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
183arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes
184arXiv cs.RO 

MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes

Des chercheurs ont présenté MotionBricks, un nouveau cadre de génération de mouvements en temps réel capable de modéliser plus de 350 000 clips d'animation avec un seul modèle unifié. Publié sur arXiv, le système repose sur deux composants centraux : un backbone génératif modulaire à espace latent, conçu pour fonctionner sous contraintes de calcul sévères, et des "smart primitives", une interface unifiée permettant de contrôler navigation et interactions avec les objets. Les performances annoncées sont remarquables : 15 000 images par seconde à une latence de 2 millisecondes, sur des jeux de données open source et propriétaires de tailles variées. Le système a également été déployé sur le robot humanoïde Unitree G1, démontrant son applicabilité au contrôle robotique en temps réel. L'enjeu principal de MotionBricks est de combler le fossé persistant entre la recherche en synthèse de mouvement et les contraintes de production industrielle. Jusqu'ici, les méthodes génératives modernes, pourtant puissantes, se dégradaient fortement dès qu'elles devaient opérer en temps réel avec un large répertoire de compétences de mouvement. MotionBricks résout ce problème en permettant à des applications de se construire en mode "plug-and-play", comme assembler des briques, sans nécessiter de connaissances expertes en animation. Le contrôle multimodal fin, commandes de vitesse, sélection de style, keyframes précis, que les modèles existants pilotés par texte ou tags ne pouvaient pas offrir, devient ici accessible de manière intuitive. La synthèse de mouvements procédurale et les arbres d'animation traditionnels dominent encore les moteurs de jeux et la production 3D temps réel, faute d'alternatives génératives assez rapides et flexibles. Des projets comme Motion Diffusion Model ou MDM ont démontré la qualité des approches diffusion, mais butaient précisément sur les contraintes de latence. MotionBricks s'inscrit dans un courant plus large visant à rendre les modèles génératifs opérationnels en production, avec des implications directes pour l'industrie du jeu vidéo, les studios d'animation et la robotique humanoïde, un secteur en pleine accélération avec des acteurs comme Boston Dynamics, Figure AI ou Unitree.

UELes studios d'animation et développeurs de jeux vidéo européens pourraient à terme bénéficier de cette technologie pour produire des personnages animés en temps réel sans expertise spécialisée en animation.

RecherchePaper
1 source
Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models
185The Information AI 

Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models

Deux nouvelles startups spécialisées dans les modèles du monde viennent d'entrer dans la course aux financements. Dream Labs, fondée ce mois d'avril 2026 par Joel Jang, ancien chercheur chez Nvidia où il travaillait sur le projet Groot, le modèle de l'entreprise dédié aux robots humanoïdes, cherche à lever plusieurs dizaines de millions de dollars pour son premier tour de table. Parallèlement, One World AI, cofondée par Sherry Yang, professeure à l'Université de New York et chercheuse principale chez Google DeepMind, vise une levée de 100 millions de dollars, selon des sources proches des négociations. Ces modèles du monde, ou "world models", sont des modèles de fondation conçus pour simuler la physique des interactions entre objets, humains et environnements. Ils sont considérés par une partie de la communauté de recherche comme une brique essentielle pour développer des robots capables d'agir de manière autonome et fiable dans le monde réel. L'intérêt des investisseurs pour ce secteur est donc directement lié aux ambitions croissantes de l'industrie robotique, qui cherche à dépasser les limites actuelles de la manipulation physique et du raisonnement spatial. Le mouvement s'inscrit dans un élan plus large initié ces douze derniers mois, durant lesquels des acteurs comme World Labs, la startup de la chercheuse en vision artificielle Fei-Fei Li, et AMI Labs, portée par le directeur scientifique de Meta Yann LeCun, ont levé chacun plusieurs milliards de dollars sur cette même thèse technologique. La convergence de profils issus de Nvidia, Google DeepMind et des grandes universités autour de ce segment précis signale que le pari sur les modèles du monde est en train de passer du stade académique à celui de la compétition industrielle à grande échelle.

RobotiqueOpinion
1 source
Vidéo : Ce robot bagagiste est la nouvelle star de l’aéroport de Japon
186Le Big Data 

Vidéo : Ce robot bagagiste est la nouvelle star de l’aéroport de Japon

Japan Airlines lancera dès le début du mois de mai 2026 une expérimentation inédite à l'aéroport international de Haneda, à Tokyo : des robots humanoïdes utilisés comme bagagistes sur le tarmac. Ces machines, conçues par l'entreprise chinoise Unitree et mesurant 1,30 mètre, seront chargées de déplacer bagages et marchandises dans l'un des hubs aériens les plus fréquentés du monde, avec plus de 60 millions de passagers accueillis chaque année. Le projet est mené en partenariat avec le groupe GMO Internet et s'étendra jusqu'en 2028 pour en évaluer pleinement l'efficacité opérationnelle. Lors d'une démonstration récente, l'un de ces robots a poussé du fret sur un tapis roulant avant d'effectuer un salut en direction d'un collègue absent, une scène aussi symbolique qu'inattendue, illustrant à la fois le potentiel et les limites actuelles de ces machines. L'enjeu est considérable pour Japan Airlines et pour le secteur aéroportuaire japonais dans son ensemble. Yoshiteru Suzuki, président de JAL Ground Service, estime que confier les tâches physiques aux robots pourrait alléger significativement la charge de travail des équipes au sol, dans un contexte où les recrutements peinent à suivre la demande. Les robots seraient capables de fonctionner en autonomie pendant deux à trois heures consécutives et pourraient, à terme, être déployés sur d'autres missions comme le nettoyage des cabines. Les missions liées à la sécurité resteraient cependant sous responsabilité humaine, une limite qui traduit la prudence du secteur face à l'intégration de ces nouvelles technologies dans un environnement aussi réglementé que l'aérien. Ce projet s'inscrit dans une crise structurelle que le Japon tente de gérer depuis plusieurs années : une population vieillissante combinée à un afflux touristique record. Le pays a accueilli 42,7 millions de visiteurs étrangers en 2025, et plus de 7 millions ont déjà été enregistrés sur les deux premiers mois de 2026, malgré un recul des touristes chinois dû à des tensions diplomatiques. Face à la contraction de sa population active, le Japon pourrait avoir besoin de plus de 6,5 millions de travailleurs étrangers supplémentaires d'ici 2040, mais le gouvernement reste soumis à des pressions politiques pour contenir l'immigration. C'est dans ce contexte que la robotisation des tâches physiques apparaît comme une réponse pragmatique, et peut-être inévitable. Tomohiro Uchida, directeur de GMO AI and Robotics, souligne que les aéroports restent encore très dépendants du travail humain malgré des infrastructures très automatisées, et c'est précisément ce paradoxe que cette expérience vise à commencer à résoudre.

RobotiqueActu
1 source
Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs
187arXiv cs.RO 

Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs

Des chercheurs ont publié une étude systématique sur le déploiement de modèles Vision-Language-Action (VLA) sur des accélérateurs matériels embarqués, une problématique centrale pour la robotique autonome à faible coût. Ces modèles, capables de combiner perception visuelle, compréhension du langage naturel et génération de commandes motrices, sont évalués jusqu'ici quasi exclusivement sur des GPU de bureau haut de gamme, ce qui masque les véritables compromis coût-performance des architectures embarquées. L'équipe a construit un tableau de comparaison multi-accélérateurs (GPU, XPU, NPU) en évaluant chaque combinaison modèle-matériel selon trois critères : coût, énergie consommée et temps d'inférence, regroupés sous l'acronyme CET. Résultat : des accélérateurs edge correctement dimensionnés se révèlent plus efficaces en coût et en énergie que des GPU phares, tout en respectant les contraintes de fréquence de contrôle requises par les robots en temps réel. L'étude apporte aussi un éclairage inédit sur le comportement interne de ces modèles lors de l'inférence. Les chercheurs ont identifié un schéma en deux phases répétable : un backbone VLM (le module vision-langage) limité par la puissance de calcul, suivi d'un module expert d'action limité par la bande passante mémoire. Cette alternance crée une sous-utilisation structurelle du matériel, source d'inefficacité. À partir de ce diagnostic, ils ont développé deux optimisations : DP-Cache, qui réduit les calculs redondants dans la diffusion, et V-AEFusion, qui introduit un parallélisme asynchrone entre les deux phases. Ces techniques permettent des accélérations allant jusqu'à 2,9x sur GPU et 6x sur NPU edge, avec une dégradation marginale des performances de contrôle. Ce travail s'inscrit dans une course plus large à l'embarquabilité des modèles d'IA généralistes dans les systèmes physiques. Les robots humanoïdes et mobiles de nouvelle génération, développés par des acteurs comme Figure, Physical Intelligence ou Boston Dynamics, font face à des contraintes énergétiques et économiques sévères dès lors qu'on les sort des laboratoires. L'approche de co-caractérisation modèle-matériel proposée ici offre un cadre méthodologique transposable, et le leaderboard public mis en ligne sur Vercel constitue une ressource ouverte pour orienter les prochains choix d'architecture dans l'IA incarnée.

UEAucune entité française ou européenne n'est directement impliquée, mais les équipes européennes de robotique autonome peuvent s'appuyer sur le leaderboard public et les optimisations en open source pour guider leurs choix d'architecture embarquée.

RecherchePaper
1 source
SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques
188arXiv cs.RO 

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Des chercheurs ont publié sur arXiv une méthode appelée SMP (Score-Matching Motion Priors), conçue pour rendre les personnages virtuels animés par simulation physique capables de mouvements naturels, sans avoir à tout réentraîner à chaque nouveau projet. La technique repose sur des modèles de diffusion de mouvement pré-entraînés combinés à une technique baptisée score distillation sampling (SDS), empruntée au domaine de la génération 3D à partir de texte. Le principe : entraîner une fois un prior de mouvement sur un grand corpus de données de capture de mouvement, puis le geler et le réutiliser comme fonction de récompense universelle pour entraîner n'importe quelle nouvelle politique de contrôle sur des tâches variées. L'enjeu est considérable pour les studios de jeux vidéo, les équipes de simulation robotique et les développeurs d'avatars en réalité virtuelle. Jusqu'ici, la méthode dominante reposait sur l'apprentissage par imitation adversariale, efficace mais contraignante : chaque nouveau contrôleur nécessitait un réentraînement complet du prior, et les données de référence devaient être conservées à chaque étape. SMP rompt avec cette logique en proposant un prior généraliste, modulable et composable. Les auteurs montrent qu'un seul modèle entraîné sur de larges datasets peut être redirigé vers des styles de mouvement spécifiques, et que plusieurs styles peuvent être composés pour en synthétiser de nouveaux, absents du dataset original. Cette avancée s'inscrit dans une tendance plus large d'adaptation des modèles de diffusion, popularisés en génération d'images, à d'autres modalités comme le mouvement corporel. Les méthodes adversariales, issues des GANs, ont longtemps dominé la synthèse de mouvements réalistes pour personnages humanoïdes simulés physiquement, mais leur manque de réutilisabilité freinait leur déploiement à grande échelle dans des pipelines de production. SMP propose une alternative modulaire qui pourrait simplifier le développement de personnages animés dans les moteurs physiques, sans sacrifier la qualité visuelle. Les résultats présentés sur une suite diversifiée de tâches de contrôle montrent des performances comparables aux meilleures méthodes adversariales actuelles.

RecherchePaper
1 source
Sereact lève un Série B pour étendre Cortex 2.0 et entrer sur le marché américain
189Robotics Business Review 

Sereact lève un Série B pour étendre Cortex 2.0 et entrer sur le marché américain

La startup allemande Sereact a annoncé le 27 avril 2026 une levée de fonds de série B de 110 millions de dollars pour accélérer le déploiement de son système d'intelligence artificielle robotique Cortex 2.0 et s'implanter aux États-Unis. Fondée en 2021 et basée à Stuttgart, l'entreprise vient d'ouvrir un bureau à Boston et recrute activement des ingénieurs, commerciaux et techniciens locaux. Cortex est conçu pour piloter des robots dans des environnements industriels réels : cellules de picking à un bras, stations de retours à deux bras, robots humanoïdes, ainsi qu'un système de perception 3D baptisé Sereact Lens, dédié à l'inventaire et au contrôle qualité. Parmi ses clients européens figurent déjà Daimler Truck, Mercedes-Benz, BMW, Austrian Post et le groupe Rohlik. Le chiffre mis en avant par l'entreprise est éloquent : sur 200 systèmes déployés ayant effectué un milliard de prises d'objets, une seule intervention humaine à distance est nécessaire toutes les 53 000 opérations. Ce niveau d'autonomie représente un saut qualitatif significatif pour l'automatisation des entrepôts. Contrairement à la plupart des systèmes concurrents entraînés sur des données simulées ou des démonstrations en laboratoire, Cortex apprend en conditions réelles, de nuit, en période de pointe, sur des objets atypiques que le robot n'a jamais rencontrés. Chaque prise réussie ou ratée est capturée avec ses observations synchronisées, l'état du robot, le retour de force du préhenseur et le résultat final, puis filtrée et réinjectée dans le modèle selon un principe de boucle fermée. Ce que Sereact appelle un "data flywheel", une roue d'accélération de la donnée, signifie que chaque déploiement rend le système plus robuste, creusant l'écart avec des concurrents qui misent sur des milliards de dollars de simulation sans passer par l'épreuve du terrain. La version Cortex 2.0, dont cette levée finance le déploiement à grande échelle, introduit une rupture architecturale majeure : au lieu de réagir après observation, le système "pense avant d'agir". Il intègre un modèle du monde qui génère plusieurs trajectoires possibles, les évalue selon des critères de stabilité, de risque et d'efficacité en simulant la physique et le comportement des objets, puis sélectionne la meilleure avant de bouger le bras. Cette planification s'effectue dans un "espace latent visuel", ce qui rend le modèle compatible avec différentes architectures de robots, indépendamment de leur cinématique propre. L'enjeu est de taille : la course mondiale à la robotique physique s'intensifie, avec des acteurs comme Figure, Physical Intelligence ou 1X levant des centaines de millions pour des approches concurrentes. L'entrée de Sereact sur le marché américain, depuis Boston, place la startup directement au coeur de cet écosystème en pleine ébullition.

UELa startup allemande Sereact, déjà déployée chez des industriels européens majeurs (Daimler Truck, BMW, Mercedes-Benz), lève 110 M$ pour accélérer l'automatisation robotique en Europe avant son expansion aux États-Unis.

RobotiqueActu
1 source
CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens
190arXiv cs.RO 

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

Une équipe de recherche a publié en avril 2026 sur arXiv (référence 2604.22238) un nouveau framework hiérarchique baptisé CodeGraphVLP, conçu pour résoudre une limitation structurelle des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique longue durée. Le système repose sur trois composants couplés : un graphe sémantique persistant qui maintient les entités et relations pertinentes à la tâche même sous observabilité partielle, un planificateur généré sous forme de code exécutable (d'où le préfixe "Code"), et un mécanisme de prompting visuo-linguistique guidé par la progression. Ce dernier construit des observations épurées, sans encombrement visuel parasite, pour focaliser l'exécuteur VLA sur les indices critiques. Les résultats sur des tâches non-markoviennes en environnement réel montrent une meilleure complétion que les baselines VLA standard et leurs variantes avec historique, avec une latence de planification significativement réduite par rapport aux approches qui intègrent un VLM directement dans la boucle de contrôle. L'enjeu technique est précis : les VLA actuels sont entraînés et déployés comme politiques à horizon court, sous hypothèse markovienne, autrement dit, la dernière observation suffit à raisonner sur l'action suivante. Cette hypothèse tient pour des gestes simples, mais s'effondre dès qu'une tâche exige de mémoriser des états antérieurs, d'interpréter des scènes occultées ou de distinguer des objets pertinents parmi du désordre visuel. CodeGraphVLP rompt avec cette contrainte en externalisant la mémoire dans un graphe symbolique et en confiant la planification à du code synthétisé plutôt qu'à des appels répétés à un grand modèle de langage, ce qui réduit la latence tout en maintenant une traçabilité explicite de la progression de la tâche. C'est un signal intéressant pour les intégrateurs industriels : la combinaison représentation symbolique + politique neuronale commence à produire des résultats mesurables sur du matériel réel, pas uniquement en simulation. Les VLA généralisés sont au coeur d'une compétition active en 2025-2026 : Physical Intelligence avec pi0, Google DeepMind avec RT-2 et ses successeurs, et des équipes académiques comme celles derrière OpenVLA. Le positionnement de CodeGraphVLP est distinct, il ne propose pas un nouveau modèle de fondation mais une architecture d'orchestration au-dessus de VLA existants, ce qui le rend potentiellement composable avec des modèles tiers. Les ablations publiées confirment la contribution individuelle de chaque module. La prochaine étape naturelle serait des tests sur des plateformes humanoïdes ou des bras industriels dans des environnements non contrôlés, domaine où l'hypothèse markovienne est la plus souvent violée.

RobotiqueOpinion
1 source
Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?
191IEEE Spectrum Robotics 

Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?

La semaine du 18 avril 2026 a été marquée par plusieurs démonstrations robotiques notables, dont la plus emblématique s'est déroulée à Pékin : lors d'un semi-marathon de 21 kilomètres réunissant 12 000 coureurs humains, plus de 100 robots humanoïdes ont pris le départ aux côtés d'athlètes humains, et trois d'entre eux ont franchi la ligne d'arrivée avant tout concurrent humain. Ce résultat, relayé par Al Jazeera, illustre une progression rapide de la locomotion bipedale en conditions réelles. En parallèle, Sony AI publiait dans Nature les résultats d'un système autonome capable de disputer une partie de ping-pong contre des joueurs professionnels, en relevant le défi de la perception haute vitesse et du contrôle dynamique en temps réel, deux verrous longtemps considérés comme bloquants pour l'IA physique compétitive. Autre fait marquant, le robot AthenaZero du Robotics and AI Institute a réalisé du jonglage à trois balles à mains nues, sans motion capture externe ni entonnoir mécanique, en s'appuyant uniquement sur des capteurs embarqués et une coordination oeil-main apprise pour gérer l'incertitude au contact. Ces résultats alimentent le débat sur l'écart entre démonstration et déploiement réel. Le semi-marathon de Pékin constitue une preuve de robustesse locomotrice en environnement non contrôlé, même si les conditions de course (surface, pace, assistance technique en bord de piste) mériteraient d'être précisées pour évaluer la comparabilité exacte avec une performance humaine. La publication Sony dans Nature donne une légitimité scientifique au domaine de l'IA physique compétitive et valide l'idée que des boucles de contrôle rapide peuvent être apprises à partir de données réelles plutôt que simulées. AthenaZero, de son côté, illustre les progrès du sim-to-real sur des tâches de manipulation dynamique sans infrastructure externe, ce qui ouvre la voie à des applications industrielles de tri ou de reorientation d'objets en mouvement. En contrepoint, IEEE Spectrum souligne que la vraie valeur en entrepôt vient encore de systèmes d'automatisation mobile comme ceux de Berkshire Grey, et non des humanoïdes, une nuance importante pour les décideurs B2B qui évaluent des ROI à court terme. Le contexte de cette semaine s'inscrit dans une accélération visible de la robotique chinoise, portée notamment par des acteurs comme Unitree, qui présente des séquences de locomotion en milieu non structuré, et DEEP Robotics, dont les robots quadrupèdes sont déjà déployés en patrouille résidentielle en Amérique du Nord. Sur le plan matériau, le Max Planck Institute for Intelligent Systems a publié une méthode d'évaluation des actionneurs électrostatiques souples utilisant des actionneurs Peano-HASEL, atteignant un rendement électromécanique de 63,6 %, soit plus de trois fois supérieur aux valeurs antérieurement rapportées, ce qui ouvre des perspectives pour des robots légers et silencieux. Côté mobilité aérienne, Skydio a montré la capture de drones en vol avec un bras UR20, tandis qu'ETH Zurich continue ses travaux sur drones suractuatés. Enfin, Sphero se positionne pour combler le vide laissé par LEGO Mindstorms sur le marché de la robotique éducative, un segment commercial non négligeable laissé en friche depuis l'abandon de la gamme par LEGO.

UELes publications de l'ETH Zurich sur les drones suractuatés et du Max Planck Institute sur les actionneurs Peano-HASEL (rendement 63,6%) positionnent la recherche européenne comme contributrice active dans l'écosystème mondial de la robotique physique légère.

RobotiquePaper
1 source
Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
192arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

AutrePaper
1 source
Humanoid data
193MIT Technology Review 

Humanoid data

Les entreprises de robotique humanoïde ont lancé une course mondiale à la collecte de données de mouvement humain, convaincues que ces données sont la clé pour entraîner des robots capables de travailler aux côtés des humains, et un jour de les remplacer. Des applications rémunèrent désormais des particuliers en cryptomonnaie pour filmer des gestes du quotidien : réchauffer un plat au micro-ondes, remplir un bol, ouvrir une porte. D'autres plateformes proposent à des internautes de téléopérer à distance un bras robotique situé à Shenzhen, en Chine, pour lui faire résoudre des puzzles. Derrière ces dispositifs étranges se trouvent des investissements massifs : 6,1 milliards de dollars ont été injectés dans la seule filière des robots humanoïdes en 2025. Des centres d'entraînement spécialisés ont vu le jour en Chine, où des opérateurs portant des exosquelettes et des casques de réalité virtuelle répètent le même geste, essuyer une table, des centaines de fois par jour. Des travailleurs à la tâche au Nigeria, en Argentine et en Inde filment leurs corvées ménagères. Aux États-Unis, une entreprise de livraison a équipé ses employés de capteurs enregistrant leurs mouvements pendant le port de colis, avec un double objectif : prévenir les blessures et entraîner les robots qui pourraient les remplacer. L'enjeu est considérable. Les humanoïdes présentent un avantage structurel sur les bras robotiques classiques : leur morphologie leur permet de s'intégrer directement dans des environnements conçus pour l'homme, des entrepôts aux cuisines industrielles. Mais les entraîner est autrement plus complexe. Les simulations informatiques, longtemps utilisées comme substitut aux données réelles, échouent à modéliser fidèlement les lois physiques du monde réel, friction, élasticité, résistance des matériaux, ce qui produisait des robots instables et maladroits. La collecte de données de mouvement en conditions réelles est censée combler ce fossé, en offrant aux algorithmes la même richesse empirique que les textes du web ont fournie aux grands modèles de langage depuis le lancement de ChatGPT fin 2022. Ce modèle de collecte s'est imposé progressivement. Les premières tentatives, menées dans des laboratoires académiques, étaient artisanales : des chercheurs filmaient des volontaires en train de faire des crêpes ou de ranger leur bureau, et partageaient les données librement. Avec l'afflux de capital-risque, la course est devenue industrielle et opaque. La question centrale reste pourtant ouverte : personne ne sait encore combien de milliers de clips d'un micro-ondes ouvert sont nécessaires pour qu'un robot apprenne à cuisiner un repas complet, ni si cette approche peut atteindre l'échelle requise pour déclencher de véritables avancées techniques. Ce que cette dynamique dessine déjà, c'est une nouvelle catégorie de travail physique : celle du laboureur humain qui, avant d'être remplacé par une machine, aura servi à l'entraîner.

RobotiqueOpinion
1 source
OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne
194arXiv cs.RO 

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

AutreActu
1 source
IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson
195NVIDIA Developer Blog 

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

L'article source est tronqué (coupé après le premier paragraphe). Je vais rédiger à partir du contenu visible et des faits techniques documentés sur ce sujet, en restant factuel. --- La démocratisation des modèles d'IA générative open source crée une nouvelle pression sur les plateformes embarquées : les développeurs veulent désormais faire tourner des modèles de plusieurs milliards de paramètres directement sur des robots et agents autonomes opérant dans le monde physique, sans connexion permanente au cloud. Sur les modules NVIDIA Jetson Orin, la contrainte principale est la mémoire unifiée partagée entre CPU et GPU, plafonnée à 64 Go sur le Jetson AGX Orin et à 8 ou 16 Go sur les variantes Orin NX et Nano. Des techniques comme la quantification INT4 et INT8 via TensorRT-LLM, le paged KV cache et le flash attention permettent de faire tourner des modèles comme Llama 3 8B, Mistral 7B ou Phi-3 sur ces plateformes avec des compromis mesurés sur la précision. L'enjeu n'est pas académique : pour les intégrateurs robotiques et les OEM industriels, la capacité à exécuter un VLA (Vision-Language-Action model) localement sans latence réseau est un prérequis pour la manipulation en environnement non structuré, l'inspection autonome ou la navigation en entrepôt. La quantification agressive réduit l'empreinte mémoire d'un facteur 4 à 8x par rapport au FP16, mais introduit une dégradation de précision qu'il faut valider tâche par tâche. NVIDIA positionne cette optimisation comme un élément central de sa stack Physical AI via l'écosystème Isaac ROS. La plateforme Jetson est déployée dans des centaines de produits robotiques en production, des AMR d'entrepôt aux bras collaboratifs et drones d'inspection industrielle. Sur le segment concurrent, Qualcomm pousse ses puces RB3/RB5 avec le moteur Hexagon NPU, et Hailo (Israël) vise spécifiquement l'inférence embarquée légère. La prochaine étape pour NVIDIA sera l'intégration native de GR00T N2, son modèle de fondation humanoïde, sur Jetson Thor, une puce annoncée pour les robots humanoïdes haut de gamme et attendue dans les déploiements pilotes courant 2025-2026.

AutreOpinion
1 source
Hyundai se lance dans la robotique et l'IA physique
196AI News 

Hyundai se lance dans la robotique et l'IA physique

Hyundai Motor Group a annoncé un pivot stratégique majeur vers la robotique et ce que le secteur appelle l'« IA physique », des systèmes d'intelligence artificielle intégrés à des machines capables d'agir et de s'adapter dans des environnements réels. Dans une interview accordée à Semafor, le président du groupe, Chung Eui-sun, a confirmé que ces technologies joueront un rôle central dans la prochaine phase de croissance du conglomérat coréen. Pour appuyer cette ambition, Hyundai prévoit d'investir 26 milliards de dollars aux États-Unis d'ici 2028, s'ajoutant aux quelque 20,5 milliards déjà engagés sur les quarante dernières années. Au cœur de ce plan : le déploiement de robots humanoïdes issus de Boston Dynamics, dont Hyundai a pris le contrôle en 2021, dans ses propres usines de fabrication. La production industrielle de ces robots est attendue vers 2028, avec un objectif de 30 000 unités par an d'ici 2030. Ce virage vers l'IA physique représente une transformation profonde du modèle opérationnel de Hyundai, qui vend chaque année plus de 7 millions de véhicules dans plus de 200 pays via 16 sites de production mondiaux. L'objectif n'est pas de substituer les robots aux humains, mais de leur confier les tâches répétitives ou physiquement exigeantes pendant que les opérateurs se concentrent sur la supervision et la coordination. Chung estime que cette réorganisation permettra d'améliorer l'efficacité et la qualité des produits face à des exigences clients en constante évolution. À terme, ces systèmes pourraient également s'étendre à la logistique et aux services de mobilité, même si les usines restent pour l'instant le principal terrain d'expérimentation. Hyundai n'évolue pas en isolation : la course à l'IA physique s'intensifie dans l'ensemble de l'industrie automobile et technologique, poussée par la convergence entre robotique avancée, données temps réel et modèles d'apprentissage automatique. Le groupe mise également sur l'hydrogène via sa marque HTWO, couvrant production, stockage et utilisation, qu'il présente comme complémentaire aux véhicules électriques, notamment pour alimenter les infrastructures d'IA et les centres de données dont les besoins énergétiques explosent. Ce double pari, robotique et énergie propre, reflète une lecture claire de la part de Chung : les mutations réglementaires et les nouvelles attentes des marchés régionaux imposent une refonte de la façon dont Hyundai produit et opère. Le constructeur, dont les marques Hyundai, Kia et Genesis forment encore le socle du chiffre d'affaires, entame une transition de long terme, du fabricant de véhicules vers un acteur de systèmes physiques intelligents.

UEHyundai, présent en Europe avec ses marques Kia et Genesis, pourrait déployer des robots humanoïdes Boston Dynamics dans ses sites de production mondiaux d'ici 2028, ce qui aura des répercussions sur la compétitivité industrielle automobile européenne.

RobotiqueOpinion
1 source
Intel participera à la construction de l'usine de puces IA Terafab d'Elon Musk
197The Verge AI 

Intel participera à la construction de l'usine de puces IA Terafab d'Elon Musk

Intel s'associe au projet Terafab d'Elon Musk, une gigafabrique de puces IA en cours de construction à Austin, au Texas. Le fabricant américain de semi-conducteurs a annoncé mardi qu'il participait à la conception et à la construction de cette installation, dont l'objectif est de fournir des puces IA aux deux entreprises de Musk : SpaceX, récemment fusionnée avec xAI, et Tesla. Aucun chiffre d'investissement n'a été rendu public pour l'instant, mais l'ampleur du site laisse entrevoir un projet de plusieurs milliards de dollars. Ce partenariat est stratégique pour les deux parties. Musk a besoin de volumes massifs de puces pour alimenter ses ambitions : voitures autonomes, robots humanoïdes, et des centres de données qu'il envisage de déployer dans l'espace via SpaceX. Pour Intel, qui traverse une période difficile face à TSMC et Nvidia, décrocher un contrat avec l'un des acteurs les plus en vue de l'IA américaine représente un signal fort sur sa capacité à rester compétitif dans la course aux semi-conducteurs avancés. Terafab s'inscrit dans un mouvement plus large de relocalisation de la production de puces aux États-Unis, accéléré par le CHIPS Act et les tensions géopolitiques autour de Taiwan. Musk, dont SpaceX prépare son introduction en bourse cette année, cherche à sécuriser une chaîne d'approvisionnement indépendante des fabricants asiatiques. Intel, de son côté, mise sur son activité de fonderie pour reconquérir des parts de marché perdues face à ses concurrents.

UELa concentration croissante de la production de puces IA aux États-Unis via des méga-projets comme Terafab risque de renforcer la dépendance européenne vis-à-vis des fournisseurs américains de semi-conducteurs, au détriment des ambitions du Chips Act européen.

Physical Intelligence en discussion pour une valorisation de 11 milliards de dollars
198The Information AI 

Physical Intelligence en discussion pour une valorisation de 11 milliards de dollars

Physical Intelligence, la startup américaine spécialisée dans l'IA pour la robotique, serait en négociations pour lever environ un milliard de dollars lors d'un tour de financement qui valoriserait l'entreprise à plus de 11 milliards de dollars, selon un rapport Bloomberg publié vendredi. Founders Fund, Lightspeed Venture Partners et Thrive Capital figurent parmi les investisseurs participants à ce tour. Une valorisation à 11 milliards de dollars en l'espace de quelques années place Physical Intelligence parmi les startups d'IA les mieux financées au monde, aux côtés d'OpenAI ou Anthropic. Ce signal fort reflète l'appétit croissant des investisseurs pour la robotique généraliste — domaine longtemps considéré comme trop difficile à scaler, mais que les progrès des modèles de fondation commencent à débloquer concrètement. Fondée en 2023 par d'anciens chercheurs de Google et Tesla, Physical Intelligence développe des modèles d'IA destinés à doter les robots de capacités polyvalentes, sans programmation spécifique à chaque tâche. La startup avait déjà levé 400 millions de dollars en 2024 avec le soutien de Jeff Bezos et d'OpenAI. Ce nouveau tour intervient dans un contexte de course mondiale à la robotique humanoïde, où Figure, Boston Dynamics et les ambitions de Tesla Optimus intensifient la compétition pour attirer capitaux et talents.

BusinessActu
1 source
☕️ Amazon s’offre la startup Fauna Robotics et son robot dédié aux interactions humaines
199Next INpact 

☕️ Amazon s’offre la startup Fauna Robotics et son robot dédié aux interactions humaines

Amazon a acquis Fauna Robotics, une startup new-yorkaise fondée en 2024 et financée à hauteur de 30 millions de dollars. L'équipe de 50 personnes développe Sprout, un robot humanoïde de 107 cm et 22,7 kg présenté officiellement le 27 janvier 2026. Doté de 29 degrés de liberté, d'une interface vocale naturelle et d'un design arrondi, Sprout est conçu pour interagir avec des humains dans des environnements comme l'hôtellerie, le commerce ou l'enseignement. Les deux cofondateurs et l'ensemble des équipes rejoignent la division robotique d'Amazon. Cette acquisition marque un tournant dans la stratégie robotique d'Amazon, jusqu'ici concentrée sur la logistique et le transport. Avec Sprout, le géant du e-commerce signale un intérêt renouvelé pour la robotique de service à la personne — un marché potentiellement immense, mais techniquement difficile. Amazon espère capitaliser sur sa relation de confiance établie avec des millions de foyers via ses activités retail et ses appareils connectés pour introduire des robots directement dans les espaces de vie et de travail. Ce n'est pas la première incursion d'Amazon dans la robotique personnelle : Astro, son robot domestique lancé en 2021, s'était soldé par un échec commercial et technique. L'acquisition de Fauna Robotics, qui fait suite à celle de la startup suisse Rivr spécialisée dans la livraison autonome, témoigne d'une volonté persistante de conquérir ce terrain malgré les déconvenues passées.

RobotiqueOpinion
1 source
Voici les 4 choses à savoir sur Terafab, le nouveau projet hors norme d’Elon Musk
200Presse-citron 

Voici les 4 choses à savoir sur Terafab, le nouveau projet hors norme d’Elon Musk

Elon Musk a dévoilé ce weekend Terafab, un projet de deux usines visant à produire plus d'un térawatt de puissance de calcul par an. Porté par Tesla et SpaceX, Terafab fabriquera des puces destinées aux véhicules, robots humanoïdes et satellites-centres de données. C'est un projet industriel hors norme qui positionne Musk au cœur de la course aux infrastructures IA.

BusinessOpinion
1 source