Aller au contenu principal

Robotique — page 2

628 articles · page 2 sur 13

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens
51arXiv cs.RO RobotiqueOpinion

AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens

Des chercheurs ont publié AERMANI-PLACE, un cadre logiciel permettant à un manipulateur aérien (drone équipé d'un bras robotique) de positionner des objets à partir d'instructions en langage naturel, sans que l'opérateur n'ait à saisir de coordonnées métriques. Le système fonctionne en deux étapes : une image de la scène combinée à une consigne textuelle est transmise à un modèle de génération d'images, qui produit une version modifiée de la scène avec un marqueur visuel indiquant l'emplacement cible. Ce marqueur est ensuite ancré dans l'espace physique via des observations de profondeur, permettant de récupérer un point de placement en coordonnées métriques, à partir duquel une trajectoire est calculée et exécutée par le drone. Sur un jeu de test de 100 tâches, le système affiche un taux de réussite de 87 % pour l'inférence des positions, et de 72 % lors du transfert sur une plateforme réelle de manipulation aérienne. L'article a été déposé sur arXiv (ref. 2606.14531) en juin 2026. L'intérêt principal de cette approche réside dans l'élimination du fossé d'interface entre l'intention humaine et la commande robot. Jusqu'à présent, les systèmes de manipulation aérienne exigeaient que l'utilisateur raisonne explicitement sur les référentiels de coordonnées et la géométrie de la scène, ce qui freinait l'adoption opérationnelle hors laboratoire. AERMANI-PLACE propose une abstraction en langage naturel, plus proche des usages industriels réels où les opérateurs ne sont pas roboticiens. Le transfert sim-to-real reste partiel (écart de 15 points entre simulation et terrain), ce qui signale que les conditions d'éclairage, d'occultation ou de texture peuvent encore dégrader la robustesse, un point à surveiller avant tout déploiement critique. La manipulation aérienne reste un domaine de recherche émergent, situé à l'intersection des UAV industriels et de la robotique de préhension. Les travaux précédents imposaient des interfaces semi-automatisées ou des pipelines de vision-to-pose classiques nécessitant une calibration fine. Dans l'écosystème concurrent, des équipes comme celles de l'ETH Zurich (ETHZ-ASL) ou de l'Université de Séville travaillent sur des plateformes similaires, mais peu ont intégré un grounding linguistique direct. L'approche d'AERMANI-PLACE, centrée sur un modèle d'édition d'image comme interface sémantique, est transposable à d'autres plateformes mobiles ou fixes. Les prochaines étapes naturelles incluent l'extension aux gestes de pointage combinés au langage, tel que mentionné dans la motivation du papier, ainsi qu'une validation sur des tâches à contraintes de précision plus élevées.

UEImpact indirect : des équipes européennes (ETH Zurich-ASL, Université de Séville) travaillent sur des plateformes concurrentes de manipulation aérienne, situant ce préprint dans un paysage de recherche partiellement européen.

1 source
Prometheus : ce que prépare la nouvelle startup de Jeff Bezos
52Ars Technica AI 

Prometheus : ce que prépare la nouvelle startup de Jeff Bezos

Jeff Bezos a officiellement lancé Prometheus en novembre dernier en tant que co-PDG aux côtés du co-fondateur Vik Bajaj, et la startup vient de boucler une nouvelle levée de fonds de 12 milliards de dollars, portant sa valorisation à 41 milliards. Cela fait suite à un premier tour de 6,2 milliards de dollars l'année précédente. Les investisseurs comprennent des noms de premier plan comme JPMorgan Chase, Goldman Sachs et BlackRock, auxquels s'ajoute une contribution personnelle significative de Bezos lui-même. L'entreprise compte actuellement 150 employés. Une grande partie de ces capitaux sera consacrée à l'achat de puissance de calcul, Bezos ayant confié à CNBC que l'activité est "très gourmande en calcul" et nécessite la création de vastes ensembles de données. Prometheus se positionne sur le créneau de l'IA physique, une discipline qui applique les principes du deep learning, ceux-là mêmes qui alimentent les grands modèles de langage et l'IA générative, à des domaines concrets comme la robotique et la fabrication industrielle. L'enjeu est considérable : si les LLM ont révolutionné le traitement du langage et de l'image, l'IA physique ambitionne de faire de même avec le monde réel, en dotant les machines d'une capacité à percevoir, raisonner et agir dans des environnements non structurés. Pour l'industrie manufacturière, la logistique et la robotique, les retombées potentielles sont massives. La démarche de Bezos s'inscrit dans une vague plus large d'investissements colossaux dans l'IA physique, un domaine où figurent aussi des acteurs comme Figure AI, Physical Intelligence ou encore Boston Dynamics. Avec 18,2 milliards de dollars levés en deux tours, Prometheus dispose d'une puissance de feu rare pour une startup aussi jeune, lui permettant de construire les infrastructures de données et de calcul nécessaires à l'entraînement de modèles complexes. Les détails sur les produits concrets restent encore flous, mais l'ampleur du financement et le profil des investisseurs institutionnels signalent des ambitions industrielles de long terme.

UEL'afflux massif de capitaux américains dans l'IA physique pourrait à terme fragiliser la compétitivité de l'industrie manufacturière et robotique européenne face à des acteurs bien mieux capitalisés.

💬 18 milliards levés pour 150 employés, ça fait réfléchir sur l'échelle du truc. L'IA physique, c'est le pari que les LLM n'étaient que le début, et que la vraie disruption arrive dans les usines et les entrepôts, pas dans les chatbots. Reste à voir ce que Prometheus sort concrètement, parce que pour l'instant on a surtout une valorisation vertigineuse et des slides.

RobotiqueOpinion
1 source
L'Ukraine a utilisé des drones entièrement autonomes pour tuer des soldats russes lors d'un test
53Ars Technica AI 

L'Ukraine a utilisé des drones entièrement autonomes pour tuer des soldats russes lors d'un test

Des drones entièrement autonomes ont tué des soldats russes lors d'un test militaire conduit il y a deux ans en Ukraine, selon Alexander Kokhanovskyy, PDG du fabricant de drones ukrainien Aero Center. L'information a été révélée lors d'une interview accordée au magazine New Scientist, en marge d'un événement organisé par l'ambassade ukrainienne à Londres. Le test impliquait des quadcopters préprogrammés pour se rendre dans une zone de front, puis activer ce que Kokhanovskyy appelle un "mode Terminator" : une intelligence artificielle capable d'identifier et d'attaquer toute cible présente dans le périmètre désigné, sans intervention humaine. Des drones pilotés manuellement envoyés vérifier les résultats ont retrouvé "quelques" soldats russes morts, ce qui a conduit à la conclusion que les appareils autonomes en étaient responsables. Si les faits sont confirmés, cet incident marquerait un tournant majeur dans l'histoire des conflits armés : ce serait l'une des premières fois documentées où des systèmes d'armes pleinement autonomes ont tué des humains sur un champ de bataille sans supervision humaine directe. L'absence totale de flux vidéo pendant l'opération illustre le caractère radicalement nouveau de ces systèmes, qui prennent des décisions létales de manière entièrement indépendante. Pour les armées, les industriels de défense et les décideurs politiques, cela pose des questions immédiates sur la responsabilité juridique, les règles d'engagement et les risques d'escalade non contrôlée. La guerre en Ukraine a accéléré comme aucun autre conflit récent le développement des drones militaires, transformant en quelques années des technologies expérimentales en outils de guerre quotidiens. Les deux camps ont massivement investi dans des systèmes FPV, des essaims de drones et des capacités de brouillage électronique, poussant les fabricants à développer des modes d'attaque toujours plus autonomes pour contourner les perturbations de signal. Les débats internationaux sur les "systèmes d'armes létales autonomes", longtemps restés théoriques dans les enceintes onusiennes, prennent désormais une dimension concrète et urgente, à mesure que la technologie dépasse le cadre des réglementations existantes.

UECe premier emploi documenté d'armes létales autonomes en combat réel accélère les débats réglementaires européens sur les systèmes d'armes autonomes (LAWS), avec un impact direct sur les positions françaises et européennes aux Nations Unies et sur les doctrines de défense au sein de l'OTAN.

💬 Le "mode Terminator", c'est pas une accroche pour lever des fonds, c'est ce qui s'est passé sur un front ukrainien il y a deux ans. Des drones qui identifient, choisissent et tuent sans qu'aucun humain ne regarde, c'est une ligne franchie, pas une hypothèse de labo. Tous les traités qu'on n'a pas signés sur les systèmes d'armes autonomes viennent de prendre une ride sérieuse.

RobotiqueActu
1 source
Exécution en temps réel avec des politiques autorégressives
54arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

RobotiqueOpinion
1 source
WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique
55arXiv cs.RO 

WEAVER, meilleur, plus rapide, plus long : un modèle du monde efficace pour la manipulation robotique

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.13672) WEAVER (World Estimation Across Views for Embodied Reasoning), une architecture de modèle de monde (world model, WM) dédiée à la manipulation robotique. Le système, multi-vue, est entraîné à prédire des représentations latentes futures et des valeurs de récompense via une perte de flow-matching. Sur robot physique, WEAVER atteint une corrélation ρ = 0,870 entre trajectoires simulées et taux de succès réel en évaluation de politique (policy evaluation). Appliqué à l'amélioration de politique (policy improvement), il produit un gain de 38 % de taux de succès réel au-dessus du modèle de fondation robotique π₀.₅ de Physical Intelligence. En planification à l'inférence (test-time planning), il ajoute 14 % de succès supplémentaires, avec une vitesse de génération 5 à 10 fois supérieure aux WMs précédents. Le code, les modèles et les vidéos sont publiquement accessibles. Les modèles de monde représentent un levier structurant pour la robotique : évaluer ou améliorer des politiques de contrôle, planifier à l'exécution, sans multiplier les interactions coûteuses en environnement réel. Le verrou technique est triple, fidélité (les trajectoires simulées doivent refléter la réalité), cohérence sur longue horizon (les simulations ne doivent pas diverger dans le temps), et efficacité computationnelle. WEAVER satisfait simultanément ces trois critères là où les architectures précédentes échouaient généralement sur au moins l'un d'eux, en particulier sur la cohérence à long horizon pour des tâches de manipulation dynamique complexes. Le gain de 38 % sur π₀.₅ est particulièrement significatif : il démontre qu'un WM peut améliorer un modèle de fondation déjà performant sans collecte de données additionnelles en conditions réelles, réduisant ainsi les coûts de déploiement pour les intégrateurs industriels. Ce travail s'inscrit dans une compétition accélérée autour des world models pour la robotique embodied. Physical Intelligence avec π₀ et π₀.₅, Google DeepMind avec ses variantes RT et RoboDreamer, ainsi que des équipes académiques de Berkeley, CMU et Stanford ont chacun proposé des approches partielles. WEAVER se positionne comme une synthèse architecturale, avec un soin particulier apporté à la gestion de la mémoire et au traitement multi-vue. Aucun partenariat industriel ni calendrier commercial n'est annoncé à ce stade, et la validation reste circonscrite à des environnements de laboratoire contrôlés. La question centrale du sim-to-real gap à l'échelle, dans des environnements industriels non structurés, reste entièrement ouverte.

💬 38 % de gain sur π₀.₅ sans ajouter une seule donnée en conditions réelles, c'est du concret. Ce qui est rare, c'est qu'ils résolvent les trois verrous en même temps : fidélité, cohérence à long horizon, vitesse de génération. Le sim-to-real à l'échelle industrielle reste entier, mais pour l'instant c'est l'architecture la plus sérieuse que j'ai vue sur le sujet.

RobotiqueOpinion
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
56arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

RobotiqueOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
57arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

RobotiquePaper
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
58arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

RobotiquePaper
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
59arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

RobotiqueOpinion
1 source
LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques
60arXiv cs.RO 

LabVLA : ancrage des modèles vision-langage-action (VLA) dans les laboratoires scientifiques

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (référence 2606.13578) un article présentant LabVLA, un modèle Vision-Language-Action conçu spécifiquement pour l'exécution autonome de protocoles expérimentaux en laboratoire scientifique. Le système repose sur deux briques : RoboGenesis, un moteur de génération de données par simulation qui décompose des flux de travail en compétences atomiques, valide les exécutions et exporte des démonstrations structurées pour différents profils de robots ; et LabVLA lui-même, dont l'entraînement se déroule en deux étapes -- un préentraînement par tokenisation d'actions FAST sur le backbone Qwen3-VL-4B-Instruct, suivi d'un affinage par flow matching avec un expert d'actions de type DiT (Diffusion Transformer) sous isolation des connaissances. Sur le benchmark LabUtopia, LabVLA affiche le taux de succès moyen le plus élevé parmi tous les systèmes testés, en distribution comme hors distribution. L'enjeu est structurant : les IA actuelles peuvent lire de la littérature scientifique, générer des hypothèses et planifier des protocoles, mais l'exécution physique au banc de laboratoire reste humaine. Les instruments spécialisés, les liquides transparents (difficiles à percevoir pour les capteurs RGB classiques) et les séquences protocolaires rigides créent des défis absents des benchmarks domestiques sur lesquels la plupart des VLA existants -- Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont été entraînés. Si LabVLA tient ses promesses hors simulation, cela ouvrirait la voie à une automatisation crédible des laboratoires de biologie, chimie ou pharmacologie, un marché adressé aujourd'hui par des acteurs comme Automata, Opentrons ou Hamilton Robotics. La course aux VLA généralistes a démarré en 2024 avec Octo, puis OpenVLA et Pi-0, calibrés principalement sur des tâches ménagères. Le sim-to-real gap en milieu laboratoire reste un obstacle non résolu : les résultats présentés dans ce preprint sont entièrement issus de simulation -- LabUtopia est lui-même un environnement virtuel -- et aucun déploiement sur robot physique n'est rapporté. La robustesse sur de vraies paillasses, avec contaminations, vibrations et variabilités instrumentales, reste à démontrer. Les auteurs annoncent comme prochaines étapes l'extension des profils de robots compatibles avec RoboGenesis et des évaluations sur hardware réel.

UEImpact indirect pour les laboratoires pharmaceutiques et biotechs européens si le sim-to-real gap est comblé, mais aucun déploiement ni partenariat européen annoncé.

RobotiqueOpinion
1 source
THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste
61FrenchWeb 

THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste

La startup barcelonaise THEKER a annoncé une levée de fonds de 85 millions de dollars, s'imposant comme l'un des paris les plus ambitieux de l'écosystème européen sur la robotique généraliste. Ce financement, dont les détails du tour et des investisseurs n'ont pas été précisés dans l'annonce publique, intervient alors que le secteur de l'intelligence physique connaît une accélération notable des investissements à l'échelle mondiale. THEKER développe des robots capables d'accomplir une grande variété de tâches dans des environnements non structurés, une approche dite "généraliste" qui contraste avec les robots industriels traditionnels, conçus pour des tâches répétitives et prédéfinies. Ce financement marque un tournant pour la scène technologique européenne, longtemps absente de la course à la robotique avancée dominée par des acteurs américains comme Figure AI ou Physical Intelligence, et asiatiques comme Unitree. Pour l'industrie, l'enjeu est considérable : des robots capables de s'adapter à des contextes variés pourraient transformer la logistique, les soins, la construction et l'agriculture sans nécessiter de reprogrammation coûteuse. THEKER représente ainsi un signal que l'Europe peut produire des challengers crédibles dans ce segment stratégique. Après trois années dominées par les modèles de langage, les data centers et les agents logiciels, les capitaux se redirigent désormais vers l'intelligence physique, c'est-à-dire la capacité des machines à agir dans le monde réel. Plusieurs facteurs alimentent cette tendance : la maturité des modèles de fondation multimodaux, la baisse des coûts des composants mécaniques et la pression des industriels cherchant à automatiser dans un contexte de pénurie de main-d'oeuvre. THEKER devra démontrer que ses robots tiennent leurs promesses hors des laboratoires, face à une compétition mondiale qui se densifie rapidement.

UETHEKER, startup barcelonaise, s'impose comme l'un des premiers challengers européens crédibles dans la robotique généraliste, un secteur stratégique jusqu'ici dominé par des acteurs américains et asiatiques.

RobotiqueOpinion
1 source
À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique
62Robotics Business Review 

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

X Square Robot a mis en open source XRZero-G0, un système de collecte de données robotiques combinant un casque VR PICO 4 à tracking spatial inside-out, une caméra frontale et deux caméras poignet, ainsi qu'une paire de grippers physiques duals, un gripper en H à actionnement par pression et un gripper en G à entraînement digital. Le dispositif assure une estimation de pose 6-DOF à précision millimétrique et intègre un parsing spatiotemporel embarqué pour synchroniser flux visuels, données de trajectoire et annotations langagières. En parallèle, la société publie le G0-Dataset : 2 000 heures de démonstrations humaines multimodales, disponibles sur HuggingFace avec le code source sur GitHub. Sous conditions expérimentales contrôlées, X Square Robot annonce une réduction des besoins en données réelles pouvant atteindre un facteur 20x : environ 10 épisodes collectés sans robot, combinés à un seul épisode sur robot réel, suffiraient à égaler les performances d'un entraînement purement issu de données robotiques. L'enjeu est direct pour les équipes qui développent des politiques de manipulation dextre : le goulot d'étranglement de l'embodied AI n'est pas le compute, c'est la donnée de qualité à grande échelle. XRZero-G0 formalise ce que le secteur cherche depuis plusieurs années, une pipeline fermée "collecte-inspection-entraînement-évaluation" qui filtre automatiquement les trajectoires invalides via cinématique inverse corps entier avec contraintes de collision et de limites articulaires, et valide par rejeu réel sur robot avant d'intégrer les épisodes à l'entraînement. Si les chiffres de réduction 20x se confirment sur des tâches variées hors conditions de labo, cela change structurellement l'économie de déploiement des VLA (Vision-Language-Action models) : les industriels pourraient composer leurs datasets sans immobiliser de flotte robotique pendant des semaines. Le transfert cross-embodiment revendiqué, démontration humaine transférable à des plateformes non vues à l'entraînement, reste la promesse la plus forte, et la plus à vérifier indépendamment. X Square Robot s'inscrit dans un mouvement plus large de standardisation de la collecte de données robotiques, aux côtés d'initiatives comme Open-X Embodiment (Google DeepMind, 2023), DROID (Berkeley, 2024) ou les efforts de Physical Intelligence autour de pi0. Le positionnement open source du G0-Dataset rappelle la stratégie d'Hugging Face avec LeRobot, visant à créer une infrastructure commune de benchmarking. Aucun concurrent européen direct n'est impliqué ici, bien qu'Enchanted Tools et Wandercraft opèrent sur des segments adjacents (interaction et mobilité bipède) qui pourraient bénéficier de telles ressources de préentraînement. Les prochaines étapes annoncées incluent l'utilisation du dataset pour du préentraînement à grande échelle et des expériences de transfert cross-embodiment, sans timeline commerciale précisée, ce projet reste pour l'instant dans le périmètre recherche.

UELes équipes R&D françaises et européennes (Enchanted Tools, Wandercraft) pourraient exploiter le G0-Dataset open source pour le préentraînement de leurs modèles VLA, réduisant potentiellement leur dépendance à la collecte de données robotiques en flotte, si le facteur 20x se confirme hors conditions contrôlées.

RobotiqueOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
63arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

RobotiqueOpinion
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
64arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

RobotiqueOpinion
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
65arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

RobotiqueOpinion
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
66arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

RobotiquePaper
1 source
CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA
67arXiv cs.RO 

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

Des chercheurs ont publié en juin 2026 un preprint (arXiv:2606.12352) présentant CHORUS, un cadre de coordination multi-robots qui s'appuie sur un unique backbone VLA (vision-language-action) pour piloter des équipes hétérogènes de robots mobiles. Le principe est radical dans sa simplicité : à l'inférence, chaque robot exécute une copie indépendante de CHORUS, conditionnée uniquement par ses propres observations et un prompt identifiant son rôle dans l'équipe -- aucune communication inter-robots n'est requise à l'exécution. Les expériences en conditions réelles portent sur trois tâches collaboratives : mesure de distance avec ruban mobile, transfert de livres en bibliothèque, et soulèvement de paniers de linge. Sur ces scénarios, CHORUS affiche un gain de 64 points de pourcentage par rapport à des modèles décentralisés entraînés de zéro, et améliore la réactivité aux comportements des partenaires de 40 points, tout en surpassant les approches centralisées classiques. Ce résultat bouscule une hypothèse structurante du domaine : pour coordonner plusieurs robots, il fallait soit centraliser les observations (coûteux en communication, ne passe pas à l'échelle avec la taille de l'équipe), soit entraîner une politique par robot avec des procédures d'alignement explicites ou des échanges d'état à l'inférence. CHORUS démontre que les priors visuomoteurs acquis lors du préentraînement VLA sont suffisants pour surmonter l'observabilité partielle sans aucune communication réseau entre robots au moment de l'exécution. C'est une validation concrète, en conditions réelles, de la thèse que les VLA généralisent au-delà de la manipulation single-agent -- un point encore contesté dans la littérature. Pour les intégrateurs industriels, l'implication pratique est directe : une flotte hétérogène peut partager un seul modèle déployé, ce qui simplifie drastiquement la gestion des mises à jour et réduit les coûts d'infrastructure d'inférence. Les VLA connaissent une montée en puissance rapide depuis 2024, avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure Robotics, chacun ciblant principalement la manipulation monobras ou bimanuelle sur un seul robot. La coordination multi-robots reste un chantier ouvert : les travaux existants (MOMA, SMART) imposent généralement des canaux de communication ou des architectures centralisées. CHORUS s'inscrit dans ce manque, mais reste à ce stade un preprint académique -- les tâches testées sont volontairement contraintes et il n'existe pas de déploiement industriel annoncé. Les prochaines étapes naturelles porteront sur le passage à l'échelle (équipes de plus de deux robots), la robustesse aux perturbations dynamiques, et l'intégration dans des stacks de planification existants.

UEAucun acteur français ou européen n'est impliqué, mais la possibilité de piloter une flotte hétérogène avec un seul modèle VLA partagé représente un avantage de coût et de gestion potentiellement pertinent pour les intégrateurs industriels européens si CHORUS atteint la maturité déploiement.

RobotiqueOpinion
1 source
Les robotaxis doivent intégrer la sécurité dès la conception, pas l'ajouter après coup
68NVIDIA AI Blog 

Les robotaxis doivent intégrer la sécurité dès la conception, pas l'ajouter après coup

Lors de la conférence NVIDIA GTC Taipei, plusieurs partenariats majeurs ont été annoncés pour accélérer le déploiement commercial de véhicules autonomes de niveau 4. Uber et Autobrains lancent conjointement un programme de robotaxis à Munich sur la plateforme NVIDIA DRIVE Hyperion, s'appuyant sur l'IA agentique d'Autobrains pour des opérations à grande échelle. Foxconn étend sa collaboration avec NVIDIA pour déployer des flottes de robotaxis à Taïwan, tandis que VinFast cible l'Asie du Sud-Est avec des véhicules construits sur la même plateforme. En parallèle, HUMAIN, acteur saoudien, prépare l'arrivée de robotaxis alimentés par DRIVE Hyperion au Moyen-Orient. Ces annonces illustrent un secteur qui a franchi le cap des prototypes pour entrer dans la phase d'exploitation commerciale réelle, avec des services déjà opérationnels dans des dizaines de villes à travers le monde. Cette expansion accélérée soulève une question centrale que régulateurs et ingénieurs ne peuvent plus différer : comment garantir la sécurité de ces systèmes à l'échelle industrielle ? Les autorités de certification ne se contentent plus d'évaluer ce qu'un véhicule perçoit ou décide, elles exigent la preuve que l'ensemble du système se comporte de manière prévisible, isole les défaillances avant qu'elles ne s'aggravent, et ne sort jamais des limites pour lesquelles il a été conçu. Quatre défis doivent être résolus simultanément : un système d'exploitation certifiable pour la sécurité, des interfaces matérielles et logicielles standardisées, une IA fonctionnant dans des garde-fous vérifiables, et une validation à grande échelle avant tout contact avec la voie publique. C'est précisément pour répondre à ces exigences que NVIDIA a introduit le Halos Operating System, composant central de son système de sécurité full-stack Halos. Ce nouveau système repose sur trois éléments. Halos Core constitue la fondation certifiée : il s'agit de la prochaine génération de DriveOS, conforme à la norme ISO 26262 ASIL D, le niveau le plus élevé de sécurité fonctionnelle automobile, avec un hyperviseur qui isole les fonctions critiques pour éviter qu'une défaillance n'atteigne les commandes du véhicule. Il intègre également le support certifié de CUDA et TensorRT, ainsi qu'un framework open source pour l'inférence de grands modèles de langage embarqués. Halos SDK, deuxième couche, standardise les interfaces entre capteurs (caméras, radars, lidars) et le reste du véhicule, supprimant la nécessité de reconstruire manuellement les intégrations à chaque changement matériel. Il fournit aussi un ordonnanceur déterministe, une communication inter-processus à copie zéro pour minimiser la latence, et un système de gestion des erreurs robuste. Dans un contexte où l'industrie des robotaxis cherche à convaincre régulateurs et grand public que la sécurité est intégrée dès la conception, et non ajoutée après coup, ce type d'infrastructure logicielle certifiée devient un prérequis incontournable pour toute opération commerciale viable.

UELe lancement des robotaxis Uber-Autobrains à Munich constitue la première opération commerciale de niveau 4 annoncée en Europe, ce qui est susceptible d'accélérer l'élaboration d'un cadre réglementaire européen pour les véhicules autonomes.

RobotiqueActu
1 source
Hong Kong ouvre une supérette… entièrement gérée par un robot humanoïde
69Le Big Data 

Hong Kong ouvre une supérette… entièrement gérée par un robot humanoïde

Hong Kong s'apprête à inaugurer son premier commerce de proximité entièrement piloté par un robot humanoïde baptisé « Xiao Gai ». Développé par une entreprise chinoise spécialisée dans l'intelligence artificielle incarnée, ce magasin automatisé de neuf mètres carrés ouvrira ses portes sur le front de mer de Hung Hom, dans un format capsule modulaire inspiré du concept « Galaxy Space Capsule » déjà exploité dans le district de Haidian, à Pékin. Xiao Gai fonctionnera vingt-quatre heures sur vingt-quatre, sept jours sur sept, capable d'accueillir les clients, de les guider dans leurs achats et de converser dans plusieurs langues pour servir aussi bien les résidents que les touristes. Les rayons proposeront des snacks, des articles de collection et certains médicaments en vente libre. Le projet a été annoncé publiquement par le secrétaire aux Finances de Hong Kong, Paul Chan, dans son blog hebdomadaire, signal clair d'un soutien institutionnel. Il s'agit de la première implantation de cette entreprise en dehors de la Chine continentale. L'impact potentiel de ce déploiement est loin d'être anecdotique. Selon la société elle-même, l'installation de ces capsules robotisées génère une hausse de fréquentation comprise entre 30 % et 40 % pour les zones commerciales environnantes, un argument de poids pour les promoteurs immobiliers et les collectivités cherchant à revitaliser des espaces urbains. Le précédent pékinois est éloquent : le point de vente de Haidian aurait attiré près de 1 000 clients par jour depuis son ouverture début août. Pour les villes qui les accueillent, ces capsules fonctionnent autant comme vitrine technologique que comme commerce de proximité, renforçant leur image de modernité auprès des investisseurs et des visiteurs internationaux. Cette ouverture à Hong Kong s'inscrit dans une dynamique d'expansion rapide des robots humanoïdes dans les espaces commerciaux, portée par les progrès récents en traitement du langage naturel et en robotique embarquée. La Chine a pris une avance notable dans ce domaine, multipliant les expérimentations de robots en situation réelle dans la distribution, la restauration et les services aux particuliers. Hong Kong, carrefour entre Chine continentale et marchés internationaux, représente une vitrine stratégique pour valider ce modèle à l'export. L'entreprise ne cache d'ailleurs pas ses ambitions : elle prévoit de déployer cent capsules similaires dans dix villes au cours des prochains mois. La question qui se pose désormais concerne moins la faisabilité technique que l'acceptation sociale et les conséquences sur l'emploi dans un secteur de la distribution déjà sous pression.

RobotiqueActu
1 source
NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe
70FrenchWeb 

NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe

Neura Robotics, startup allemande spécialisée dans la robotique humanoïde, vient d'annoncer une levée de fonds de 1,4 milliard de dollars, soit environ 1,2 milliard d'euros, portant sa valorisation à près de 6 milliards d'euros. L'opération regroupe un consortium d'investisseurs aussi large qu'inédit : Amazon, NVIDIA et Qualcomm côté tech, Bosch et Schaeffler côté industrie allemande, la Banque européenne d'investissement comme acteur public, auxquels s'ajoutent plusieurs fonds financiers internationaux. Il s'agit du plus grand tour de financement jamais réalisé pour une entreprise européenne de robotique. Ce signal dépasse la simple performance financière. La présence simultanée de géants technologiques américains, de champions industriels allemands et d'une institution publique européenne traduit une convergence rare : le robot humanoïde n'est plus un projet de laboratoire, il devient une infrastructure industrielle crédible. Pour Amazon, qui déploie déjà des robots dans ses entrepôts, l'enjeu est d'intégrer des machines capables de remplacer la main humaine dans les tâches non automatisées. Pour NVIDIA et Qualcomm, c'est un débouché majeur pour leurs puces d'IA embarquée. Fondée par David Reger, Neura Robotics s'inscrit dans une course mondiale qui oppose désormais les Américains Figure AI, Agility Robotics et Boston Dynamics aux acteurs chinois en pleine montée en puissance. L'Europe, longtemps absente de ce segment, tente d'y placer un champion. Ce financement donne à Neura les moyens d'accélérer la production et de conquérir des clients industriels avant que la fenêtre de leadership ne se referme.

UEUne startup allemande lève 1,2 milliard d'euros avec le soutien de la Banque européenne d'investissement et des industriels allemands Bosch et Schaeffler, positionnant l'Europe comme acteur crédible dans la course mondiale aux robots humanoïdes industriels.

💬 La liste des investisseurs dit tout : Amazon, NVIDIA, Bosch et la BEI dans le même tour, ça ne ressemble plus à un pari de VC, ça ressemble à une infrastructure qui se construit. L'Europe avait besoin d'un champion dans cette course aux humanoïdes, Neura pourrait être lui, bon, sur le papier du moins. Reste à voir si 1,2 milliard suffit à tenir le rythme face aux acteurs américains et chinois qui n'ont pas attendu.

RobotiqueOpinion
1 source
Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »
71La Tribune 

Tye Brady (Amazon) : les robots du futur « se fondront dans le décor »

Tye Brady, directeur technologique d'Amazon Robotics, a dévoilé les grandes ambitions d'Amazon en matière d'automatisation lors d'une récente intervention publique. L'entreprise opère déjà une flotte de plus d'un million de robots dans ses centres logistiques à travers le monde, et a annoncé un investissement de 10 milliards d'euros pour moderniser ses entrepôts européens dans les années à venir. L'objectif affiché : élargir considérablement le champ d'action de ces machines, notamment en les dotant d'une capacité de compréhension du langage naturel. Cette évolution représente un saut qualitatif majeur pour l'industrie logistique. Des robots capables de comprendre des instructions en langage courant, et non plus seulement des commandes codées, pourraient opérer de manière bien plus autonome et flexible aux côtés des travailleurs humains. Pour Amazon, cela signifie une réduction des coûts opérationnels à grande échelle, mais aussi une pression accrue sur l'emploi dans des secteurs déjà fragilisés par l'automatisation. Brady résume la vision par une formule : les robots du futur « se fondront dans le décor », discrets et omniprésents à la fois. Amazon n'est pas seul sur ce terrain : des acteurs comme Boston Dynamics, Figure ou Agility Robotics développent des robots humanoïdes visant les mêmes environnements industriels. L'intégration du traitement du langage naturel dans la robotique, rendue possible par les avancées des grands modèles de langage, est devenue l'enjeu central de la prochaine génération de systèmes automatisés. L'investissement européen d'Amazon s'inscrit dans ce contexte de course technologique, avec des implications réglementaires et sociales que Bruxelles commencera sans doute à encadrer plus fermement.

UEAmazon investit 10 milliards d'euros dans la modernisation de ses entrepôts européens, avec des implications directes sur l'emploi dans la logistique en France et des pressions réglementaires croissantes pour Bruxelles.

💬 Un million de robots déjà en prod, et là ils annoncent qu'ils veulent qu'ils comprennent le langage naturel, comme si c'était juste le prochain patch. C'est la bascule qui rend le reste sérieux : des robots qui s'adaptent aux instructions humaines au lieu de forcer les humains à s'adapter aux robots. Les 10 milliards en Europe, c'est pas de la com, c'est la mise de départ d'une course où Bruxelles va très vite devoir choisir entre réguler et regarder.

RobotiqueOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
72Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

RobotiqueOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
73arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

RobotiqueOpinion
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
74arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

RobotiqueOpinion
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
75arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

RobotiqueActu
1 source
AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel
76arXiv cs.RO 

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Des chercheurs ont publié sur arXiv (réf. 2606.10927) AllDayNav, un système de navigation robotique lifelong capable d'évoluer indéfiniment dans des environnements dynamiques sans carte explicite. Son architecture combine un grand modèle d'un milliard de paramètres, entraîné par apprentissage par renforcement directement en conditions réelles, et une mémoire multimodale auto-évolutive qui agrège images-clés visuelles, descriptions sémantiques et contexte temporel. Ce mécanisme permet au robot de générer automatiquement des instructions en vocabulaire ouvert, des objectifs visuels et des récompenses structurées, sans annotation humaine à chaque nouvelle tâche. Évalué sur des scénarios de navigation inter-pièces, inter-épisodes et inter-tâches, AllDayNav atteint des taux de succès proches de 100 % et surpasse des baselines de type SLAM, VLM et RL classique en efficacité de trajectoire et en robustesse, aussi bien en simulation qu'en environnement physique. Ce travail remet en question une hypothèse structurante du domaine : la navigation autonome fiable nécessiterait une représentation spatiale explicite de l'environnement (cartes métriques, graphes de scènes). AllDayNav montre qu'un modèle suffisamment large, affiné en continu par RL avec une mémoire implicite, peut dépasser ces approches y compris hors contextes contrôlés. Pour les intégrateurs de robots mobiles (AMR en logistique, robots de service en espaces publics), cela préfigure des systèmes adaptables aux modifications d'environnement sans reconfiguration manuelle. La prudence reste de mise : les chiffres de "100 % de succès" proviennent d'un preprint non encore évalué par les pairs, sans détail complet sur les conditions exactes d'évaluation ni sur la variabilité entre scènes. AllDayNav s'inscrit dans une tendance de fond visant à remplacer les pipelines modulaires perception-cartographie-planification par des modèles de fondation entraînés de bout en bout. Google DeepMind (travaux NavIRL, SayCan), CMU et Berkeley explorent des directions similaires pour la navigation mobile généraliste, tandis que des acteurs comme Boston Dynamics et ANYbotics continuent de s'appuyer sur des approches hybrides métriques. Soumis le 10 juin 2026, ce papier reste une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

UEImpact indirect pour les intégrateurs européens d'AMR logistique : si les résultats se confirment après peer review, cette approche pourrait réduire les coûts de reconfiguration dans des entrepôts et espaces publics dynamiques.

RobotiquePaper
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
77arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

RobotiqueOpinion
1 source
MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle
78arXiv cs.RO 

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

RobotiqueOpinion
1 source
OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes
79arXiv cs.RO 

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

Une équipe de chercheurs a déposé le 10 juin 2026 sur arXiv (ref. 2606.10340) un système baptisé OMG, Omni-Modal Motion Generation, conçu pour le contrôle whole-body généraliste des robots humanoïdes. L'architecture adopte une structure hiérarchique inspirée du système moteur biologique : un module supérieur de génération de mouvement basé sur la diffusion joue le rôle de "cerveau" planificateur, tandis qu'un contrôleur de suivi réactif bas niveau fait office de "cervelet". Ce cerveau est conditionnable simultanément sur du langage naturel, des signaux audio et des mouvements de référence humains. Le système s'appuie sur un pipeline de curation, filtrage et labellisation de données conçu pour couvrir un large spectre de comportements whole-body. Les auteurs revendiquent des performances state-of-the-art sur les benchmarks de contrôle humanoïde généraliste, ainsi qu'un comportement de scaling en fonction de la taille du modèle, deux propriétés clés pour qui veut construire un foundation model robotique. L'intérêt de OMG tient à son traitement simultané de deux limitations structurelles du domaine : d'un côté, les politiques spécialisées actuelles exigent un reward engineering intensif et ne généralisent pas au-delà de quelques skills ; de l'autre, les motion trackers existants peinent à intégrer de nouvelles modalités d'entrée sans refonte architecturale. En conditionnant un unique modèle sur des entrées multimodales extensibles, le papier prolonge la logique des VLA (Vision-Language-Action models) vers la génération de mouvement full-body. Si les résultats survivent à l'évaluation externe, cela plaiderait pour qu'un seul modèle généraliste remplace plusieurs politiques spécialisées par déploiement, un argument commercial direct pour les intégrateurs. Point de vigilance : il s'agit d'un preprint non évalué par les pairs, sans données de déploiement physique publiées à ce stade. Le papier s'inscrit dans une course active autour du contrôle humanoïde généraliste. Physical Intelligence a publié Pi-0 et Pi-0.5 autour d'architectures diffusion-based, NVIDIA a présenté GR00T N2 comme backbone transformer pour whole-body control, et Figure déploie Helix sur ses plateformes H1/H2 dans des environnements d'entrepôt. L'abstract ne mentionne ni institution d'origine ni robot physique cible, ce qui rend la comparaison directe avec ces systèmes impossible à ce stade. Les prochaines étapes naturelles seraient une soumission à CoRL ou RSS 2026 et une validation sur hardware réel, deux éléments absents de la publication actuelle.

RobotiqueOpinion
1 source
MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL
80arXiv cs.RO 

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs. Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO. Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.

RobotiqueOpinion
1 source
QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)
81arXiv cs.RO 

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (identifiant 2510.14836, troisième révision) QDepth-VLA, un cadre d'apprentissage qui augmente les modèles Vision-Language-Action (VLA) avec une tâche auxiliaire de prédiction de profondeur. Le principe : un module spécialisé, baptisé "depth expert", apprend à prédire des tokens latents quantifiés de cartes de profondeur, générés par un encodeur VQ-VAE (Vector Quantized Variational Autoencoder). Ces tokens sont intégrés au pipeline VLA comme supervision auxiliaire durant l'entraînement, sans modifier l'architecture de base du modèle. L'approche est validée sur des benchmarks de simulation et sur des tâches réelles de manipulation robotique, avec des résultats décrits par les auteurs comme "compétitifs", formulation prudente qui suggère des gains réels mais pas nécessairement un état de l'art incontestable. L'enjeu fondamental que traite QDepth-VLA est le déficit de perception 3D des VLA actuels. Des modèles comme OpenVLA, Pi-0 ou les variantes de RT-2 traitent les images comme des entrées 2D et peinent à raisonner sur la géométrie de la scène (distance d'un objet, orientation, profondeur d'emprise), ce qui limite leur précision sur des tâches de manipulation fine : assemblage, insertion de connecteurs, saisie d'objets transparents ou réfléchissants. En forçant le modèle à reconstruire une structure de profondeur quantifiée, QDepth-VLA injecte des indices géométriques explicites dans les représentations apprises, sans nécessiter de capteur de profondeur supplémentaire à l'inférence. C'est un argument concret pour les intégrateurs déployant des robots sur des cellules équipées uniquement de caméras RGB standard. QDepth-VLA s'inscrit dans une tendance plus large d'augmentation des VLA par des tâches auxiliaires : prédiction de flux optique chez Physical Intelligence avec Pi-0, estimation de pose 3D dans les travaux Google DeepMind, ou représentations implicites de scène. Les concurrents directs incluent SpatialVLA et plusieurs variantes de RoboVLMs intégrant des indices 3D explicites. Un point de vigilance : les auteurs ne précisent ni le robot utilisé pour les expériences réelles, ni les conditions expérimentales détaillées, ce qui rend difficile la comparaison directe avec d'autres approches. La prochaine étape pour positionner objectivement QDepth-VLA dans le paysage sera une évaluation sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment, qui font aujourd'hui référence dans la communauté VLA.

RobotiqueOpinion
1 source
Q8botOne : ce robot de la taille d’une paume n’a aucun fil (et c’est une prouesse !)
82Le Big Data 

Q8botOne : ce robot de la taille d’une paume n’a aucun fil (et c’est une prouesse !)

Eric Wu, ingénieur et créateur du projet open source Q8bot, vient de dévoiler le Q8botOne, un robot quadrupède de la taille d'une paume de main capable de marcher, trotter et sauter. Le lancement commercial est prévu prochainement via une campagne de financement participatif. Contrairement aux kits robotiques habituels qui nécessitent des heures d'assemblage, le Q8botOne sera livré entièrement monté et opérationnel dès la sortie de la boîte. Sous son capot minimaliste, il embarque huit actionneurs intelligents DYNAMIXEL XL, un microcontrôleur ESP32-C3-MINI-N4 pour le traitement embarqué, des pattes à liaisons parallèles fabriquées par impression 3D Multi Jet Fusion avec des articulations à billes de précision, et une batterie lithium-ion rechargeable avec système de protection intégré. L'électronique est consolidée sur une carte de circuit imprimé centrale, ce qui élimine tout câblage interne complexe, une décision de conception qui réduit les pannes, allège la structure et facilite la maintenance. Pour la communauté robotique, le Q8botOne représente un point d'entrée rare : un robot à dynamique avancée (sauts inclus) accessible à des chercheurs, étudiants et makers sans budget institutionnel. La plateforme est entièrement open source, fidèle à l'esprit du projet original. Chaque unité est livrée avec une télécommande sans fil personnalisée dotée d'un joystick, de boutons physiques et d'un port USB-C pour la connexion PC, ce qui abaisse significativement la barrière à l'entrée pour les débutants. Pour les profils avancés, un connecteur Qwiic permet d'ajouter des capteurs SparkFun ou Adafruit sans câblage, et une interface UART accepte des coprocesseurs comme le Raspberry Pi, ouvrant la voie à des applications de vision par ordinateur, de navigation autonome ou d'intelligence artificielle embarquée. Le Q8botOne s'inscrit dans une tendance de fond : la miniaturisation et la démocratisation des robots à pattes, longtemps cantonnés aux laboratoires de Boston Dynamics ou aux universités bien dotées. Des projets comme Spot de Boston Dynamics ou les quadrupèdes de Unitree ont prouvé l'intérêt industriel de ces architectures, mais leur coût reste prohibitif pour la plupart des équipes indépendantes. L'approche open source et crowdfunding d'Eric Wu vise précisément ce marché intermédiaire, chercheurs en herbe, écoles d'ingénieurs, hobbyistes sérieux. Le succès de la campagne de financement participatif dira si ce créneau est suffisamment porteur pour transformer un projet de maker en produit viable. Les implications vont au-delà du gadget : une plateforme abordable et extensible pourrait accélérer la recherche sur la locomotion autonome dans des environnements non structurés, un problème central de la robotique moderne.

RobotiqueActu
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
83AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

RobotiqueActu
1 source
NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
84Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

RobotiqueOpinion
1 source
Après VLC, Jean-Baptiste Kempf veut construire le système nerveux des robots
85FrenchWeb 

Après VLC, Jean-Baptiste Kempf veut construire le système nerveux des robots

Jean-Baptiste Kempf, le Français qui a co-créé VLC et révolutionné la lecture vidéo open source, s'attaque à un nouveau chantier : doter les robots d'un système de communication universel. Son nouveau projet vise à combler le vide technologique qui sépare aujourd'hui les modèles d'IA capables de prendre des décisions et les machines physiques chargées de les exécuter. Drones autonomes, bras industriels, véhicules sans conducteur et équipements médicaux robotisés partagent tous le même problème : ils doivent transmettre en continu des flux vidéo et des données capteurs sans couche logicielle commune pour le faire. Cette infrastructure manquante freine concrètement le déploiement de la robotique autonome à grande échelle. Sans protocole standardisé pour faire circuler l'information entre les composants d'un robot, chaque fabricant réinvente sa propre solution, créant des silos incompatibles qui ralentissent l'innovation et renchérissent les coûts de développement. L'enjeu touche directement les secteurs de la logistique, de la santé, de la défense et de l'industrie, tous en train de basculer vers des systèmes autonomes. L'initiative s'inscrit dans la trajectoire cohérente de Kempf : après avoir fourni à des milliards d'utilisateurs un lecteur multimédia universel et libre, il s'attaque désormais aux flux de données temps réel qui alimenteront la prochaine génération de machines intelligentes. La comparaison avec VLC n'est pas anodine, car c'est précisément ce modèle ouvert et interopérable que le secteur robotique attend encore. Si le pari réussit, Kempf pourrait fournir à l'IA incarnée le même socle que TCP/IP a fourni à l'internet.

UEUn entrepreneur français de renommée mondiale (créateur de VLC) lance une initiative open source susceptible de positionner l'écosystème européen comme référence pour l'infrastructure de communication robotique autonome.

RobotiqueOpinion
1 source
Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique
86IEEE Spectrum Robotics 

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

RobotiquePaper
1 source
ALTA ARES lève 50 millions d’euros pour développer un système anti-drone autonome
87FrenchWeb 

ALTA ARES lève 50 millions d’euros pour développer un système anti-drone autonome

La startup française ALTA ARES a annoncé une levée de fonds de 50 millions d'euros destinée à accélérer le développement de son système anti-drone autonome. Cette opération, l'une des plus importantes du secteur de la défense technologique en France cette année, doit financer la mise au point d'une solution capable de détecter, identifier et neutraliser des drones hostiles sans intervention humaine directe. L'entreprise positionne sa technologie à l'intersection de l'intelligence artificielle, des capteurs avancés et des effecteurs cinétiques ou électroniques. L'enjeu est considérable : les drones sont devenus l'arme asymétrique par excellence, capables de saturer les défenses conventionnelles à faible coût. Des conflits récents, notamment en Ukraine, ont démontré qu'une défense statique ou trop lente face aux essaims de drones peut être fatalement dépassée. Un système autonome réduisant le temps de réaction de plusieurs secondes à quelques millisecondes change radicalement l'équation tactique pour les forces armées, les infrastructures critiques et les zones civiles à protéger. La mutation de la guerre aérienne que décrit ALTA ARES s'inscrit dans une transformation plus large : comme les chars en 1916 ou les missiles guidés durant la Guerre froide, les drones redéfinissent les règles du combat. En France, ce financement s'intègre dans une dynamique d'investissement public-privé dans la défense portée par le contexte géopolitique européen. ALTA ARES rejoint un écosystème naissant de startups de défense qui tentent de combler le retard technologique face à des acteurs comme les États-Unis ou Israël.

UELevée de fonds majeure pour une startup française de défense, renforçant la souveraineté technologique européenne face aux menaces drone dans un contexte géopolitique tendu.

💬 50 millions pour de l'anti-drone autonome, c'est pas anodin dans un paysage français de la défense qui se réveille à peine. Ce qui m'intéresse là-dedans, c'est pas la levée, c'est le "sans intervention humaine directe" : réduire le temps de réaction de secondes à millisecondes, c'est exactement ce que l'Ukraine a appris à ses dépens face aux essaims. Reste à voir si ça tient dans des conditions réelles, parce qu'un système autonome qui fait une erreur d'identification sur une zone civile, ça change vite la conversation.

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
88arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

RobotiqueOpinion
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
89arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

RobotiquePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
90arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

RobotiquePaper
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
91arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

RobotiqueOpinion
1 source
Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine
92arXiv cs.RO 

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Des chercheurs ont publié début juin 2026 Video2Sim2Real (arXiv:2606.08828), un pipeline complet permettant à un robot d'acquérir des compétences de manipulation dextre à partir d'une seule vidéo de démonstration humaine. Le système fonctionne en trois étapes : des modèles de fondation reconstruisent un jumeau numérique prêt pour la simulation, extraient les trajectoires main-objet, puis identifient des keyframes orientés objet pour optimiser les configurations articulaires du robot. Ces configurations servent d'ancres pour recalibrer le mouvement brut, comblant l'écart entre la cinématique humaine et les contraintes d'un end-effector mécanique. Pour le transfert sim-to-real, le framework dissocie deux problèmes distincts : la robustesse aux nuages de points bruités du monde réel, traitée par apprentissage par imitation (IL), et les variations de dynamique doigt-objet, gérées par du RL résiduel local au niveau des phalanges. Un module de planification collision-aware permet enfin la généralisation spatiale à des configurations d'objets inédites. L'intérêt principal pour les intégrateurs et équipes R&D est l'absence de démonstrations téléopérées coûteuses : une seule vidéo d'un humain effectuant une tâche suffit à bootstrapper la politique. C'est une réponse directe au "demonstration bottleneck" qui freine le déploiement des robots manipulateurs en environnements non structurés. La décomposition explicite du gap sim-to-real en deux sous-problèmes indépendants est méthodologiquement solide et contraste avec les approches end-to-end qui peinent à diagnostiquer leurs propres échecs. Sur plusieurs tâches de manipulation quotidienne, le système améliore le taux de succès en simulation, la sécurité et la cohérence des trajectoires face à de nombreuses baselines existantes. Il faut noter cependant que le papier ne publie pas de métriques de succès absolues consolidées en conditions réelles ; les évaluations demeurent comparatives, ce qui limite l'interprétation des gains annoncés. Cette direction s'inscrit dans un mouvement plus large exploitant les vidéos comme supervision faible pour la robotique, à l'instar de π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou UniSim. Video2Sim2Real se distingue en visant la pipeline complète, de la vidéo brute au déploiement réel, sans intervention intermédiaire. Les approches concurrentes comme DexMV ou AnyTeleop requièrent généralement des données supplémentaires (MoCap, téléopération) ou restent limitées à des scènes très contraintes. Aucun déploiement industriel n'est annoncé à ce stade ; les prochaines étapes naturelles seraient une validation sur des end-effectors commerciaux (Allegro Hand, Shadow Dexterous Hand) et une mise à l'épreuve sur des objets articulés ou déformables, là où la dynamique de contact reste un problème ouvert.

UELes équipes R&D françaises et européennes spécialisées en manipulation dextre peuvent intégrer cette approche pour s'affranchir de la téléopération coûteuse, sans partenariat ou initiative EU spécifique annoncé.

RobotiqueOpinion
1 source
MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel
93arXiv cs.RO 

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

Des chercheurs présentent MotionWAM (arXiv:2606.09215), un World Action Model (WAM) temps réel pour la loco-manipulation humanoïde, validé sur neuf tâches physiques avec un Unitree G1 piloté par une unique caméra égocentrique. Contrairement aux architectures dominantes qui séparent une politique pour les bras et un contrôleur pour la locomotion, le système prédit des tokens de mouvement corps-entier dans un espace d'action unifié couvrant locomotion, déplacements du torse, régulation de hauteur, interaction plantaire et manipulation des mains. Pour atteindre le temps réel, MotionWAM conditionne la politique sur les features intermédiaires de débruitage d'un modèle monde vidéo, évitant le débruitage itératif complet sur des latents haute dimension, goulot d'étranglement des WAMs antérieurs. Sur le hardware réel, le système dépasse de plus de 30 points les baselines Vision-Language-Action (VLA) entraînées sur les mêmes démonstrations et réalise des tâches d'interaction plantaire inatteignables par les politiques haut/bas-corps découplées. Le paradigme hiérarchique haut/bas-corps, présent dans des systèmes comme GR00T N2 (NVIDIA) et de nombreuses architectures humanoïdes commerciales, contraint les jambes à un simple rôle d'équilibre déconnecté de la manipulation. MotionWAM démontre sur matériel réel que cette contrainte n'est pas une fatalité et valide que des modèles monde pré-entraînés sur vidéo peuvent réduire la dépendance aux démonstrations robotiques coûteuses. Les métriques restent à contextualiser: neuf tâches sur un seul embodiment, sans publication de temps de cycle ni de robustesse aux variations de scène, restent loin d'une validation industrielle. Les WAMs appliqués à la robotique s'appuient sur des travaux antérieurs en manipulation tabletop (UniSim, Genie de Google DeepMind); MotionWAM étend ces techniques à la commande humanoïde corps-entier. Face aux approches VLA dominantes dans les publications de référence, notamment pi-0 (Physical Intelligence) et GR00T N2, cette architecture propose une alternative centrée sur la dynamique vidéo pré-entraînée. Les prochaines étapes naturelles concernent la validation multi-embodiment et des déploiements industriels semi-structurés, où la variabilité des environnements constituera le vrai test de maturité.

RobotiqueOpinion
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
94arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

RobotiqueOpinion
1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
95arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

RobotiqueOpinion
1 source
VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long
96arXiv cs.RO 

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Une équipe de chercheurs publie sur arXiv (référence 2606.07723, juin 2026) un système appelé VoLoAgent, conçu pour piloter des robots sur des séquences d'actions longues à partir d'instructions en langage naturel ouvert. Le principe : un modèle vision-langage (VLM) joue le rôle d'orchestrateur et coordonne des capacités hétérogènes, notamment un modèle vision-langage-action (VLA) couplé à un module de manipulation bras entier (WAM), des primitives d'action et des modèles de vision, traités comme des outils interruptibles que le VLM peut reprendre en main en cours d'exécution. Pour évaluer ces capacités, les auteurs introduisent RoboVoLo, un benchmark haute fidélité qui couvre quatre dimensions : sens commun, suivi d'état et mémoire, références complexes dans la scène, et connaissance du monde, avec des métriques de succès par tâche et un diagnostic par type de défaillance. Des validations sur robot réel complètent les expériences en simulation, bien que les chiffres de performance précis ne figurent pas dans l'abstract publié. L'apport conceptuel central est ce que les auteurs nomment la "Physical Orchestration" : contrairement aux agents IA virtuels, un robot ne peut pas mettre le monde en pause pendant qu'il raisonne, ce qui fait du timing des décisions et des appels d'outils une contrainte de premier ordre. VoLoAgent y répond par une boucle fermée dans laquelle le VLM surveille en continu l'exécution et déclenche corrections ou récupérations en cas d'échec, sans attendre la fin de l'action en cours. Cette approche adresse directement l'un des angles morts des VLA actuels : leur rigidité face aux défaillances intermédiaires dans des séquences longues. Les résultats indiquent que VoLoAgent surpasse significativement les systèmes à VLA unique, à VLM unique, et les architectures purement basées sur des outils, une affirmation qui reste à vérifier sur des scénarios industriels hors laboratoire. Ce travail s'inscrit dans un courant très actif autour des VLA, porté par Google DeepMind (RT-2, RT-X), Physical Intelligence (pi0) et Stanford (Mobile ALOHA). L'architecture "orchestrateur sur boucle fermée" partage des bases avec les agents à outils de type ReAct ou Voyager, mais les transpose à la contrainte temps-réel de la manipulation physique. Le projet est hébergé sur GitHub via une page académique (chicychen.github.io/VoLo), sans affiliation industrielle explicite mentionnée dans l'abstract. La prochaine étape naturelle serait la validation sur des manipulateurs commerciaux (UR, Franka, ou équipements semi-structurés en entrepôt) pour mesurer le transfert hors conditions de laboratoire contrôlées.

RobotiqueOpinion
1 source
Plus de 2 000 précommandes en six jours : ces robots compagnons cartonnent déjà
97Le Big Data 

Plus de 2 000 précommandes en six jours : ces robots compagnons cartonnent déjà

UBTECH, fabricant chinois de robots humanoïdes, a enregistré plus de 2 110 précommandes pour ses robots compagnons U1 en à peine six jours depuis leur mise en vente. Deux modèles sont proposés : une version masculine de 183 centimètres et une version féminine de 168 centimètres, tous deux dotés de 88 degrés de liberté articulaire pour des mouvements présentés comme naturels. Malgré un acompte de 3 000 yuans à la commande, soit plusieurs centaines d'euros, plus de 1 000 unités avaient déjà trouvé preneur en trois jours seulement. La présentation officielle de la gamme est prévue pour le 30 juin 2026. En parallèle, la fiche produit a été consultée par plus de 150 000 personnes à Pékin lors des trois premiers jours, et l'annonce a suffi à faire bondir de plus de 10 % l'action du fournisseur Leader Harmonious Drive Systems. Ces chiffres signalent un changement de perception notable chez les consommateurs. Les robots U1 ne sont pas de simples gadgets connectés : ils sont conçus pour tenir compagnie, interagir via l'IA et afficher des expressions émotionnelles, positionnant UBTECH sur un segment encore inexploré à grande échelle, celui de la présence domestique humanoïde. Le fait que des milliers de personnes soient prêtes à verser un acompte substantiel pour un produit qui n'existe pas encore physiquement dans leurs foyers indique une appétence réelle, au-delà de la curiosité passagère. Pour l'industrie robotique, qui cherche depuis des années à convaincre le grand public, c'est un signal commercial difficile à ignorer. UBTECH est loin d'être un acteur marginal : la société figure parmi les leaders mondiaux de la robotique humanoïde et opère dans un contexte chinois où les investissements dans ce secteur ont explosé ces deux dernières années, portés par des ambitions industrielles nationales. Le marché des robots compagnons s'inscrit dans une tendance plus large qui voit plusieurs entreprises, en Chine comme aux États-Unis, tenter de franchir le seuil entre robot industriel et robot grand public. Deux mille précommandes restent un volume modeste à l'échelle industrielle, et la conversion en livraisons effectives sera le vrai test. La présentation du 30 juin permettra d'évaluer les capacités concrètes des machines, notamment en matière d'interaction conversationnelle et d'autonomie, deux dimensions qui détermineront si l'engouement initial se transforme en adoption durable ou reste une curiosité de niche à prix élevé.

RobotiqueOpinion
1 source
Dévoilement des premières cellules robotiques souples au monde capables de se reconfigurer à la demande
98Interesting Engineering 

Dévoilement des premières cellules robotiques souples au monde capables de se reconfigurer à la demande

La startup londonienne morph a dévoilé en juin 2026 une plateforme de robotique souple qu'elle décrit comme "la première au monde" dans cette catégorie, fondée sur des "cellules robotiques souples", des unités modulaires fabriquées à partir de matériaux synthétiques déformables capables de modifier leur forme et leur rigidité en temps réel. Fondée par le Dr Jean Nehme, ancien chirurgien reconstructeur et créateur de Digital Surgery (société d'IA chirurgicale rachetée par Medtronic en 2021), morph intègre capteurs, contrôle adaptatif et inférence directement dans la matière, sans structures rigides. La plateforme combine apprentissage par renforcement et simulation physique haute-fidélité pour accélérer le prototypage. Les premières applications annoncées couvrent la performance athlétique, la prévention des blessures et le support à la mobilité, avec une extension prévue vers la santé, l'automobile et la sécurité industrielle. Aucun produit fini n'est commercialisé à ce stade : il s'agit d'une annonce de plateforme avec des partenaires industriels en phase de co-développement non nommés. L'intérêt de cette approche pour les intégrateurs et décideurs industriels tient moins à la robotique souple en elle-même, un domaine académiquement actif depuis une décennie, qu'au modèle d'encapsulation proposé : fournir des cellules configurables directement intégrables dans des produits existants, sans que le fabricant partenaire ait à maîtriser la chaîne complète matériaux/simulation/contrôle. Si la plateforme tient ses promesses, elle déplace le curseur de l'intégration robotique vers un modèle comparable aux modules IMU ou aux SoC embarqués : une brique d'intelligence physique que l'on insère, pas un robot que l'on programme. La revendication "world's first" mérite toutefois d'être relativisée : des acteurs comme Soft Robotics Inc. (racheté par Applied Robotics), Festo Bionic, ou les équipes de la Harvard Wyss School ont développé des systèmes modulaires à matériaux souples depuis plusieurs années. La différence revendiquée par morph porte sur l'intégration de l'IA embarquée dans la cellule elle-même, ce qui reste à valider par des benchmarks indépendants. Le profil du fondateur ancre morph dans un créneau précis : l'interface corps-machine à usage médical et de performance, plutôt que la manipulation industrielle. Digital Surgery avait développé des outils d'assistance per-opératoire avant son acquisition par Medtronic ; Nehme applique ici la même logique d'intelligence embarquée, mais à des exosquelettes souples et équipements actifs. Le modèle B2B de morph, software, design et fabrication en partenariat, rappelle celui de Wandercraft côté exosquelettes rigides en France, ou d'Aescape dans le massage robotisé. Les prochaines étapes annoncées incluent des pilotes avec des partenaires industriels non divulgués et le lancement de premiers produits centrés sur la performance humaine, sans calendrier précis communiqué.

UEStartup britannique (hors UE post-Brexit) positionnée sur un créneau adjacent aux acteurs européens comme Wandercraft ; aucune opération ni partenariat européen confirmé à ce stade.

RobotiquePaper
1 source
Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration
99Le Big Data 

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration

Lors d'une démonstration publique en Chine le 5 juin 2026, un robot humanoïde déguisé en clown, perruque colorée incluse, a donné un coup de pied circulaire dans le ventre d'un enfant positionné au premier rang du public. La scène, capturée en vidéo et relayée sur le réseau social X par le compte Culture Crave, a rapidement accumulé plusieurs millions de vues. Sur les images, on distingue nettement le robot effectuer une rotation, son pied venant heurter l'enfant qui recule sous l'impact. Les personnes présentes semblent immédiatement réagir. On ignore pour l'instant l'identité du fabricant du robot, le lieu exact de la démonstration, et si l'enfant a été blessé. Les circonstances précises, dysfonctionnement technique ou mouvement non anticipé de la chorégraphie programmée, restent également indéterminées. L'incident remet brutalement en lumière la question de la sécurité des robots humanoïdes déployés dans des espaces publics, au contact direct du grand public et d'enfants. Même conçus à des fins de divertissement, ces machines sont capables de produire des gestes rapides, puissants et difficiles à anticiper pour un spectateur non averti. Les fabricants investissent depuis des années dans des mécanismes de détection de proximité et de limitation de force pour réduire les risques de collision avec les humains, mais aucun dispositif n'est infaillible. Un mauvais calibrage, une erreur de programmation ou une mauvaise lecture de l'environnement suffisent à transformer une démonstration ludique en incident. La mise en scène, un robot grimé en clown censé amuser un public familial, rend l'image d'autant plus frappante et questionne le cadre réglementaire entourant ce type d'événements. La robotique humanoïde connaît depuis quelques années une accélération remarquable : les machines marchent, courent, sautent et dansent avec une fluidité croissante, réalisant des figures jugées hors de portée il y a encore peu. Des acteurs comme Boston Dynamics, Unitree ou Figure AI poussent les limites des capacités physiques de ces systèmes, tandis que la Chine a massivement investi dans ce secteur pour en faire un axe stratégique de son industrie technologique. Mais cette montée en puissance s'accompagne d'un déploiement accéléré dans des contextes grand public, salons, centres commerciaux, événements, avant que les standards de sécurité n'aient pleinement suivi. Cet épisode, aussi anecdotique qu'il puisse paraître, est susceptible d'alimenter les débats sur les normes de cohabitation entre robots et humains dans des espaces non contrôlés, un enjeu que régulateurs et industriels devront inévitablement trancher à mesure que ces machines se banalisent.

UEL'incident alimente indirectement le débat européen sur les normes de sécurité encadrant le déploiement de robots humanoïdes dans des espaces publics.

RobotiqueActu
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
100arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

RobotiquePaper
1 source