Aller au contenu principal
Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents
RobotiqueThe Information AI6sem

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents

Résumé IASource uniqueImpact UE
Source originale ↗·

Google DeepMind a publié cette semaine Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage conçu pour aider les robots à interpréter leur environnement. Pour illustrer ses capacités, Boston Dynamics, qui dispose d'un accord pour intégrer Gemini dans ses robots humanoïdes, a publié une vidéo de ses robots quadrupèdes utilisant le modèle pour lire un thermomètre lors d'une inspection dans une installation industrielle.

Selon les benchmarks internes de Google, les gains restent modestes sur un seul flux caméra : le modèle n'améliore que marginalement la capacité du robot à détecter la fin d'une tâche par rapport aux versions précédentes. En revanche, les performances progressent nettement lorsque le robot exploite plusieurs flux caméra simultanément. C'est précisément là que réside l'enjeu pratique : la majorité des environnements robotiques industriels, qu'il s'agisse d'usines ou d'entrepôts, s'appuient sur plusieurs points de vue combinés, comme une caméra en hauteur et une caméra fixée sur le bras du robot. Le système doit être capable de fusionner ces perspectives pour construire une compréhension cohérente de ce qu'il accomplit et savoir quand la tâche est terminée.

Ce lancement s'inscrit dans une course intense entre les grands laboratoires d'IA pour doter les robots d'une intelligence de perception plus robuste. Google DeepMind et Boston Dynamics ont formalisé leur partenariat autour de Gemini pour les robots humanoïdes, signalant une convergence entre les modèles de fondation et la robotique physique. Si les progrès annoncés restent incrémentaux, l'amélioration sur les configurations multi-caméras est directement applicable aux déploiements industriels existants, ce qui pourrait accélérer l'adoption de robots autonomes dans des environnements de travail réels. Les prochaines versions du modèle seront à surveiller pour évaluer si ces gains se traduisent en performances significatives sur des tâches complexes en conditions réelles.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris
1The Decoder 

Physical Intelligence présente un modèle robotique à généralisation similaire aux LLM, défauts compris

La start-up américaine Physical Intelligence a présenté π0.7, un nouveau modèle de fondation pour robots capable de recombiner des compétences acquises lors de l'entraînement pour accomplir des tâches inédites. Le principe rappelle directement le fonctionnement des grands modèles de langage, qui assemblent des fragments de leur corpus d'entraînement pour générer du texte nouveau. Les chercheurs qualifient ce phénomène de premières traces de "généralisation compositionnelle" en robotique, une capacité jusqu'ici considérée comme l'un des grands verrous du domaine. L'enjeu est considérable : un robot capable de composer librement ses compétences peut théoriquement s'adapter à des environnements non prévus lors de l'entraînement, sans reprogrammation manuelle. C'est précisément ce qui distingue l'intelligence artificielle générale de la robotique traditionnelle, figée dans des séquences prédéfinies. Physical Intelligence reconnaît toutefois que le modèle présente encore des défauts notables, signe que cette généralisation reste fragile et partielle à ce stade. Physical Intelligence, fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Berkeley, s'est imposée comme l'un des acteurs les plus ambitieux de la robotique dite "généraliste". La société avait déjà publié π0 en 2024, un premier modèle de fondation polyvalent entraîné sur une large variété de tâches physiques. L'annonce de π0.7 s'inscrit dans une course plus large impliquant Figure AI, Agility Robotics et Tesla, tous en quête du même Graal : un robot capable d'apprendre une fois et de s'adapter partout.

RobotiqueOpinion
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
2IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique
3arXiv cs.RO 

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau modèle de fondation baptisé JoyAI-RA 0.1, conçu pour doter les robots d'une autonomie généralisable dans des environnements réels et variés. Ce modèle de type vision-langage-action (VLA) s'appuie sur un cadre d'entraînement multi-sources et multi-niveaux inédit : il combine des données issues du web, des vidéos en vue subjective de manipulations humaines à grande échelle, des trajectoires générées par simulation, et des données collectées sur de vrais robots. Selon les résultats présentés, JoyAI-RA surpasse les méthodes les plus avancées sur des benchmarks en simulation comme en environnement réel, particulièrement sur des tâches variées nécessitant une capacité de généralisation. L'enjeu central de ce travail est la généralisation inter-robots, un problème récurrent dans le domaine : les modèles entraînés sur un type de robot peinent à s'adapter à d'autres architectures mécaniques ou capteurs différents. JoyAI-RA propose une unification explicite des espaces d'action, ce qui lui permet de transférer efficacement des comportements appris depuis des vidéos de manipulation humaine vers le contrôle robotique. Ce pont entre geste humain et mouvement machine est particulièrement prometteur pour réduire les coûts de collecte de données et accélérer le déploiement de robots polyvalents dans des contextes industriels, logistiques ou domestiques. La robotique autonome bute depuis des années sur deux obstacles structurels : la faible diversité des jeux de données disponibles et l'impossibilité de réutiliser des comportements appris d'un robot à l'autre. JoyAI-RA s'inscrit dans une tendance de fond qui voit émerger des modèles de fondation généralistes pour la robotique, à l'image de RT-2 de Google DeepMind ou d'OpenVLA. La particularité de cette approche réside dans l'intégration massive de vidéos de manipulation humaine comme source de supervision implicite, une stratégie qui contourne partiellement la rareté des données robotiques annotées. La publication en version 0.1 suggère que l'équipe, vraisemblablement liée à l'écosystème chinois au vu du nom JoyAI, entend faire évoluer ce modèle rapidement.

RobotiqueOpinion
1 source
Vidéo : SamuRoid, le robot humanoïde chinois compact aux interactions plus intelligentes
4Interesting Engineering 

Vidéo : SamuRoid, le robot humanoïde chinois compact aux interactions plus intelligentes

SamuRoid, un robot humanoïde compact développé par la société chinoise XiaoR Geek Technology basée à Shenzhen, vient d'être présenté comme une nouvelle plateforme d'IA embarquée accessible aux chercheurs et développeurs. Mesurant 390 mm de hauteur pour 2,3 kg, il embarque 22 servomoteurs haute-couple de la série XRS couvrant l'intégralité du corps, une caméra 1080p grand angle sur une nacelle 2 axes, un microphone USB intégré, ainsi qu'une connectivité Wi-Fi 5 double bande et Bluetooth 5.0. Son cerveau est un Raspberry Pi 4 Model B disponible en 4 ou 8 Go de RAM. La batterie 12V 3000 mAh lui offre environ une heure d'autonomie. La version Professional Edition est proposée à environ 1 565 dollars, tandis que des éditions Developer et Flagship plus complètes sont actuellement en rupture de stock. Ce qui distingue SamuRoid de ses prédécesseurs, c'est son niveau d'intégration logicielle et ses capacités multimodales. Le robot fonctionne sous ROS (Robot Operating System), avec un code source ouvert compatible C++ et Python, et intègre OpenCV pour la reconnaissance faciale, le suivi de couleurs et la détection de QR codes. Surtout, il se connecte à des grands modèles de langage comme DeepSeek et Doubao, ce qui lui permet de comprendre des instructions en langage naturel plutôt que des commandes rigides. Si un utilisateur dit qu'il est fatigué et veut s'amuser, le système interprète l'intention et déclenche une action appropriée, comme une chorégraphie, tout en fournissant un retour vocal. Ce saut qualitatif positionne SamuRoid comme un outil de recherche crédible pour explorer l'interaction homme-machine de nouvelle génération, à un prix bien en dessous des plateformes industrielles. L'essor de robots humanoïdes compacts et ouverts reflète une tendance de fond dans l'industrie robotique mondiale : rendre l'IA incarnée accessible hors des grands laboratoires. Jusqu'ici, ce segment était dominé par des plateformes coûteuses ou des jouets aux capacités limitées. XiaoR Geek tente de combler cet écart en proposant une architecture ouverte compatible avec les workflows ROS standard, adoptés par la grande majorité des chercheurs en robotique. La Chine multiplie ces initiatives, portée par un écosystème de fabrication performant et des modèles de langage locaux comme DeepSeek qui rivalisent désormais avec les offres occidentales. SamuRoid arrive dans un contexte où plusieurs acteurs, d'Agility Robotics à Figure AI en passant par Boston Dynamics, cherchent à démocratiser l'humanoïde. La question ouverte reste celle de la durée d'autonomie, une heure restant un frein réel pour des usages continus, et de la robustesse en dehors des environnements contrôlés.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour