Aller au contenu principal
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
RobotiqueMarkTechPost4sem

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Résumé IASource uniqueImpact UE
Source originale ↗·

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques.

L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique.

Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

Impact France/UE

Les capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser
1Le Big Data 

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser

Google DeepMind a lancé le 14 avril 2026 Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à la robotique. Cette nouvelle version améliore significativement la compréhension visuelle et spatiale des robots, leur permettant de planifier et d'exécuter des tâches plus complexes avec une autonomie accrue. Concrètement, le modèle est capable d'identifier des points de préhension optimaux sur des objets variés, de traiter des informations provenant de plusieurs angles simultanément grâce à la compréhension multi-vues, et de détecter si une tâche a été accomplie avec succès. Il surpasse ses prédécesseurs directs, Gemini Robotics-ER 1.5 et Gemini 3.0 Flash, notamment sur la lecture des espaces tridimensionnels et l'interprétation des mouvements. Le modèle est disponible dès maintenant via l'API Gemini et Google AI Studio pour les développeurs souhaitant l'intégrer dans leurs projets. Cette avancée marque un tournant dans la manière dont les robots interagissent avec le monde physique. Jusqu'ici, les systèmes automatisés suivaient des instructions rigides, incapables de s'adapter à des environnements imprévus. Avec ER 1.6, les machines peuvent interpréter des jauges et des indicateurs industriels, cartographier des trajectoires en tenant compte des contraintes environnementales, et valider elles-mêmes les résultats de leurs actions. Ce niveau de raisonnement ouvre la voie à des déploiements dans des contextes industriels réels, où les situations ambiguës ou complexes sont la norme. Google insiste également sur les améliorations en matière de sécurité : les tests montrent une meilleure conformité dans des scénarios de raisonnement spatial sensibles, un critère essentiel pour tout déploiement hors laboratoire. Le projet s'inscrit dans une course mondiale à la robotique intelligente où Google DeepMind s'impose comme acteur central. La collaboration avec Boston Dynamics, notamment sur la lecture d'instruments, illustre la convergence entre intelligence artificielle de pointe et plateformes robotiques éprouvées. En ouvrant l'accès via son API, Google mise sur un écosystème de développeurs pour accélérer l'expérimentation et multiplier les cas d'usage, de la logistique à la chirurgie assistée. Cette stratégie d'ouverture contraste avec des approches plus fermées, et positionne Gemini Robotics comme une infrastructure sur laquelle d'autres peuvent construire. Les prochains mois diront si ce pari sur le raisonnement incarné suffit à distancer des concurrents comme Figure AI, 1X ou Tesla, qui misent eux aussi sur des robots capables de comprendre leur environnement plutôt que de simplement l'exécuter.

RobotiqueActu
1 source
AWS et NEURA Robotics unissent leurs forces pour industrialiser l’IA physique
2Le Big Data 

AWS et NEURA Robotics unissent leurs forces pour industrialiser l’IA physique

Amazon Web Services et NEURA Robotics ont annoncé le 21 avril 2026 un partenariat stratégique destiné à industrialiser ce que l'industrie appelle l'IA physique, soit des systèmes robotiques capables d'agir et d'apprendre dans des environnements réels. L'objectif affiché est le déploiement de millions de robots cognitifs d'ici 2030. Le partenariat repose sur trois piliers : l'hébergement du Neuraverse, l'environnement numérique centralisé de NEURA dédié à l'entraînement et au partage de données robotiques, sur l'infrastructure AWS ; la connexion des installations NEURA Gym à Amazon SageMaker pour standardiser la formation des modèles d'IA ; et l'intégration expérimentale des robots NEURA dans des centres logistiques d'Amazon, où la manutention, le tri et la collaboration homme-machine serviront de terrain de validation à grande échelle. L'enjeu central de cet accord est de résoudre un problème structurel qui bloque l'essor de la robotique intelligente : le manque chronique de données d'entraînement. Contrairement aux grands modèles de langage, nourris par des milliards de documents issus du web, les robots doivent apprendre à partir d'expériences physiques concrètes, difficiles à collecter et à reproduire. En couplant la plateforme cognitive de NEURA, qui permet aux machines de s'adapter en temps réel à leur environnement, avec la capacité de calcul distribuée et la couverture mondiale d'AWS, les deux acteurs cherchent à créer des boucles d'apprentissage continues entre simulation et réalité. Pour les industriels partenaires, cela signifie des cycles de développement raccourcis et des performances reproductibles quelle que soit l'implantation géographique de leurs flottes. Ce rapprochement s'inscrit dans une tendance de fond qui voit l'innovation robotique européenne s'appuyer sur les infrastructures cloud américaines pour franchir le cap du prototype à la production. NEURA Robotics, start-up allemande fondée en 2019 et déjà reconnue pour son approche intégrée de la robotique cognitive, dispose d'une expertise hardware et logicielle pointue mais manque de l'échelle nécessaire pour collecter et traiter des volumes de données comparables à ceux des géants technologiques. AWS, de son côté, cherche à positionner son cloud comme colonne vertébrale de la prochaine vague d'automatisation industrielle, un marché estimé à plusieurs centaines de milliards de dollars. Les entrepôts Amazon constituent un laboratoire idéal : si les robots NEURA y font leurs preuves, le modèle pourra être répliqué chez des milliers de clients industriels à travers le monde, accélérant la normalisation de l'IA physique bien au-delà de la logistique.

UELe partenariat implique NEURA Robotics, startup allemande de référence en robotique cognitive, illustrant comment l'innovation robotique européenne s'adosse aux infrastructures cloud américaines pour passer à l'échelle industrielle.

💬 Le vrai verrou de la robotique, c'est pas le hardware, c'est les données d'entraînement, et c'est un problème que personne n'avait vraiment résolu jusqu'ici. En ouvrant ses entrepôts, Amazon aide NEURA à franchir ce cap tout en se constituant un corpus d'apprentissage physique que personne d'autre n'aura. Malin de leur part, mais les clés du camion, c'est eux qui les gardent.

RobotiqueOpinion
1 source
MolmoAct : implémentation pour le raisonnement spatial 3D, le suivi de trajectoire et la prédiction robotique
3MarkTechPost 

MolmoAct : implémentation pour le raisonnement spatial 3D, le suivi de trajectoire et la prédiction robotique

Des chercheurs d'AllenAI ont publié MolmoAct, un modèle multimodal de 7 milliards de paramètres conçu pour raisonner dans l'espace tridimensionnel à partir d'observations visuelles. Le modèle, identifié sous la référence allenai/MolmoAct-7B-D-0812, accepte des entrées multi-vues, c'est-à-dire plusieurs images prises sous différents angles, et génère à partir d'instructions en langage naturel trois types de sorties : une estimation de profondeur, une trajectoire visuelle tracée, et des commandes d'action directement exploitables par un système robotique. Un tutoriel d'implémentation complet a été publié pour permettre aux développeurs de reproduire l'ensemble du pipeline dans Google Colab, en s'appuyant sur PyTorch 2.0 ou supérieur, la bibliothèque Transformers en version 4.52, et une infrastructure GPU standard. Ce type de modèle représente un changement de paradigme dans la robotique pilotée par l'IA : plutôt que de séparer la perception visuelle, la compréhension spatiale et la planification motrice dans des modules distincts, MolmoAct intègre ces trois capacités dans un seul réseau neuronal interrogeable en langage humain. Concrètement, un opérateur peut demander au modèle d'atteindre un objet dans une scène complexe, et le système produit directement la séquence d'actions requise, en tenant compte des distances et obstacles perçus dans les images. Pour les équipes travaillant sur des bras robotiques, des drones autonomes ou des systèmes d'assistance, cette architecture réduit considérablement la complexité d'intégration et ouvre la voie à des robots pilotables par des non-spécialistes. MolmoAct s'inscrit dans une vague de modèles dits "action-reasoning" qui cherchent à combler le fossé entre vision par ordinateur et contrôle robotique. AllenAI, l'institut de recherche fondé par Paul Allen et affilié à l'Université de Washington, développe depuis plusieurs années la famille de modèles Molmo, positionnée comme une alternative ouverte aux modèles multimodaux propriétaires de Google ou OpenAI. La publication d'un tutoriel d'implémentation pas-à-pas, avec un code entièrement reproductible et accessible sur des GPUs grand public, traduit une volonté délibérée de démocratiser ces capacités. La prochaine étape naturelle sera l'évaluation de MolmoAct sur des benchmarks robotiques standardisés et son intégration dans des environnements physiques réels, où la robustesse face aux variations d'éclairage et d'occlusion restera le principal défi.

RobotiqueOpinion
1 source
SAP et ANYbotics accélèrent l'adoption de l'IA physique dans l'industrie
4AI News 

SAP et ANYbotics accélèrent l'adoption de l'IA physique dans l'industrie

SAP et le fabricant suisse de robots ANYbotics ont annoncé un partenariat visant à intégrer directement les robots quadrupèdes autonomes d'ANYbotics dans les systèmes ERP (Enterprise Resource Planning) de SAP. Concrètement, les robots à quatre pattes — équipés de capteurs thermiques, acoustiques et visuels — deviennent des nœuds mobiles de collecte de données au sein d'un réseau IoT industriel. Plutôt que d'être traités comme des équipements isolés, ils communiquent en temps réel avec les modules de gestion d'actifs de SAP via des API. Le partenariat a été mis en avant lors de l'AI & Big Data Expo North America, organisé au San Jose McEnery Convention Center en Californie, où SAP figure parmi les sponsors principaux. L'enjeu opérationnel est considérable pour les secteurs à risques — usines chimiques, plateformes offshore, sites de raffinage — où les inspections humaines sont à la fois coûteuses, dangereuses et sujettes à l'erreur. Aujourd'hui, un technicien qui entend un bruit anormal dans un compresseur doit le noter, puis saisir manuellement un ordre de travail, parfois des heures plus tard. Ce délai peut suffire à transformer une défaillance mineure en arrêt machine complet. Avec l'intégration ANYbotics-SAP, le robot détecte une fréquence moteur irrégulière, l'analyse localement grâce à son IA embarquée, et déclenche automatiquement une demande de maintenance dans SAP — qui vérifie aussitôt la disponibilité des pièces détachées, calcule le coût de l'immobilisation potentielle et planifie l'intervention d'un technicien. Le facteur humain subjectif est remplacé par des métriques constantes et auditables. Sur le plan technique, déployer des robots autonomes dans des environnements industriels lourds pose des défis que l'installation d'un logiciel en bureau ne connaît pas : béton épais, armatures métalliques et interférences électromagnétiques rendent les réseaux Wi-Fi classiques inopérants. La solution passe par l'edge computing — les robots traitent la majorité des données (vidéo thermique haute définition, lidar) en local et n'envoient à SAP que l'essentiel, soit la nature et la localisation précise de la défaillance. Pour la connectivité, les premiers adoptants construisent des réseaux 5G privés couvrant l'ensemble de leurs installations. La sécurité reste un défi majeur : un robot bardé de caméras constitue une vulnérabilité mobile, et les entreprises doivent implémenter des protocoles zero-trust pour authentifier en permanence l'appareil et cloisonner son accès aux modules SAP. Enfin, la gestion du volume de données non structurées générées exige un paramétrage rigoureux des seuils d'alerte — sans quoi les équipes maintenance se noient sous des centaines de faux positifs quotidiens, rendant le tableau de bord SAP inutilisable.

UELe partenariat entre SAP (Allemagne) et ANYbotics (Suisse) renforce le positionnement européen dans la robotique industrielle autonome, avec des applications directes pour les industries manufacturières et énergétiques de l'UE.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour