
Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents
Google DeepMind a publié cette semaine Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage conçu pour aider les robots à interpréter leur environnement. Pour illustrer ses capacités, Boston Dynamics, qui dispose d'un accord pour intégrer Gemini dans ses robots humanoïdes, a publié une vidéo de ses robots quadrupèdes utilisant le modèle pour lire un thermomètre lors d'une inspection dans une installation industrielle.
Selon les benchmarks internes de Google, les gains restent modestes sur un seul flux caméra : le modèle n'améliore que marginalement la capacité du robot à détecter la fin d'une tâche par rapport aux versions précédentes. En revanche, les performances progressent nettement lorsque le robot exploite plusieurs flux caméra simultanément. C'est précisément là que réside l'enjeu pratique : la majorité des environnements robotiques industriels, qu'il s'agisse d'usines ou d'entrepôts, s'appuient sur plusieurs points de vue combinés, comme une caméra en hauteur et une caméra fixée sur le bras du robot. Le système doit être capable de fusionner ces perspectives pour construire une compréhension cohérente de ce qu'il accomplit et savoir quand la tâche est terminée.
Ce lancement s'inscrit dans une course intense entre les grands laboratoires d'IA pour doter les robots d'une intelligence de perception plus robuste. Google DeepMind et Boston Dynamics ont formalisé leur partenariat autour de Gemini pour les robots humanoïdes, signalant une convergence entre les modèles de fondation et la robotique physique. Si les progrès annoncés restent incrémentaux, l'amélioration sur les configurations multi-caméras est directement applicable aux déploiements industriels existants, ce qui pourrait accélérer l'adoption de robots autonomes dans des environnements de travail réels. Les prochaines versions du modèle seront à surveiller pour évaluer si ces gains se traduisent en performances significatives sur des tâches complexes en conditions réelles.



