Dossier Google DeepMind — page 3

878 articles · page 3 sur 18

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

101MarkTechPost RobotiqueActu

Robostral Navigate de Mistral AI : un modèle de 8 milliards de paramètres qui permet aux robots de naviguer dans des environnements complexes avec une simple caméra RGB

Mistral AI a dévoilé Robostral Navigate, son premier modèle conçu pour la navigation robotique incarnée. Ce modèle de 8 milliards de paramètres prend en entrée des images RGB issues d'une simple caméra et une instruction en langage naturel, puis pilote un robot à travers un environnement complexe, qu'il s'agisse de bureaux, d'immeubles résidentiels ou commerciaux, ou d'espaces extérieurs. Contrairement à la plupart des systèmes de navigation qui s'appuient sur des capteurs de profondeur, du LiDAR ou plusieurs caméras, Robostral Navigate fonctionne avec une seule caméra RGB classique, sans capteur de profondeur. Il atteint 79,4% de taux de réussite sur le benchmark R2R-CE (Room-to-Room in Continuous Environments, basé sur Matterport3D) en validation sur environnements connus, et 76,6% en validation sur environnements inconnus, dépassant de 9,7 points la meilleure approche à caméra unique et de 4,5 points les meilleurs systèmes utilisant profondeur ou caméras multiples. Pour l'entraînement, Mistral a généré environ 400 000 trajectoires réparties sur 6 000 scènes simulées, et a appliqué ensuite un algorithme d'apprentissage par renforcement en ligne nommé CISPO, qui a permis un gain supplémentaire de 3,2% de taux de réussite. Cette avancée compte pour l'industrie robotique car elle réduit drastiquement le coût matériel nécessaire à une navigation autonome fiable: une seule caméra ordinaire suffit là où les concurrents multiplient les capteurs LiDAR ou de profondeur, ce qui rend le déploiement à grande échelle plus abordable pour les fabricants de robots domestiques, industriels ou de service. La méthode de "pointing", où le modèle prédit directement les coordonnées du point cible dans l'image plutôt que des déplacements métriques, rend aussi le système plus robuste aux changements de caméra ou d'échelle du monde réel, un problème récurrent qui limitait jusqu'ici la généralisation des robots entre différents matériels. Enfin, l'optimisation de l'entraînement via une technique de mise en cache des préfixes a permis de réduire le nombre de tokens d'entraînement par un facteur 22, transformant des cycles de recherche qui prenaient des mois en quelques jours seulement. Ce lancement s'inscrit dans la stratégie plus large de Mistral AI visant à construire des modèles fondamentaux au-delà du seul traitement du langage, en misant sur ses modèles de vision-langage déjà entraînés pour des tâches de repérage, de comptage et de localisation d'objets, dont la navigation apparaît comme une extension naturelle. Cette approche s'oppose au recours classique aux modèles open source existants et positionne l'entreprise française comme un acteur crédible face aux géants américains dans la course à la robotique généraliste, un secteur où Google DeepMind, Tesla et plusieurs startups spécialisées investissent massivement. Les prochaines étapes attendues concernent probablement l'élargissement à d'autres tâches de manipulation robotique et le déploiement sur du matériel commercial réel.

UEMistral AI, entreprise francaise, renforce sa position dans la robotique face aux acteurs americains et pourrait equiper des robots deployes en France et en Europe.

Dossier Google DeepMind — page 3

Robostral Navigate de Mistral AI : un modèle de 8 milliards de paramètres qui permet aux robots de naviguer dans des environnements complexes avec une simple caméra RGB

L’ONU alerte sur la rapidité des progrès de l’IA

Demain, faudra-t-il montrer son passeport pour utiliser une IA ?

ANTHROPIC recrute le patron IA d’ORANGE pour accélérer son développement en Europe

Claude Code dans Slack

Google adopte l'Interactions API comme interface par défaut pour ses modèles et agents Gemini

Derrière OpenAI, la montée silencieuse des modèles chinois

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Odyssey obtient 310 millions de dollars pour son IA de simulation du monde

HSBC étend son partenariat bancaire IA avec Google Cloud

HSBC et Google Cloud scellent un partenariat pour l’IA bancaire

Rapport technique Qwen-RobotManip : l'alignement permet le passage à l'échelle des modèles fondation pour la manipulation robotique

OpenAI a dépensé 3,7 milliards de dollars au premier trimestre 2026

OpenAI Partner Network : un réseau pour industrialiser l’IA

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Anthropic supplie Donald Trump de réguler l’IA (la raison va vous terrifier)

☕️ Anthropic élargit l’accès à Mythos à une quinzaine de pays

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans

Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté

Cognition lève 1 milliard de dollars lors d'une série D valorisée à 26 milliards

Cette IA vous permet de créer des jeux vidéo à partir de Google Maps, mais il y a une condition

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

Google I/O illustre comment la science pilotée par l'IA change de trajectoire

OpenAI repousse les limites du raisonnement automatisé avec ce qu'il appelle une avancée majeure en mathématiques

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Les LLM rendus plus rapides sans sacrifier la précision

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

Il avait contourné les garde-fous de ChatGPT : Denis Shilov lève 9,35 millions d’euros pour WHITE CIRCLE

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

La fin du finetuning

Isomorphic Labs réalise une levée de fonds record de plus de 2 milliards de dollars

Large Video Planner permet un contrôle robotique généralisable

Sakana entraîne un modèle 7B à orchestrer GPT-5, Claude Sonnet 4 et Gemini 2.5 Pro

Character.AI poursuivie en justice pour un chatbot se présentant comme médecin agréé

Import AI 455 : automatiser la recherche en IA

L'IA physique soulève des questions de gouvernance pour les systèmes autonomes

Netomi lève 110 millions de dollars, Accenture et Adobe misent sur l'IA pour le service client

La protection de la vie privée des données d'entraînement de l'IA

L'accord historique sur l'AGI entre Microsoft et OpenAI prend fin

Scandale dans l’IA : les États-Unis dénoncent un vol à grande échelle orchestré depuis la Chine

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Résistance

Google lance des agents Deep Research et Deep Research Max pour automatiser la recherche complexe

Course à l’IA : le laboratoire de Jeff Bezos proche d’un méga deal à 38 milliards

Démonstration Qwen 3.6-35B-A3B : inférence multimodale, raisonnement, appel d'outils, MoE, RAG et persistance de session

Google constitue une équipe spécialisée pour améliorer ses modèles de code

GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic