Aller au contenu principal
Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels
RechercheThe Decoder6sem· 1 min de lecture

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels

Source originale ↗·

Google DeepMind a couplé son modèle de monde génératif Genie 3 à la base de données Street View pour permettre à des utilisateurs de créer des environnements 3D explorables à partir de lieux réels. Le principe est simple : l'utilisateur pose une épingle sur une carte, et le système génère automatiquement un monde interactif dans lequel il peut se déplacer, construit à partir des images photographiées par les voitures Google au fil des années. La démonstration illustre une convergence inédite entre la cartographie grand public et la génération de mondes par intelligence artificielle.

L'enjeu dépasse la simple curiosité technologique. Ces environnements synthétiques mais ancrés dans la réalité constituent une ressource d'entraînement particulièrement précieuse pour les agents IA et les systèmes robotiques, qui ont besoin de naviguer dans des espaces proches du monde physique sans avoir à y être déployés physiquement. Là où les simulateurs classiques exigeaient un travail de modélisation manuel considérable, Genie 3 génère ces espaces à la volée, à partir de données déjà collectées massivement.

Google DeepMind travaille sur la série Genie depuis 2024 : Genie 1 avait montré la capacité à générer des environnements 2D jouables, Genie 2 avait franchi le cap de la 3D cohérente. L'intégration à Street View transforme la flotte de véhicules cartographiques de Google en infrastructure d'entraînement pour la prochaine génération de robots et d'agents autonomes, positionnant l'entreprise avec un avantage concurrentiel difficile à répliquer pour des acteurs sans accès à des données géospatiales à cette échelle.

Impact France/UE

Les données Street View couvrant l'ensemble du territoire européen, cette technologie pourrait générer des environnements d'entraînement pour robots et agents IA dans des contextes urbains français et européens, mais aucune application commerciale n'est encore disponible.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières
1The Decoder 

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Naver, le géant sud-coréen d'internet concurrent de Google en Corée du Sud, a présenté le "Seoul World Model", un modèle vidéo capable de simuler des environnements urbains réalistes à partir de données géométriques concrètes. Pour l'entraîner, l'entreprise a exploité plus d'un million d'images issues de son propre service Street View, permettant au modèle de s'ancrer dans la structure réelle des villes plutôt que dans des représentations approximatives. L'enjeu central est celui des hallucinations géographiques : les modèles génératifs ont tendance à inventer des bâtiments, des rues ou des configurations urbaines qui n'existent pas, rendant leur usage peu fiable pour des applications comme la navigation autonome, la simulation urbaine ou la planification architecturale. En contraignant le modèle avec des données de Street View réelles, Naver ancre les générations visuelles dans une géométrie vérifiable. Autre avantage notable : le modèle se généralise à d'autres villes sans nécessiter de fine-tuning spécifique, ce qui réduit considérablement les coûts de déploiement dans de nouveaux contextes géographiques. Cette approche s'inscrit dans une course plus large entre les acteurs de la cartographie et ceux de l'IA générative pour produire des jumeaux numériques urbains fiables. Naver, qui gère l'une des infrastructures cartographiques les plus denses d'Asie, dispose d'un avantage structurel rare : des données propriétaires à grande échelle. Google, avec Street View mondial, et des startups spécialisées comme Wayve ou Waymo sont également actifs sur ce terrain, où la qualité des données d'entraînement devient le facteur différenciant principal.

RecherchePaper
1 source
Modèles du monde : 10 points clés sur l'IA en ce moment
2MIT Technology Review 

Modèles du monde : 10 points clés sur l'IA en ce moment

Les "world models" figurent parmi les dix tendances les plus importantes de l'intelligence artificielle selon le MIT Technology Review, qui leur consacre une place dans sa sélection éditoriale annuelle "10 Things That Matter in AI Right Now". La publication organise en parallèle une table ronde réservée aux abonnés intitulée "Can AI Learn to Understand the World?", animée par le rédacteur en chef Mat Honan, le senior editor Will Douglas Heaven et la journaliste spécialisée Grace Huckins. Les world models représentent une approche fondamentalement différente de l'IA actuelle : plutôt que de prédire des tokens de texte, ces systèmes cherchent à construire une représentation interne du monde physique, capable d'anticiper les conséquences d'actions dans des environnements réels. L'enjeu est considérable pour la robotique, les véhicules autonomes et tout système d'IA devant agir dans le monde réel plutôt que simplement répondre à des requêtes textuelles. Le sujet est étroitement lié aux travaux de Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une vision où les world models constitueraient la prochaine étape majeure au-delà des grands modèles de langage. Des applications concrètes commencent à émerger, comme l'utilisation des données de Pokémon Go pour doter des robots livreurs d'une cartographie centimètre par centimètre de l'environnement urbain. L'intérêt croissant de la presse spécialisée pour ce concept signale que le débat sur les limites des LLMs actuels s'intensifie dans les cercles de recherche.

RecherchePaper
1 source
3MarkTechPost 

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Des chercheurs de Google Research ont publié un article présentant Vantage, un système d'évaluation basé sur des grands modèles de langage (LLM) conçu pour mesurer trois compétences humaines longtemps considérées comme impossibles à tester à grande échelle : la collaboration, la créativité et la pensée critique. L'étude, conduite auprès de 188 participants âgés de 18 à 25 ans recrutés via la plateforme Prolific, a généré 373 transcriptions de conversations entre humains et groupes d'agents IA. Chaque session durait 30 minutes et impliquait des tâches collaboratives structurées, comme la conception d'une expérience scientifique ou un débat argumenté. Les modèles utilisés sont Gemini 2.5 Pro pour les modules de collaboration et Gemini 3 pour la créativité et la pensée critique. L'apport technique central de Vantage est ce que les chercheurs appellent l'architecture "Executive LLM" : plutôt que de faire fonctionner un agent IA distinct pour chaque participant simulé, un seul LLM orchestre tous les personnages artificiels de la conversation. Ce modèle coordinateur a accès à la rubrique d'évaluation en temps réel et s'en sert activement pour piloter les échanges vers des situations révélatrices. Si la compétence ciblée est la résolution de conflits, l'Executive LLM peut faire exprimer un désaccord par l'un de ses personnages et le maintenir jusqu'à ce que le participant humain réagisse. Les tests ont montré que cette approche surpasse significativement une configuration où des agents indépendants interagissent sans coordination : sans pilotage, les conversations peuvent se dérouler sans jamais créer les conditions nécessaires à l'évaluation d'une compétence donnée. Les scores attribués automatiquement par le système ont atteint un niveau de fiabilité comparable à celui d'experts humains formés à la notation. Ce travail s'attaque à un problème de mesure vieux de plusieurs décennies. Les tests standardisés classiques, comme le PISA 2015 sur la résolution collaborative de problèmes, ont tenté de simuler le travail en groupe via des interfaces à choix multiples avec des coéquipiers scriptés, sacrifiant l'authenticité au profit du contrôle. Les évaluations humaines réelles font l'inverse, mais ne passent pas à l'échelle. Google positionne les LLM comme la première technologie capable de satisfaire simultanément ces deux exigences contradictoires : produire des interactions conversationnelles naturelles tout en maintenant des conditions reproductibles et comparables. Les implications dépassent largement le cadre académique : cette approche pourrait transformer les recrutements en entreprise, les certifications professionnelles ou les outils pédagogiques adaptatifs. Avec des entreprises comme Google, Microsoft et OpenAI qui investissent massivement dans les agents conversationnels, Vantage illustre une nouvelle frontière où les LLM ne servent plus seulement à produire du texte, mais à modéliser et évaluer le comportement humain lui-même.

UECe système d'évaluation automatisée pourrait influencer les pratiques de recrutement et les certifications professionnelles en Europe, ainsi que les outils pédagogiques utilisés dans les systèmes éducatifs européens.

RecherchePaper
1 source
Les agents IA ancrés dans le monde réel
4Amazon Science 

Les agents IA ancrés dans le monde réel

En 2026, l'intelligence artificielle franchit une étape décisive : les modèles qui se contentaient de "savoir" cèdent la place à des agents capables d'"agir". Les grands modèles de fondation (Foundation Models), entraînés sur des volumes massifs de données, servent désormais de moteurs cognitifs à des agents déployés dans des environnements physiques réels, des entrepôts et usines aux hôpitaux et systèmes de transport. Amazon illustre concrètement ce virage avec le lancement de Project Eluna, un agent IA développé par les équipes Amazon Fulfillment Technology (AFT) en collaboration avec l'Université de Californie à San Diego. Hébergé dans le cloud, Eluna assiste les opérateurs de centres de traitement des commandes via des tableaux de bord numériques : il analyse en temps réel l'état des tapis roulants et des robots, anticipe les goulots d'étranglement et recommande des actions aux responsables logistiques avec un degré d'autonomie croissant. Le principal défi que ces agents doivent surmonter est celui des hallucinations. Dans un environnement virtuel, une IA peut inventer des citations ou produire des erreurs factuelles ; dans un environnement physique, les conséquences deviennent dangereuses. Si un agent propose un itinéraire robotique sans tenir compte de la masse ou de l'élan des objets déplacés, il peut mettre des humains en danger ou endommager des équipements. Pour y répondre, les chercheurs définissent quatre approches d'"ancrage" (grounding), soit l'intégration de données externes, de principes physiques et de simulations numériques dans le raisonnement du modèle. La première, l'apprentissage profond guidé par la physique (PGDL), consiste à intégrer des lois fondamentales comme la conservation de l'énergie ou les équations différentielles du mouvement directement dans la phase de préentraînement, ce qui réduit drastiquement la quantité de données nécessaires. La deuxième, baptisée UQ4CT, dote l'agent d'une conscience de ses propres incertitudes pour qu'il sache reconnaître ce qu'il ne sait pas, condition indispensable dans des contextes critiques où la surconfiance peut être fatale. Ces travaux s'inscrivent dans une dynamique industrielle plus large que l'on désigne sous le terme d'"IA physique". Pendant des années, les LLM ont démontré leur puissance dans les domaines numériques : génération de texte, code, analyse de données. Leur déploiement dans le monde matériel exige une couche supplémentaire de rigueur que les architectures actuelles n'intègrent pas nativement. Amazon, avec la superficie colossale de son réseau logistique mondial, constitue un terrain d'expérimentation idéal pour valider ces approches à grande échelle. Si les quatre piliers proposés font leurs preuves dans les entrepôts, leur portée pourrait s'étendre rapidement à d'autres secteurs industriels, de la robotique chirurgicale à la gestion des réseaux électriques, où erreur et physique ne font jamais bon ménage.

UELes techniques d'ancrage pour l'IA physique (PGDL, UQ4CT) sont directement applicables aux secteurs industriels européens, automobile, aéronautique, santé , , mais aucun acteur européen n'est impliqué dans ces travaux, ce qui souligne un retard stratégique potentiel.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic