Aller au contenu principal
Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières
RechercheThe Decoder12sem· 1 min de lecture

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Source originale ↗·

Naver, le géant sud-coréen d'internet concurrent de Google en Corée du Sud, a présenté le "Seoul World Model", un modèle vidéo capable de simuler des environnements urbains réalistes à partir de données géométriques concrètes. Pour l'entraîner, l'entreprise a exploité plus d'un million d'images issues de son propre service Street View, permettant au modèle de s'ancrer dans la structure réelle des villes plutôt que dans des représentations approximatives.

L'enjeu central est celui des hallucinations géographiques : les modèles génératifs ont tendance à inventer des bâtiments, des rues ou des configurations urbaines qui n'existent pas, rendant leur usage peu fiable pour des applications comme la navigation autonome, la simulation urbaine ou la planification architecturale. En contraignant le modèle avec des données de Street View réelles, Naver ancre les générations visuelles dans une géométrie vérifiable. Autre avantage notable : le modèle se généralise à d'autres villes sans nécessiter de fine-tuning spécifique, ce qui réduit considérablement les coûts de déploiement dans de nouveaux contextes géographiques.

Cette approche s'inscrit dans une course plus large entre les acteurs de la cartographie et ceux de l'IA générative pour produire des jumeaux numériques urbains fiables. Naver, qui gère l'une des infrastructures cartographiques les plus denses d'Asie, dispose d'un avantage structurel rare : des données propriétaires à grande échelle. Google, avec Street View mondial, et des startups spécialisées comme Wayve ou Waymo sont également actifs sur ce terrain, où la qualité des données d'entraînement devient le facteur différenciant principal.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels
1The Decoder 

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels

Google DeepMind a couplé son modèle de monde génératif Genie 3 à la base de données Street View pour permettre à des utilisateurs de créer des environnements 3D explorables à partir de lieux réels. Le principe est simple : l'utilisateur pose une épingle sur une carte, et le système génère automatiquement un monde interactif dans lequel il peut se déplacer, construit à partir des images photographiées par les voitures Google au fil des années. La démonstration illustre une convergence inédite entre la cartographie grand public et la génération de mondes par intelligence artificielle. L'enjeu dépasse la simple curiosité technologique. Ces environnements synthétiques mais ancrés dans la réalité constituent une ressource d'entraînement particulièrement précieuse pour les agents IA et les systèmes robotiques, qui ont besoin de naviguer dans des espaces proches du monde physique sans avoir à y être déployés physiquement. Là où les simulateurs classiques exigeaient un travail de modélisation manuel considérable, Genie 3 génère ces espaces à la volée, à partir de données déjà collectées massivement. Google DeepMind travaille sur la série Genie depuis 2024 : Genie 1 avait montré la capacité à générer des environnements 2D jouables, Genie 2 avait franchi le cap de la 3D cohérente. L'intégration à Street View transforme la flotte de véhicules cartographiques de Google en infrastructure d'entraînement pour la prochaine génération de robots et d'agents autonomes, positionnant l'entreprise avec un avantage concurrentiel difficile à répliquer pour des acteurs sans accès à des données géospatiales à cette échelle.

UELes données Street View couvrant l'ensemble du territoire européen, cette technologie pourrait générer des environnements d'entraînement pour robots et agents IA dans des contextes urbains français et européens, mais aucune application commerciale n'est encore disponible.

RecherchePaper
1 source
15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel
2Numerama 

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure centrale de l'intelligence artificielle moderne, publie avec un consortium de chercheurs LeWorldModel, un modèle de prédiction du monde capable de s'entraîner directement à partir de pixels bruts — sans prétraitement ni encodage intermédiaire — tout en maintenant une stabilité d'entraînement inédite à cette échelle. Le modèle repose sur 15 millions de paramètres et tourne sur un seul GPU, ce qui le rend accessible bien au-delà des grands laboratoires disposant de clusters massifs. L'enjeu est considérable pour la robotique et l'IA incarnée : pour qu'un robot puisse interagir de façon autonome avec son environnement physique, il doit d'abord modéliser le monde visuel tel qu'il est, image après image, sans dépendre d'annotations humaines. LeWorldModel ouvre cette voie en apprenant directement depuis la donnée visuelle brute, là où les approches précédentes échouaient souvent à converger ou nécessitaient des architectures beaucoup plus lourdes. C'est un pas concret vers une IA qui « comprend » le monde réel plutôt que de simplement le classifier. Cette publication intervient dans un contexte particulier : LeCun vient de cofonder AMI Labs, une startup basée en France dont les premiers travaux ne sont pas encore dévoilés. Depuis plusieurs années, il défend publiquement une vision alternative aux grands modèles de langage — il milite pour des systèmes d'IA basés sur la prédiction du monde physique plutôt que sur la génération de texte. LeWorldModel s'inscrit directement dans cette feuille de route, et pourrait constituer une brique fondamentale de l'architecture JEPA (Joint Embedding Predictive Architecture) qu'il développe chez Meta depuis 2022.

UELa cofondation par LeCun d'AMI Labs, startup basée en France, ancre directement ces travaux dans l'écosystème français de l'IA et pourrait constituer un pôle de recherche européen sur l'IA incarnée.

RecherchePaper
1 source
Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
3MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte
4Apple Machine Learning 

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

Une étude présentée au workshop "Memory for LLM-Based Agentic Systems" de la conférence ICLR 2025 s'attaque à une question fondamentale pour les petits modèles de langage (SLM) : que doivent-ils apprendre lors du préentraînement, et que doivent-ils déléguer à des sources externes ? Les chercheurs ont développé LaCy, un cadre théorique et expérimental qui questionne la fonction de perte standard utilisée pour entraîner ces modèles, en montrant qu'optimiser uniquement la vraisemblance des données n'est pas suffisant pour des SLM efficaces et fiables. Le problème est structurel : contrairement aux grands modèles comme GPT-4 ou Llama 3, les SLM disposent d'une capacité paramétrique limitée, ce qui les contraint à faire des choix sur les connaissances à mémoriser. Sans mécanisme adapté, ils génèrent des faits incorrects plutôt que d'admettre leur ignorance et de consulter une base de données ou un modèle plus puissant. LaCy propose de reformuler ce que le modèle "devrait" apprendre en tenant compte explicitement de la disponibilité de sources externes, comme des documents récupérés par RAG ou des API spécialisées. Ce travail s'inscrit dans la tendance croissante à déployer des agents IA embarqués sur des appareils à faible puissance, où les gros modèles ne peuvent pas tourner localement. Alors que des entreprises comme Google, Apple ou Mistral misent sur des SLM pour l'edge computing et les assistants embarqués, la question de la frontière entre mémoire paramétrique et mémoire externe devient stratégique. LaCy ouvre la voie à des entraînements plus ciblés, où le modèle apprend à savoir ce qu'il ne sait pas.

UEMistral, entreprise française en pointe sur les petits modèles pour l'edge computing, est directement concernée par les conclusions de LaCy sur l'optimisation de l'entraînement des SLM.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic