Aller au contenu principal
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
RecherchearXiv cs.RO3sem

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Résumé IASource uniqueImpact UE
Source originale ↗·

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes.

L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés.

La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain
1Le Big Data 

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Meta a présenté le 26 mars 2026 TRIBE v2 (Trimodal Brain Encoder), un modèle d'intelligence artificielle open source capable de prédire l'activité cérébrale humaine en réponse à une image, un son ou un texte. Entraîné sur plus de 500 heures d'enregistrements IRM fonctionnelle issus de plus de 700 participants, le modèle simule l'activation de près de 70 000 voxels cérébraux — des unités tridimensionnelles qui traduisent les variations de flux sanguin dans le cerveau. Son architecture repose sur trois étages : des encodeurs spécialisés par modalité (V-JEPA pour la vision, Wav2Vec2-BERT pour l'audio, Llama 3.x pour le texte), un module Transformer qui aligne ces signaux dans le temps pour tenir compte du délai entre perception et activation cérébrale, puis une couche de projection qui produit une carte prédictive des activations. Les performances annoncées sont deux à trois fois supérieures aux approches antérieures, et le modèle fonctionne en zero-shot : il prédit l'activité d'un nouveau sujet sans recalibrage individuel préalable, ce qui est rare dans ce domaine. Cette capacité de généralisation change la donne pour la recherche en neurosciences cognitives. Jusqu'ici, tout travail d'exploration cérébrale exigeait un accès à un scanner IRM, une infrastructure lourde et coûteuse. TRIBE v2 ouvre la possibilité de simuler des réponses cérébrales à grande échelle, à partir de n'importe quel contenu numérique, sans contrainte matérielle. Pour les chercheurs en perception sensorielle, en troubles cognitifs ou en interfaces cerveau-machine, cela représente un accélérateur potentiel considérable. Dans l'industrie, le modèle pourrait être utilisé pour évaluer l'impact attentionnel d'un contenu publicitaire, d'une interface ou d'un environnement sonore — des applications qui posent déjà des questions éthiques sur l'usage de modèles prédictifs du comportement cérébral. TRIBE v2 s'inscrit dans une trajectoire entamée avec la première version du modèle, qui avait remporté l'Algonauts 2025 Brain Encoding Challenge, une compétition internationale de référence sur la prédiction de l'activité cérébrale. Meta franchit ici une étape qualitative en passant d'un modèle sujet-spécifique à un modèle généraliste, capable de capturer des régularités cérébrales communes à travers une population large et diversifiée. La décision de publier TRIBE v2 en open source reflète la stratégie globale de Meta AI en matière de recherche fondamentale : rendre les outils disponibles à la communauté scientifique pour accélérer l'adoption et positionner l'entreprise comme acteur central de l'IA cognitive. Reste à voir comment la communauté s'emparera de ces capacités, et quels garde-fous encadreront des usages potentiellement intrusifs de la modélisation cérébrale prédictive.

UELes chercheurs européens en neurosciences cognitives peuvent accéder librement à TRIBE v2 pour simuler des réponses cérébrales à grande échelle sans infrastructure IRM, ouvrant de nouvelles perspectives pour la recherche sur les troubles cognitifs et les interfaces cerveau-machine.

💬 Le zero-shot sur des prédictions d'activité cérébrale, c'est le truc qui m'impressionne ici, pas la com' de Meta. Jusqu'ici, tout modèle de ce genre demandait un recalibrage par sujet, une IRM, une infra complète — là, tu balances un contenu, le modèle te sort une carte d'activation sans scanner. La question c'est pas si la recherche en neurosciences va s'en emparer, c'est si les équipes pub' vont l'utiliser avant elles.

RecherchePaper
1 source
ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
2Apple Machine Learning 

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture. L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom. Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.

RecherchePaper
1 source
Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières
3The Decoder 

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Naver, le géant sud-coréen d'internet concurrent de Google en Corée du Sud, a présenté le "Seoul World Model", un modèle vidéo capable de simuler des environnements urbains réalistes à partir de données géométriques concrètes. Pour l'entraîner, l'entreprise a exploité plus d'un million d'images issues de son propre service Street View, permettant au modèle de s'ancrer dans la structure réelle des villes plutôt que dans des représentations approximatives. L'enjeu central est celui des hallucinations géographiques : les modèles génératifs ont tendance à inventer des bâtiments, des rues ou des configurations urbaines qui n'existent pas, rendant leur usage peu fiable pour des applications comme la navigation autonome, la simulation urbaine ou la planification architecturale. En contraignant le modèle avec des données de Street View réelles, Naver ancre les générations visuelles dans une géométrie vérifiable. Autre avantage notable : le modèle se généralise à d'autres villes sans nécessiter de fine-tuning spécifique, ce qui réduit considérablement les coûts de déploiement dans de nouveaux contextes géographiques. Cette approche s'inscrit dans une course plus large entre les acteurs de la cartographie et ceux de l'IA générative pour produire des jumeaux numériques urbains fiables. Naver, qui gère l'une des infrastructures cartographiques les plus denses d'Asie, dispose d'un avantage structurel rare : des données propriétaires à grande échelle. Google, avec Street View mondial, et des startups spécialisées comme Wayve ou Waymo sont également actifs sur ce terrain, où la qualité des données d'entraînement devient le facteur différenciant principal.

RecherchePaper
1 source
Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts
4MarkTechPost 

Google DeepMind permet à un LLM de réécrire ses propres algorithmes de théorie des jeux — et il surpasse les experts

Des chercheurs de Google DeepMind ont publié une étude présentant AlphaEvolve, un système d'évolution de code piloté par un grand modèle de langage capable de réécrire et d'améliorer automatiquement des algorithmes de théorie des jeux. Appliqué à deux paradigmes de référence en apprentissage par renforcement multi-agents (MARL) — le Counterfactual Regret Minimization (CFR) et le Policy Space Response Oracles (PSRO) — le système a découvert de nouvelles variantes qui égalent ou surpassent les meilleures solutions conçues manuellement par des experts. Tous les tests ont été conduits dans le cadre OpenSpiel, sur des jeux à information imparfaite comme le poker de Kuhn à trois joueurs, le Leduc Poker, le Goofspiel et le Liar's Dice. Le modèle LLM utilisé pour muter le code source est Gemini 2.5 Pro. Ce travail représente un changement de paradigme dans la conception d'algorithmes pour les jeux stratégiques complexes, un domaine où les chercheurs passaient jusqu'ici des mois à affiner manuellement des règles de pondération, de discount et de convergence. AlphaEvolve automatise entièrement ce processus d'exploration : à chaque génération, un algorithme parent est sélectionné selon ses performances, son code source est transmis au LLM avec une consigne de modification, et le candidat résultant est évalué sur un ensemble de jeux d'entraînement. La variante CFR découverte, baptisée VAD-CFR (Volatility-Adaptive Discounted CFR), introduit notamment un mécanisme de discount adaptatif basé sur la volatilité, là où les variantes classiques comme DCFR ou PCFR+ appliquent des règles statiques définies par des humains. L'implication pratique est directe : des algorithmes qui convergent plus vite vers un équilibre de Nash signifient des agents de jeu plus efficaces, avec des applications potentielles en simulation économique, en sécurité et en IA adversariale. Google DeepMind s'inscrit ici dans une tendance plus large d'automatisation de la recherche en IA, où les LLM ne servent plus seulement à générer du texte mais à explorer des espaces de conception algorithmique. CFR est à la base de systèmes comme Libratus et Pluribus, les IA de poker qui ont battu les meilleurs joueurs humains en 2017 et 2019 ; améliorer ses variantes reste donc un enjeu concret pour les applications de prise de décision sous incertitude. Le framework AlphaEvolve avait déjà été utilisé par DeepMind pour optimiser des noyaux de calcul dans des contextes d'infrastructure. Son application aux algorithmes de théorie des jeux ouvre la voie à une automatisation plus systématique de la recherche en MARL, avec la question ouverte de jusqu'où un LLM peut explorer un espace algorithmique avant de buter sur des limites structurelles que l'intuition humaine seule saurait franchir.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour