Aller au contenu principal
EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles
RecherchearXiv cs.RO6sem· 1 min de lecture

EgoLive : un vaste jeu de données à la première personne issu de tâches humaines réelles

Source originale ↗·

Une équipe de chercheurs a publié EgoLive, un jeu de données égocentrique à grande échelle conçu spécifiquement pour l'apprentissage de la manipulation robotique. Présenté dans un preprint arXiv (2604.23570), EgoLive se positionne comme le plus grand dataset égocentrique annoté en open source centré sur les activités humaines orientées tâches dans des environnements réels. Les données ont été captées grâce à un dispositif de capture monté sur la tête, développé sur mesure, et enrichies d'annotations multimodales haute précision. Les scènes enregistrées couvrent des situations du quotidien professionnel et domestique : services à domicile, environnements de vente au détail, et autres contextes de travail verticaux impliquant des interactions manuelles complexes.

L'enjeu est direct : la robotique moderne bute sur la rareté des données d'entraînement à grande échelle et de qualité suffisante. Les méthodes dominantes jusqu'ici, comme la télé-opération ou les interfaces de manipulation universelle, présentent des limites structurelles en termes de passage à l'échelle et de déployabilité dans des environnements non contrôlés. En collectant des vidéos du point de vue humain dans des situations réelles et non scénarisées, EgoLive offre une diversité et une validité écologique que les approches en laboratoire ne peuvent pas reproduire. Pour les équipes qui développent des modèles robotiques généralisables, disposer de telles données pourrait accélérer significativement la capacité des robots à opérer hors des environnements contrôlés.

La course aux données robotiques s'est intensifiée avec l'essor des grands modèles d'action, qui nécessitent des volumes massifs d'exemples pour généraliser leurs comportements. Des initiatives comme Open X-Embodiment ou les datasets de manipulation de DeepMind ont montré la voie, mais restent souvent contraints à des contextes de collecte artificiels. EgoLive s'inscrit dans un mouvement plus large qui cherche à exploiter la vidéo humaine naturelle comme signal d'apprentissage bon marché et scalable. La mise à disposition en open source vise à fédérer la communauté de recherche autour d'une base commune, avec l'ambition explicite de faciliter le déploiement réel de systèmes robotiques dans des environnements humains ordinaires.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le ground truth est un processus, pas un jeu de données
1Amazon Science 

Le ground truth est un processus, pas un jeu de données

Le groupe AGI d'Amazon a publié sur arXiv une étude qui remet en cause une des hypothèses fondamentales de l'évaluation des systèmes d'intelligence artificielle : l'idée que la « vérité de référence » (ground truth) est un ensemble de données fixe et fiable. Pour construire un outil capable de vérifier la fiabilité factuelle des rapports de recherche générés par l'IA, les chercheurs ont recruté des experts de niveau doctoral en informatique, théorie du contrôle, santé publique et ingénierie environnementale. Résultat inattendu : livrés à eux-mêmes, ces spécialistes n'ont obtenu que 60,8 % de précision sur un ensemble de réponses déjà connues, utilisé comme contrôle interne. Ce taux révèle non pas un manque d'expertise, mais la difficulté intrinsèque d'une tâche qui exige lecture longue, synthèse multi-documents et attention soutenue. Ce constat a conduit l'équipe à repenser en profondeur la manière dont on construit un benchmark. Plutôt que de traiter les étiquettes initiales des experts comme une vérité incontestable, les chercheurs ont développé un protocole appelé « audit-then-score » : lorsque le système de vérification automatique, DeepFact-Eval, conteste une réponse humaine, il ne se voit pas simplement pénalisé. Il doit soumettre des preuves concrètes et une argumentation écrite. Un auditeur, humain ou automatisé, compare alors cette contestation avec la justification originale, et si le challenger l'emporte, le benchmark est corrigé avant que le modèle ne soit noté. Ce renversement de logique est significatif : dans les tâches cognitivement exigeantes, un désaccord entre le modèle et le benchmark n'est plus automatiquement interprété comme une erreur du modèle, mais comme un signal potentiel d'ambiguïté dans les données d'évaluation elles-mêmes. L'enjeu dépasse largement Amazon. Les systèmes d'IA augmentés de recherche, capables de produire des synthèses longues combinant des dizaines de sources, se multiplient chez OpenAI, Google, Perplexity et d'autres acteurs. Ces rapports ressemblent de plus en plus à des analyses d'expert, mais leurs affirmations peuvent fusionner des éléments de plusieurs documents d'une façon qu'aucun outil de vérification classique ne sait traiter. Les outils existants sont conçus pour faire correspondre une affirmation à une courte citation ; ils échouent dès qu'une phrase dépend du contexte global d'un rapport. L'équipe publie conjointement DeepFact-Bench, un jeu de tests partagé pour comparer les systèmes, et DeepFact-Eval, le vérificateur automatique capable de planifier des recherches dans la littérature, de résumer les documents récupérés et de poser des questions complémentaires. La conclusion structurelle est claire : à mesure que les sorties de l'IA gagnent en complexité, la vérité de référence ne peut plus être un dataset statique, elle doit devenir un processus itératif.

UELa méthodologie d'audit itératif pourrait indirectement influencer les standards d'évaluation des systèmes IA à haut risque imposés par l'AI Act européen.

RecherchePaper
1 source
Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain
2Le Big Data 

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Meta a présenté le 26 mars 2026 TRIBE v2 (Trimodal Brain Encoder), un modèle d'intelligence artificielle open source capable de prédire l'activité cérébrale humaine en réponse à une image, un son ou un texte. Entraîné sur plus de 500 heures d'enregistrements IRM fonctionnelle issus de plus de 700 participants, le modèle simule l'activation de près de 70 000 voxels cérébraux — des unités tridimensionnelles qui traduisent les variations de flux sanguin dans le cerveau. Son architecture repose sur trois étages : des encodeurs spécialisés par modalité (V-JEPA pour la vision, Wav2Vec2-BERT pour l'audio, Llama 3.x pour le texte), un module Transformer qui aligne ces signaux dans le temps pour tenir compte du délai entre perception et activation cérébrale, puis une couche de projection qui produit une carte prédictive des activations. Les performances annoncées sont deux à trois fois supérieures aux approches antérieures, et le modèle fonctionne en zero-shot : il prédit l'activité d'un nouveau sujet sans recalibrage individuel préalable, ce qui est rare dans ce domaine. Cette capacité de généralisation change la donne pour la recherche en neurosciences cognitives. Jusqu'ici, tout travail d'exploration cérébrale exigeait un accès à un scanner IRM, une infrastructure lourde et coûteuse. TRIBE v2 ouvre la possibilité de simuler des réponses cérébrales à grande échelle, à partir de n'importe quel contenu numérique, sans contrainte matérielle. Pour les chercheurs en perception sensorielle, en troubles cognitifs ou en interfaces cerveau-machine, cela représente un accélérateur potentiel considérable. Dans l'industrie, le modèle pourrait être utilisé pour évaluer l'impact attentionnel d'un contenu publicitaire, d'une interface ou d'un environnement sonore — des applications qui posent déjà des questions éthiques sur l'usage de modèles prédictifs du comportement cérébral. TRIBE v2 s'inscrit dans une trajectoire entamée avec la première version du modèle, qui avait remporté l'Algonauts 2025 Brain Encoding Challenge, une compétition internationale de référence sur la prédiction de l'activité cérébrale. Meta franchit ici une étape qualitative en passant d'un modèle sujet-spécifique à un modèle généraliste, capable de capturer des régularités cérébrales communes à travers une population large et diversifiée. La décision de publier TRIBE v2 en open source reflète la stratégie globale de Meta AI en matière de recherche fondamentale : rendre les outils disponibles à la communauté scientifique pour accélérer l'adoption et positionner l'entreprise comme acteur central de l'IA cognitive. Reste à voir comment la communauté s'emparera de ces capacités, et quels garde-fous encadreront des usages potentiellement intrusifs de la modélisation cérébrale prédictive.

UELes chercheurs européens en neurosciences cognitives peuvent accéder librement à TRIBE v2 pour simuler des réponses cérébrales à grande échelle sans infrastructure IRM, ouvrant de nouvelles perspectives pour la recherche sur les troubles cognitifs et les interfaces cerveau-machine.

💬 Le zero-shot sur des prédictions d'activité cérébrale, c'est le truc qui m'impressionne ici, pas la com' de Meta. Jusqu'ici, tout modèle de ce genre demandait un recalibrage par sujet, une IRM, une infra complète — là, tu balances un contenu, le modèle te sort une carte d'activation sans scanner. La question c'est pas si la recherche en neurosciences va s'en emparer, c'est si les équipes pub' vont l'utiliser avant elles.

RecherchePaper
1 source
ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs
3Apple Machine Learning 

ProText : un jeu de données de référence pour mesurer les erreurs de genre dans les textes longs

Des chercheurs ont publié ProText, un jeu de données de référence conçu pour mesurer les erreurs de genre — ou « misgendering » — dans des textes longs en anglais. Le dataset s'articule autour de trois dimensions : les noms thématiques (prénoms, professions, titres, liens familiaux), la catégorie thématique (stéréotypiquement masculin, stéréotypiquement féminin, neutre ou non genré), et la catégorie de pronom (masculin, féminin, neutre, ou absence de pronom). ProText est spécifiquement conçu pour évaluer le comportement des grands modèles de langage (LLMs) lors de transformations textuelles comme le résumé automatique ou la réécriture. L'enjeu est significatif : les LLMs sont de plus en plus utilisés pour reformuler, condenser ou transformer des contenus, et ces opérations peuvent introduire ou amplifier des biais de genre — en assignant incorrectement un pronom masculin à une personne dont le genre est neutre ou non spécifié, par exemple. ProText va au-delà des benchmarks traditionnels de résolution de coréférence pronominale, en couvrant des textes stylistiquement variés et des cas plus complexes que le simple remplacement de pronom. Ce travail s'inscrit dans un effort plus large de la communauté NLP pour documenter et corriger les biais systémiques des modèles de langage. Les benchmarks existants se concentraient surtout sur des phrases courtes ou des contextes binaires, laissant peu de visibilité sur ce qui se passe dans des textes plus longs et nuancés. ProText vise à combler ce manque et à fournir un outil standardisé aux équipes qui évaluent l'équité et l'inclusivité de leurs systèmes d'IA.

RecherchePaper
1 source
La science casse les codes : l’IA crée ses premiers vaccins humains
4Le Big Data 

La science casse les codes : l’IA crée ses premiers vaccins humains

Des chercheurs de l'Université de Cambridge ont franchi une étape inédite dans l'histoire de la vaccination : un candidat vaccin contre les coronavirus, baptisé pEVAC-PS, conçu entièrement à l'aide de modèles d'intelligence artificielle, a été testé avec succès chez l'humain pour la première fois. L'essai de phase I a impliqué 39 volontaires sains qui ont reçu le vaccin par voie intradermique, sans aiguille. Aucun effet indésirable grave n'a été observé, et des signaux immunitaires ont été détectés contre plusieurs coronavirus distincts. Le vaccin a été développé en collaboration avec la société britannique DIOSynVax, qui ambitionne d'étendre la plateforme à d'autres agents pathogènes comme la grippe ou Ebola. Ce qui rend cette avancée significative, c'est l'approche adoptée pour contourner l'un des problèmes fondamentaux de la vaccinologie moderne : la dérive virale. Les coronavirus, comme les virus grippaux, mutent en permanence, rendant les vaccins existants progressivement moins efficaces. L'IA a permis ici d'identifier des zones structurellement stables, communes à plusieurs sarbecovirus, dont le SARS-CoV-2, le virus du SRAS de 2003 et des souches de coronavirus de chauve-souris à potentiel zoonotique. En ciblant ces régions conservées plutôt que des épitopes variables, le vaccin vise à entraîner le système immunitaire à reconnaître une famille entière de virus plutôt qu'un seul variant. C'est une stratégie qui pourrait transformer la manière dont l'humanité anticipe les pandémies, en passant d'une réponse réactive à une préparation proactive. Ce premier essai clinique s'inscrit dans un contexte de course mondiale à la prévention des prochaines crises sanitaires, accélérée par les leçons du Covid-19. Les gouvernements et institutions scientifiques cherchent des outils capables de réduire le délai entre l'émergence d'un nouveau pathogène et la mise à disposition d'un vaccin efficace. L'utilisation de l'IA pour la conception moléculaire représente une piste sérieuse : elle peut théoriquement compresser des années de tâtonnements expérimentaux en quelques mois de simulation computationnelle. Cela dit, les résultats immunitaires observés restent préliminaires et difficiles à interpréter, notamment parce que les volontaires avaient déjà été exposés au SARS-CoV-2 ou vaccinés contre le Covid-19. La prochaine étape, un essai de phase II avec un panel plus large de participants naïfs, sera déterminante pour évaluer l'efficacité réelle du pEVAC-PS. Cambridge et DIOSynVax ont encore plusieurs années de travail devant eux avant toute mise sur le marché, mais la preuve de concept est désormais posée.

UECette avancée de l'Université de Cambridge pourrait accélérer la préparation pandémique en Europe et nourrir les réflexions de l'EMA sur l'intégration de l'IA dans le développement de vaccins à large spectre contre les futures pandémies.

💬 C'est l'approche qui m'intéresse, pas le titre. Cibler les zones conservées plutôt que courir après chaque variant, c'est exactement le bon problème à résoudre, et l'IA est bien placée pour l'identifier parce qu'elle peut comparer des milliers de structures en un temps qu'aucun labo ne pourrait tenir manuellement. Phase I, 39 personnes, résultats préliminaires sur des gens déjà immunisés, bon, on reste loin d'une mise sur le marché. Mais la preuve que ça peut marcher en humain, c'était le verrou qui bloquait tout.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic