Aller au contenu principal
Meta publie TRIBE v2 : un modèle de codage cérébral qui prédit les réponses IRM fonctionnelle aux stimuli vidéo, audio et texte
RechercheMarkTechPost2h

Meta publie TRIBE v2 : un modèle de codage cérébral qui prédit les réponses IRM fonctionnelle aux stimuli vidéo, audio et texte

1 source couvre ce sujet·Source originale ↗·

L'équipe FAIR de Meta a publié TRIBE v2, un modèle fondationnel trimodal capable de prédire les réponses cérébrales mesurées par IRM fonctionnelle (fMRI) à partir de stimuli vidéo, audio et textuels combinés. Le modèle repose sur trois encodeurs spécialisés — LLaMA 3.2-3B pour le texte, V-JEPA2-Giant pour la vidéo, et Wav2Vec-BERT 2.0 pour l'audio — dont les représentations sont fusionnées dans un Transformer à 8 couches analysant des fenêtres temporelles de 100 secondes. Le résultat est ensuite projeté sur 20 484 vertices corticaux et 8 802 voxels sous-corticaux pour produire une carte haute résolution de l'activité cérébrale. L'entraînement a mobilisé 451,6 heures de données fMRI issues de 25 sujets, et l'évaluation a porté sur 1 117,7 heures couvrant 720 sujets supplémentaires.

TRIBE v2 surpasse significativement les modèles FIR (Finite Impulse Response), qui constituaient jusqu'ici l'étalon-or en encodage cérébral voxel par voxel. Sa capacité la plus frappante est la généralisation zéro-shot : sans avoir jamais vu un sujet, le modèle prédit la réponse moyenne d'un nouveau groupe avec une précision supérieure à celle de nombreux enregistrements individuels au sein de ce même groupe. Sur le jeu de données Human Connectome Project 7T à haute résolution, il atteint une corrélation de groupe proche de 0,4 — soit le double de la médiane des sujets. Avec seulement une heure de données d'un nouveau sujet, le modèle peut en outre être affiné pour des prédictions individualisées. Les chercheurs observent une progression log-linéaire de la précision avec le volume de données d'entraînement, sans plateau visible.

La neuroscience cognitive a longtemps fonctionné par fragmentation : chaque région cérébrale étudiée séparément, chaque modalité sensorielle modélisée indépendamment. TRIBE v2 s'inscrit dans une tendance inverse, celle des modèles fondationnels multimodaux capables de capturer la manière dont le cerveau intègre simultanément sons, images et langage dans des conditions naturelles — des films, des podcasts, des vidéos silencieuses. Cette approche ouvre la voie à une neuroscience computationnelle plus écologique, capable d'étudier le cerveau tel qu'il fonctionne vraiment, et non dans des paradigmes expérimentaux artificiels. À mesure que les bases de données de neuroimagerie s'agrandiront, la puissance prédictive de tels modèles devrait continuer à croître, avec des applications potentielles en psychiatrie computationnelle, en interfaces cerveau-machine, et dans la compréhension des mécanismes cognitifs sous-jacents à la perception multimodale.

À lire aussi

1Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
2Next INpact 

Le WorldModel : comment Yann LeCun et son équipe veulent révolutionner l’IA

Yann LeCun, figure emblématique de l'intelligence artificielle et ancien responsable de la recherche IA chez Meta, a fondé début 2025 AMI Labs (Advanced Machine Intelligence) avec d'autres chercheurs de renom. En mars 2025, la start-up levait 890 millions d'euros, signalant d'emblée des ambitions considérables. Elle vient de présenter son premier modèle : LeWorldModel (LeWM), un système capable d'apprendre à partir d'images et de vidéos, puis d'anticiper ce qui va se passer à partir d'actions données. Techniquement, il repose sur l'architecture JEPA (Joint Embedding Predictive Architecture) et intègre un mécanisme appelé SIGReg — un régulariseur gaussien simple — pour éviter l'effondrement des représentations internes. Le modèle s'entraîne de bout en bout directement depuis les pixels, avec seulement deux termes de perte, et atteint des performances de contrôle comparables aux meilleurs systèmes existants, mais pour une fraction du coût de calcul habituel. Cette approche tranche radicalement avec celle des grands modèles de langage (LLM) comme GPT-4 ou Gemini, qui apprennent le monde à travers du texte. LeWM apprend à partir de la perception visuelle et de l'interaction avec l'environnement — plus proche de la façon dont un animal ou un enfant se construit une représentation du réel. L'enjeu est crucial : les LLM actuels nécessitent des ressources de calcul colossales (une seule requête à ChatGPT mobilise déjà des centaines de milliards d'opérations), et leur taille en paramètres explose à chaque nouvelle génération. Si LeWM tient ses promesses d'efficacité, il pourrait offrir une alternative moins gourmande en énergie et en infrastructure, rendant des systèmes d'IA avancés accessibles à bien plus d'acteurs. LeCun défend cette direction depuis plus de quatre ans : il plaide pour une IA capable de « raisonner comme les animaux et les humains », ancrée dans la perception et l'action plutôt que dans la prédiction de tokens. Son départ de Meta lui a permis de concrétiser cette vision sans les contraintes d'un grand groupe. AMI Labs s'inscrit dans un mouvement plus large de remise en question du paradigme LLM, porté également par des chercheurs comme Yoshua Bengio ou des startups comme World Labs de Fei-Fei Li, qui misent toutes sur des représentations du monde physique. La levée de fonds massive donne à LeCun les moyens de ses ambitions — mais LeWM reste pour l'instant un premier prototype, et la route vers une IA véritablement « embodied » et généraliste reste longue et incertaine.

RecherchePaper
1 source
3Numerama 

15 millions de paramètres et 1 seul GPU : Yann LeCun fait un premier pas vers l’IA qui comprend le monde réel

Yann LeCun, directeur scientifique de Meta AI et figure emblématique de l'apprentissage profond, vient de co-publier LeWorldModel, un modèle de 15 millions de paramètres capable de s'entraîner directement à partir de pixels bruts sur un seul GPU, sans instabilité d'entraînement. Ce travail, fruit d'une collaboration avec un consortium de chercheurs en IA, représente une première démonstration concrète de la vision de LeCun pour une IA capable de comprendre le monde physique. L'annonce intervient en parallèle du lancement d'AMI Labs, sa nouvelle startup fondée en France, dont les premières recherches n'ont pas encore été rendues publiques. La capacité à apprendre depuis des pixels bruts sans instabilité est un verrou technique majeur : la plupart des modèles existants nécessitent des données prétraitées ou des architectures complexes pour rester stables durant l'entraînement. Avec 15 millions de paramètres seulement — soit une fraction infime des grands modèles de langage — LeWorldModel ouvre la voie à des systèmes embarquables dans des robots ou des appareils à ressources limitées, capables de percevoir et d'anticiper leur environnement physique en temps réel. Ce développement s'inscrit dans la longue campagne de LeCun contre les grands modèles de langage, qu'il juge insuffisants pour atteindre une intelligence générale. Depuis plusieurs années, il défend l'architecture JEPA (Joint Embedding Predictive Architecture), centrée sur la prédiction dans un espace de représentations plutôt que sur la génération de tokens. LeWorldModel constitue une preuve de concept partielle de cette approche. Avec AMI Labs désormais opérationnel en France, LeCun entend accélérer cette recherche vers des IA capables d'agir dans le monde réel — un chantier qui pourrait redéfinir la robotique et l'IA incarnée dans les prochaines années.

UEAMI Labs, la startup de LeCun fondée en France, ancre directement cette recherche sur l'IA incarnée sur le territoire français, avec des retombées potentielles pour l'écosystème robotique et IA européen.

RecherchePaper
1 source
4TechCrunch AI 

Décan AI, rivale de Mercor, obtient 25 millions de dollars en financement et recrute des experts en provenance d'Inde

Paragraphe 1: Le 28 avril dernier, Deccan AI, un concurrent de Mercor, a annoncé une levée de fonds de 25 millions de dollars pour renforcer sa présence en Inde. Cette entreprise s'est spécialisée dans l'embauche de professionnels locaux pour gérer la qualité dans un marché naissant et dispersé d'entraînement en intelligence artificielle (IA). Paragraphe 2: Cette initiative est cruciale car elle permet à Deccan AI de tirer parti des compétences pointues en IA de l'Inde, un pays qui a rapidement gagné en réputation dans ce domaine. En concentrant ses ressources humaines localisées, Deccan vise à se démarquer dans un marché fragmenté où la qualité et l'efficacité sont essentielles pour attirer des clients. Cette stratégie pourrait non seulement renforcer sa position concurrentielle face à Mercor, mais aussi contribuer au leadership global de l'Inde dans l'industrie de l'IA. Paragraphe 3: Ce mouvement se produit alors que l'intérêt mondial pour les solutions d'IA continue de croître, avec un accent particulier sur la qualité et l'efficacité des systèmes d'apprentissage automatique. En s'appuyant sur le talent local, Deccan AI cherche à répondre efficacement à cette demande croissante tout en renforçant sa propre capacité innovante dans un secteur de plus en plus compétitif.

RechercheReglementation
1 source