Aller au contenu principal
RechercheMarkTechPost2h· 2 min de lecture

Meta AI publie Brain2Qwerty v2 : un pipeline MEG non invasif qui décode des phrases tapées avec 61 % de précision au niveau des mots

Source originale ↗·

Meta AI a publié Brain2Qwerty v2, un système capable de décoder en temps réel des phrases tapées à partir d'enregistrements cérébraux non invasifs. La technologie repose sur la magnétoencéphalographie (MEG), qui mesure les champs magnétiques générés par l'activité neuronale pendant qu'une personne frappe sur un clavier, sans implant ni intervention chirurgicale. C'est la suite directe de Brain2Qwerty v1, sorti en février 2025. Le nouveau modèle atteint une précision moyenne de 61 % sur les mots (taux d'erreur de 39 %), contre seulement 8 % pour les méthodes non invasives précédentes. Le meilleur participant a atteint 78 % de précision, avec plus de la moitié des phrases comportant une erreur ou moins. Le système a été entraîné sur environ 22 000 phrases issues de neuf volontaires, chacun enregistré pendant dix heures, en collaboration avec le BCBL (Basque Center on Cognition, Brain and Language) en Espagne. Meta publie également le code d'entraînement complet des deux versions sous licence CC BY-NC 4.0.

Ces résultats représentent un saut qualitatif majeur pour les interfaces cerveau-machine sans chirurgie. Contrairement aux systèmes précédents qui s'appuyaient sur des pipelines manuels pour détecter des événements neuronaux précis, Brain2Qwerty v2 utilise un apprentissage profond de bout en bout. L'architecture repose sur trois composants : un encodeur convolutif qui extrait des caractéristiques directement depuis les signaux MEG bruts, un transformer qui modélise la structure temporelle du signal, et un modèle de langage au niveau des caractères qui oriente la sortie vers des textes plausibles. Des grands modèles de langage ont par ailleurs été affinés sur les données neuronales pour ajouter un contexte sémantique, permettant au décodeur de reconstituer des phrases cohérentes malgré le bruit inhérent aux enregistrements cérébraux. La précision croît de façon log-linéaire avec la quantité de données, ce qui laisse entrevoir un fort potentiel d'amélioration à mesure que les corpus s'élargissent.

Ces travaux s'inscrivent dans une compétition croissante autour des interfaces cerveau-machine, un secteur où Neuralink, la société d'Elon Musk, mise sur des implants invasifs pour atteindre des performances élevées. L'approche de Meta présente un avantage évident en termes d'accessibilité et d'éthique, puisqu'elle ne requiert aucune opération. En revanche, les appareils MEG restent aujourd'hui des équipements de laboratoire encombrants et coûteux, très loin d'un usage quotidien. Meta précise que Brain2Qwerty v2 est un projet de recherche, pas un produit, testé sur un échantillon limité dans des conditions contrôlées. Les applications à long terme visent en priorité les personnes atteintes de maladies paralysantes comme la SLA, pour qui un système de communication piloté par la pensée pourrait transformer radicalement la qualité de vie. La publication du code source ouvre la voie à des reproductions indépendantes et à de futures collaborations académiques.

Impact France/UE

La collaboration avec le BCBL (centre de recherche basque en Espagne) ancre ce projet dans l'espace européen, et le code publié en open source sous licence CC BY-NC 4.0 permet aux laboratoires de neurosciences de l'UE de reproduire et d'étendre ces travaux sur les interfaces cerveau-machine non invasives.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data 

Meta Brain2Qwerty v2 : L’IA qui traduit vos pensées en texte sans implant cérébral

Meta a présenté Brain2Qwerty v2, une version améliorée de son système de décodage cérébral capable de transformer des signaux neuronaux en texte tapé, sans aucune intervention chirurgicale. Pour fonctionner, le dispositif s'appuie sur un scanner MEG (magnétoencéphalographie) porté sur la tête, qui capte les infimes champs magnétiques produits par l'activité cérébrale pendant que l'utilisateur imagine taper sur un clavier. À la différence de la première version, qui décodait les lettres une par une, Brain2Qwerty v2 est capable d'interpréter des caractères, des mots et des phrases entières simultanément, grâce à une combinaison de Transformers, de réseaux neuronaux convolutifs et de grands modèles de langage agissant comme un correcteur contextuel. Le modèle a été entraîné sur environ 22 000 phrases produites par neuf volontaires, chacun ayant passé près de dix heures sous scanner. Résultat : une précision moyenne de 61 % dans la reconnaissance des mots, avec un pic à 78 % pour le meilleur participant et plus de la moitié des phrases décodées comportant une seule erreur. Pour les personnes atteintes de paralysie ou privées de la parole, cette avancée représente une piste sérieuse vers une communication autonome sans chirurgie. Les interfaces cerveau-ordinateur les plus précises, comme celles de Neuralink, nécessitent des électrodes implantées directement dans le cortex, avec tous les risques opératoires que cela implique. Brain2Qwerty v2 démontre qu'une approche entièrement non invasive peut produire des résultats comparables, même si les taux de précision restent encore en deçà des systèmes implantés. Pour l'industrie neurotechnologique au sens large, ce résultat déplace les lignes : il prouve que la précision de lecture cérébrale n'est pas l'apanage exclusif des implants, et ouvre un axe de recherche distinct. Meta s'inscrit dans une course technologique qui réunit des acteurs très différents : Neuralink côté implants, BrainGate pour la recherche académique, et désormais Meta sur le segment non invasif. L'entreprise a choisi de publier en open source le code d'entraînement et l'ensemble de données, une décision qui devrait accélérer les travaux d'autres laboratoires. Les obstacles restent néanmoins considérables : les scanners MEG sont des équipements encombrants, extrêmement coûteux et confinés aux environnements de recherche. Aucune perspective de produit grand public n'est envisageable à court terme. Mais le signal envoyé est clair : les interfaces cerveau-ordinateur sans chirurgie cessent d'être de la science-fiction pour devenir un domaine d'ingénierie à part entière, et Meta entend y jouer un rôle central.

UELa mise en open source du code d'entraînement et des données pourrait accélérer les travaux des laboratoires européens en neurotechnologie, sans impact direct identifiable sur la France ou l'UE à court terme.

RecherchePaper
1 source
Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises
2MarkTechPost 

Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises

Les équipes de recherche de Meta AI ont présenté EUPE (Efficient Universal Perception Encoder), une famille d'encodeurs visuels compacts de moins de 100 millions de paramètres capables de rivaliser avec des modèles spécialisés sur des tâches variées : classification d'images, segmentation dense, et questions-réponses visuelles. La publication, disponible sur arXiv sous la référence 2503.22387, expose une approche radicalement différente des méthodes existantes, notamment face à AM-RADIO et RADIOv2.5, les références actuelles en distillation multi-enseignants. Là où RADIOv2.5-B, sa variante à l'échelle ViT-B, accuse des écarts notables face aux experts de domaine sur les tâches denses, EUPE parvient à combler ces lacunes dans un format adapté aux appareils embarqués comme les smartphones ou les casques de réalité augmentée. L'enjeu est concret : déployer plusieurs encodeurs spécialisés en parallèle sur un appareil mobile est trop coûteux en calcul, mais n'en déployer qu'un seul signifie accepter des performances dégradées sur la plupart des tâches. EUPE change cette équation. Un seul modèle léger peut désormais gérer simultanément la compréhension visuelle globale, la détection de structures spatiales précises au niveau du pixel, et l'interaction avec des systèmes de langage visuel. Pour les développeurs d'applications mobiles, les fabricants de dispositifs AR ou les ingénieurs travaillant sur des pipelines d'IA embarquée, cela représente un gain substantiel en ressources sans sacrifice de polyvalence. La difficulté centrale que résout EUPE tient à un problème de capacité. Les modèles comme CLIP, SigLIP 2, DINOv2 ou SAM ont chacun été entraînés avec des objectifs distincts : paires texte-image pour les premiers, apprentissage auto-supervisé structurel pour le second, segmentation massive pour le troisième. Les tentatives précédentes de fusionner ces expertises par distillation agglomérative, où un modèle étudiant imite plusieurs enseignants spécialistes simultanément, donnaient de bons résultats sur de grands encodeurs dépassant 300 millions de paramètres, mais échouaient sur les architectures efficientes. La solution proposée par Meta suit un principe en deux temps : agrandir d'abord, puis réduire. Un modèle intermédiaire de grande taille absorbe les représentations des différents enseignants, avant d'être distillé à son tour dans l'encodeur compact final. Cette étape intermédiaire fournit au petit modèle une représentation unifiée et déjà réconciliée, plutôt qu'une collection brute de signaux contradictoires. La publication positionne EUPE comme une brique fondamentale pour la prochaine génération d'IA on-device, dans un contexte où Apple, Google et Qualcomm intensifient également leurs efforts pour faire tourner des modèles multimodaux directement sur le matériel utilisateur.

💬 Le problème des encodeurs visuels embarqués, c'est exactement ça : soit tu empiles plusieurs spécialistes et ça explose ton budget calcul, soit tu fais des compromis douloureux. L'approche "agrandir puis distiller" de Meta est maline, parce qu'elle donne au petit modèle une représentation déjà digérée plutôt que de lui coller des signaux contradictoires à réconcilier lui-même. Reste à voir ce que ça donne sur du vrai hardware, pas juste sur les benchmarks arXiv.

RecherchePaper
1 source
Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques
3MarkTechPost 

Décodage cérébral MEG de bout en bout via NeuralSet et apprentissage profond pour prédire les traits linguistiques

Des chercheurs en neuroIA ont publié un tutoriel détaillant la construction d'un pipeline complet de décodage cérébral à partir de signaux MEG (magnétoencéphalographie), une technique d'imagerie cérébrale non invasive qui mesure les champs magnétiques produits par l'activité électrique des neurones. L'objectif concret du projet : prédire la longueur des mots qu'une personne lit ou entend, uniquement à partir des signaux cérébraux bruts, sans aucun autre indice. Pour y parvenir, l'équipe s'appuie sur deux bibliothèques Python dédiées, NeuralSet et NeuralFetch, couplées à PyTorch pour l'entraînement d'un réseau de neurones convolutif (CNN). Le pipeline transforme les données MEG en événements temporels structurés, extrait des caractéristiques linguistiques via un extracteur personnalisé nommé CharCount, puis entraîne le modèle à reconnaître les patterns spatiaux et temporels associés au traitement du langage dans le cerveau. Ce type de pipeline représente une avancée méthodologique importante pour la recherche en interface cerveau-machine, un domaine jusqu'ici freiné par la complexité de traitement des signaux neuronaux bruts. En proposant un workflow modulaire et reproductible, avec gestion des dépendances, graine aléatoire fixée pour la reproductibilité, et catalogage automatique des jeux de données MEG disponibles, les auteurs offrent aux équipes de recherche une base de travail standardisée. L'enjeu pratique est considérable : décoder des features linguistiques à partir d'activité cérébrale ouvre la voie à des systèmes de communication pour des patients atteints de paralysie ou de maladies neurodégénératives comme la SLA, sans implants chirurgicaux invasifs. Ce projet s'inscrit dans une dynamique plus large qui voit la neuroIA attirer des investissements massifs et des équipes de recherche de premier plan. Meta AI a démontré en 2023 qu'il était possible de décoder la parole perçue à partir de signaux MEG avec une précision inédite grâce à des architectures Transformer. OpenAI, DeepMind et plusieurs startups spécialisées comme Synchron ou Precision Neuroscience explorent parallèlement des approches invasives via des électrodes corticales. La particularité de l'approche MEG non invasive est qu'elle ne nécessite pas d'intervention chirurgicale, mais elle souffre d'une résolution spatiale plus faible que les implants. L'utilisation de CNN pour capturer les structures spatio-temporelles des signaux MEG reste un compromis efficace, et la publication de frameworks open source comme NeuralSet devrait accélérer la standardisation des protocoles expérimentaux, facilitant la comparaison entre études et la montée en puissance de modèles de décodage plus robustes dans les années à venir.

RecherchePaper
1 source
Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain
4Le Big Data 

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Meta a présenté le 26 mars 2026 TRIBE v2 (Trimodal Brain Encoder), un modèle d'intelligence artificielle open source capable de prédire l'activité cérébrale humaine en réponse à une image, un son ou un texte. Entraîné sur plus de 500 heures d'enregistrements IRM fonctionnelle issus de plus de 700 participants, le modèle simule l'activation de près de 70 000 voxels cérébraux — des unités tridimensionnelles qui traduisent les variations de flux sanguin dans le cerveau. Son architecture repose sur trois étages : des encodeurs spécialisés par modalité (V-JEPA pour la vision, Wav2Vec2-BERT pour l'audio, Llama 3.x pour le texte), un module Transformer qui aligne ces signaux dans le temps pour tenir compte du délai entre perception et activation cérébrale, puis une couche de projection qui produit une carte prédictive des activations. Les performances annoncées sont deux à trois fois supérieures aux approches antérieures, et le modèle fonctionne en zero-shot : il prédit l'activité d'un nouveau sujet sans recalibrage individuel préalable, ce qui est rare dans ce domaine. Cette capacité de généralisation change la donne pour la recherche en neurosciences cognitives. Jusqu'ici, tout travail d'exploration cérébrale exigeait un accès à un scanner IRM, une infrastructure lourde et coûteuse. TRIBE v2 ouvre la possibilité de simuler des réponses cérébrales à grande échelle, à partir de n'importe quel contenu numérique, sans contrainte matérielle. Pour les chercheurs en perception sensorielle, en troubles cognitifs ou en interfaces cerveau-machine, cela représente un accélérateur potentiel considérable. Dans l'industrie, le modèle pourrait être utilisé pour évaluer l'impact attentionnel d'un contenu publicitaire, d'une interface ou d'un environnement sonore — des applications qui posent déjà des questions éthiques sur l'usage de modèles prédictifs du comportement cérébral. TRIBE v2 s'inscrit dans une trajectoire entamée avec la première version du modèle, qui avait remporté l'Algonauts 2025 Brain Encoding Challenge, une compétition internationale de référence sur la prédiction de l'activité cérébrale. Meta franchit ici une étape qualitative en passant d'un modèle sujet-spécifique à un modèle généraliste, capable de capturer des régularités cérébrales communes à travers une population large et diversifiée. La décision de publier TRIBE v2 en open source reflète la stratégie globale de Meta AI en matière de recherche fondamentale : rendre les outils disponibles à la communauté scientifique pour accélérer l'adoption et positionner l'entreprise comme acteur central de l'IA cognitive. Reste à voir comment la communauté s'emparera de ces capacités, et quels garde-fous encadreront des usages potentiellement intrusifs de la modélisation cérébrale prédictive.

UELes chercheurs européens en neurosciences cognitives peuvent accéder librement à TRIBE v2 pour simuler des réponses cérébrales à grande échelle sans infrastructure IRM, ouvrant de nouvelles perspectives pour la recherche sur les troubles cognitifs et les interfaces cerveau-machine.

💬 Le zero-shot sur des prédictions d'activité cérébrale, c'est le truc qui m'impressionne ici, pas la com' de Meta. Jusqu'ici, tout modèle de ce genre demandait un recalibrage par sujet, une IRM, une infra complète — là, tu balances un contenu, le modèle te sort une carte d'activation sans scanner. La question c'est pas si la recherche en neurosciences va s'en emparer, c'est si les équipes pub' vont l'utiliser avant elles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic