
Meta FAIR publie NeuralSet : un package Python pour la neuro-IA compatible fMRI, M/EEG, signaux neuronaux et embeddings HuggingFace
Le laboratoire FAIR de Meta a publié NeuralSet, un framework Python destiné à la recherche en Neuro-IA, dont l'objectif est de résoudre l'un des obstacles les plus tenaces du domaine : l'intégration des données cérébrales dans les pipelines d'apprentissage profond. Le projet s'appuie sur cinq abstractions centrales, Events, Extractors, Segments, Batch Data et une couche Backend, pour représenter toute expérience neuroscientifique sous forme de métadonnées légères et pilotées par événements, entièrement dissociées des signaux bruts, volumineux et coûteux en mémoire. Chaque enregistrement, qu'il s'agisse d'une session fMRI, d'un mot prononcé lors d'une tâche cognitive ou d'un stimulus vidéo, est modélisé comme un dictionnaire Python léger contenant un type, un temps de début, une durée et un identifiant de session. L'ensemble d'une étude est compilé dans un DataFrame pandas unique, ce qui permet de filtrer et de recombiner des jeux de données massifs sans charger un seul octet de signal en mémoire. Au moment du calcul effectif, des Extractors font le lien avec les bibliothèques spécialisées existantes : FmriExtractor délègue à Nilearn, tandis que MegExtractor et EegExtractor s'appuient sur MNE-Python. L'intégration native de l'écosystème HuggingFace permet d'aligner automatiquement les signaux neuronaux avec des embeddings issus de modèles comme DINOv2, CLIP, Wav2Vec, Whisper, GPT-2 ou LLaMA.
L'enjeu est considérable pour la communauté scientifique. Jusqu'à présent, les chercheurs en Neuro-IA devaient construire des pipelines ad hoc pour chaque expérience, avec manipulation manuelle des données, mise en cache artisanale et configurations backend complexes. NeuralSet rend ce travail d'infrastructure partageable et reproductible via des objets Chain chaînables et cachables. Pour les laboratoires qui travaillent avec les jeux de données publics d'OpenNeuro, désormais à l'échelle du téraoctet, ou avec des protocoles expérimentaux intégrant de la parole continue et de la vidéo, ce gain de temps représente des semaines de développement économisées par projet. Cela ouvre également la voie à des comparaisons directes entre modalités cérébrales différentes, fMRI, EEG, iEEG, fNIRS, EMG, spikes, en ne changeant qu'un paramètre de configuration.
La sortie de NeuralSet s'inscrit dans un mouvement plus large d'industrialisation des outils Neuro-IA, un champ à l'intersection des neurosciences computationnelles et des grands modèles de langage. Les outils historiques comme MNE-Python, Nilearn ou fMRIPrep, conçus avant l'ère du deep learning, n'étaient pas pensés pour l'alignement temporel avec des embeddings haute dimension ni pour le chargement paresseux de datasets massifs. FAIR, qui mène depuis plusieurs années des travaux sur la correspondance entre activité cérébrale et représentations de modèles d'IA, positionne NeuralSet comme une infrastructure commune pour accélérer cette recherche. Le framework est compatible avec les datasets au format BIDS, standard ouvert dominant en neuroimagerie, ce qui facilite son adoption immédiate sur les grandes bases publiques existantes.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




