Aller au contenu principal
Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
RechercheMarkTechPost6sem· 2 min de lecture

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

Source originale ↗·

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought.

L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés.

Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

Impact France/UE

Les laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
1VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
2MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source
Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données
3MarkTechPost 

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper
1 source
4MarkTechPost 

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément. Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite. La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

UEL'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic