Aller au contenu principal
RechercheMarkTechPost3sem

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Résumé IASource uniqueImpact UE
Source originale ↗·

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément.

Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite.

La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

Impact France/UE

L'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
1MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation
2MarkTechPost 

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

NVIDIA a présenté PivotRL, un nouveau cadre d'entraînement pour les grands modèles de langage (LLM) conçu pour les tâches agentiques complexes comme l'ingénierie logicielle, la navigation web ou l'utilisation d'outils. Développé par des chercheurs de NVIDIA, PivotRL réduit le nombre de tours de simulation nécessaires d'un facteur 4 tout en maintenant une précision élevée. Le système repose sur deux mécanismes clés : le « Pivot Filtering », qui identifie les étapes d'entraînement les plus instructives, et les « Functional Rewards », qui évaluent les actions par équivalence fonctionnelle plutôt que par correspondance exacte de texte. Ce framework s'attaque à un problème central dans le domaine : les méthodes de fine-tuning supervisé (SFT) sont peu coûteuses mais généralisent mal hors de leur domaine d'entraînement, tandis que l'apprentissage par renforcement de bout en bout (E2E RL) offre une meilleure généralisation mais exige des ressources de calcul considérables. PivotRL cherche à combiner le meilleur des deux approches en opérant sur des trajectoires SFT existantes, concentrant le calcul uniquement sur les états d'entraînement qui fournissent le signal d'apprentissage le plus fort. L'entraînement post-déploiement des LLM pour des agents autonomes est devenu l'un des défis majeurs de l'IA en 2025-2026, à mesure que l'industrie cherche à déployer des systèmes capables d'exécuter des tâches longues et complexes de manière fiable et économique.

RecherchePaper
1 source
Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines
3VentureBeat AI 

Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines

Des chercheurs du Generative Artificial Intelligence Research Lab (SII-GAIR) ont présenté ASI-EVOLVE, un cadre agentique conçu pour automatiser l'ensemble du cycle de recherche et développement en intelligence artificielle. Le système opère en boucle continue selon quatre étapes, apprentissage, conception, expérimentation, analyse, et prend en charge simultanément trois piliers fondamentaux du développement IA : les données d'entraînement, les architectures de modèles et les algorithmes d'apprentissage. Lors des premières expérimentations, ASI-EVOLVE a généré de nouvelles architectures de modèles de langage, optimisé des pipelines de pré-entraînement pour améliorer les scores de référence de plus de 18 points, et conçu des algorithmes de renforcement nettement plus efficaces, surpassant dans chaque cas les configurations élaborées par des ingénieurs humains. Ce type de système répond à un problème structurel qui ralentit toute la recherche en IA : les équipes d'ingénierie ne peuvent explorer qu'une fraction infime de l'espace des configurations possibles. Chaque cycle d'expérimentation exige des interventions manuelles coûteuses, mobilise des dizaines voire des centaines d'heures de GPU, et les enseignements tirés restent souvent cloisonnés dans l'expérience individuelle des chercheurs, difficiles à capitaliser ou à transmettre. En automatisant cette boucle, ASI-EVOLVE libère les équipes de la charge opérationnelle répétitive et accélère mécaniquement le rythme d'innovation. Pour les organisations qui itèrent fréquemment sur leurs systèmes IA, le gain potentiel est à la fois en temps d'ingénierie et en qualité des résultats. L'architecture repose sur deux composants centraux. La "Cognition Base" fonctionne comme une mémoire experte préchargée : elle intègre des connaissances humaines issues de la littérature scientifique, des heuristiques propres à chaque tâche, et un catalogue des pièges connus, ce qui oriente les explorations dès la première itération plutôt que de repartir de zéro. L'"Analyzer" prend en charge le retour d'expérience multidimensionnel des expériences, logs d'entraînement bruts, résultats de benchmarks, traces d'efficacité computationnelle, pour en distiller des analyses causales réutilisables. Ce travail s'inscrit dans un contexte où l'IA commence à s'attaquer à la découverte scientifique, d'AlphaFold aux systèmes agentiques généralistes, mais où la recherche ouverte sur les fondations mêmes de l'IA reste un défi à part entière. ASI-EVOLVE représente l'une des premières démonstrations concrètes qu'un système unifié peut progresser simultanément sur les trois axes constitutifs du développement de modèles, ouvrant la voie à une automatisation plus profonde du cycle de R&D en IA.

RecherchePaper
1 source
SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques
4arXiv cs.RO 

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Des chercheurs ont publié sur arXiv une méthode appelée SMP (Score-Matching Motion Priors), conçue pour rendre les personnages virtuels animés par simulation physique capables de mouvements naturels, sans avoir à tout réentraîner à chaque nouveau projet. La technique repose sur des modèles de diffusion de mouvement pré-entraînés combinés à une technique baptisée score distillation sampling (SDS), empruntée au domaine de la génération 3D à partir de texte. Le principe : entraîner une fois un prior de mouvement sur un grand corpus de données de capture de mouvement, puis le geler et le réutiliser comme fonction de récompense universelle pour entraîner n'importe quelle nouvelle politique de contrôle sur des tâches variées. L'enjeu est considérable pour les studios de jeux vidéo, les équipes de simulation robotique et les développeurs d'avatars en réalité virtuelle. Jusqu'ici, la méthode dominante reposait sur l'apprentissage par imitation adversariale, efficace mais contraignante : chaque nouveau contrôleur nécessitait un réentraînement complet du prior, et les données de référence devaient être conservées à chaque étape. SMP rompt avec cette logique en proposant un prior généraliste, modulable et composable. Les auteurs montrent qu'un seul modèle entraîné sur de larges datasets peut être redirigé vers des styles de mouvement spécifiques, et que plusieurs styles peuvent être composés pour en synthétiser de nouveaux, absents du dataset original. Cette avancée s'inscrit dans une tendance plus large d'adaptation des modèles de diffusion, popularisés en génération d'images, à d'autres modalités comme le mouvement corporel. Les méthodes adversariales, issues des GANs, ont longtemps dominé la synthèse de mouvements réalistes pour personnages humanoïdes simulés physiquement, mais leur manque de réutilisabilité freinait leur déploiement à grande échelle dans des pipelines de production. SMP propose une alternative modulaire qui pourrait simplifier le développement de personnages animés dans les moteurs physiques, sans sacrifier la qualité visuelle. Les résultats présentés sur une suite diversifiée de tâches de contrôle montrent des performances comparables aux meilleures méthodes adversariales actuelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour