Aller au contenu principal
RechercheMarkTechPost6sem

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Résumé IASource uniqueImpact UE
Source originale ↗·

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément.

Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite.

La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

Impact France/UE

L'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
1MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation
2MarkTechPost 

NVIDIA AI présente PivotRL : un nouveau framework d'IA atteignant une haute précision agentique avec 4 fois moins de tours de simulation

NVIDIA a présenté PivotRL, un nouveau cadre d'entraînement pour les grands modèles de langage (LLM) conçu pour les tâches agentiques complexes comme l'ingénierie logicielle, la navigation web ou l'utilisation d'outils. Développé par des chercheurs de NVIDIA, PivotRL réduit le nombre de tours de simulation nécessaires d'un facteur 4 tout en maintenant une précision élevée. Le système repose sur deux mécanismes clés : le « Pivot Filtering », qui identifie les étapes d'entraînement les plus instructives, et les « Functional Rewards », qui évaluent les actions par équivalence fonctionnelle plutôt que par correspondance exacte de texte. Ce framework s'attaque à un problème central dans le domaine : les méthodes de fine-tuning supervisé (SFT) sont peu coûteuses mais généralisent mal hors de leur domaine d'entraînement, tandis que l'apprentissage par renforcement de bout en bout (E2E RL) offre une meilleure généralisation mais exige des ressources de calcul considérables. PivotRL cherche à combiner le meilleur des deux approches en opérant sur des trajectoires SFT existantes, concentrant le calcul uniquement sur les états d'entraînement qui fournissent le signal d'apprentissage le plus fort. L'entraînement post-déploiement des LLM pour des agents autonomes est devenu l'un des défis majeurs de l'IA en 2025-2026, à mesure que l'industrie cherche à déployer des systèmes capables d'exécuter des tâches longues et complexes de manière fiable et économique.

RecherchePaper
1 source
Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines
3VentureBeat AI 

Un framework IA optimise automatiquement données, architectures et algorithmes, surpassant les performances humaines

Des chercheurs du Generative Artificial Intelligence Research Lab (SII-GAIR) ont présenté ASI-EVOLVE, un cadre agentique conçu pour automatiser l'ensemble du cycle de recherche et développement en intelligence artificielle. Le système opère en boucle continue selon quatre étapes, apprentissage, conception, expérimentation, analyse, et prend en charge simultanément trois piliers fondamentaux du développement IA : les données d'entraînement, les architectures de modèles et les algorithmes d'apprentissage. Lors des premières expérimentations, ASI-EVOLVE a généré de nouvelles architectures de modèles de langage, optimisé des pipelines de pré-entraînement pour améliorer les scores de référence de plus de 18 points, et conçu des algorithmes de renforcement nettement plus efficaces, surpassant dans chaque cas les configurations élaborées par des ingénieurs humains. Ce type de système répond à un problème structurel qui ralentit toute la recherche en IA : les équipes d'ingénierie ne peuvent explorer qu'une fraction infime de l'espace des configurations possibles. Chaque cycle d'expérimentation exige des interventions manuelles coûteuses, mobilise des dizaines voire des centaines d'heures de GPU, et les enseignements tirés restent souvent cloisonnés dans l'expérience individuelle des chercheurs, difficiles à capitaliser ou à transmettre. En automatisant cette boucle, ASI-EVOLVE libère les équipes de la charge opérationnelle répétitive et accélère mécaniquement le rythme d'innovation. Pour les organisations qui itèrent fréquemment sur leurs systèmes IA, le gain potentiel est à la fois en temps d'ingénierie et en qualité des résultats. L'architecture repose sur deux composants centraux. La "Cognition Base" fonctionne comme une mémoire experte préchargée : elle intègre des connaissances humaines issues de la littérature scientifique, des heuristiques propres à chaque tâche, et un catalogue des pièges connus, ce qui oriente les explorations dès la première itération plutôt que de repartir de zéro. L'"Analyzer" prend en charge le retour d'expérience multidimensionnel des expériences, logs d'entraînement bruts, résultats de benchmarks, traces d'efficacité computationnelle, pour en distiller des analyses causales réutilisables. Ce travail s'inscrit dans un contexte où l'IA commence à s'attaquer à la découverte scientifique, d'AlphaFold aux systèmes agentiques généralistes, mais où la recherche ouverte sur les fondations mêmes de l'IA reste un défi à part entière. ASI-EVOLVE représente l'une des premières démonstrations concrètes qu'un système unifié peut progresser simultanément sur les trois axes constitutifs du développement de modèles, ouvrant la voie à une automatisation plus profonde du cycle de R&D en IA.

RecherchePaper
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
4VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour