Aller au contenu principal
Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage
RechercheMarkTechPost2sem

Implémentation de Microsoft OpenMementos : analyse des traces, compression de contexte et préparation des données d'affinage

Résumé IASource uniqueImpact UE
Source originale ↗·

Microsoft a publié OpenMementos, un jeu de données conçu pour entraîner des modèles de langage capables de raisonnement long, structuré et compressible. Le dataset, disponible sur HuggingFace sous l'identifiant microsoft/OpenMementos, organise chaque trace de raisonnement en une série de blocs délimités par des tokens spéciaux (<|blockstart|>, <|blockend|>) accompagnés chacun de leur résumé condensé, appelé memento, encadré par <|summarystart|> et <|summaryend|>. Un tutoriel technique détaillé, conçu pour fonctionner directement dans Google Colab, montre comment accéder au dataset en mode streaming sans le télécharger intégralement, analyser sa structure interne, mesurer les taux de compression bloc-par-bloc sur 500 exemples répartis selon le domaine et la source, puis préparer les données pour un fine-tuning supervisé. L'ensemble du pipeline repose sur des bibliothèques Python standard : HuggingFace Datasets, Transformers, Pandas et Matplotlib.

La valeur centrale d'OpenMementos réside dans son architecture de compression. Chaque réponse longue d'un modèle de raisonnement est découpée en blocs discrets, puis chaque bloc est automatiquement réduit à un memento de quelques phrases. Le tutoriel mesure ce rapport de compression en caractères et en mots par domaine, révélant à quel point les mementos permettent de préserver l'essentiel du raisonnement avec une fraction du volume textuel. Cette structure est directement exploitable pour l'entraînement : plutôt que de forcer un modèle à reproduire intégralement des chaînes de pensée verbeuses, on peut l'entraîner à produire des résumés intermédiaires compacts, ce qui réduit les coûts de calcul à l'inférence tout en maintenant la cohérence logique sur des problèmes complexes.

Ce travail s'inscrit dans une tendance de fond qui agite les laboratoires d'IA depuis fin 2024 : comment rendre les modèles de raisonnement économiquement viables. Les approches chain-of-thought et les architectures de type "thinking model", popularisées par OpenAI avec o1 puis par DeepSeek-R1 et Qwen-QwQ, génèrent des traces de raisonnement extrêmement longues et coûteuses à stocker, transmettre et inférer. Microsoft répond à ce défi avec une solution de compression supervisée des traces, en annotant explicitement les résumés intermédiaires au niveau des blocs. OpenMementos fournit ainsi une base d'entraînement structurée pour des modèles capables de "penser de façon compacte", une propriété qui pourrait devenir déterminante à mesure que les applications industrielles exigent des latences et des coûts d'inférence maîtrisés sur des tâches de raisonnement multi-étapes.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents
1MarkTechPost 

Implémentation pratique : analyse, visualisation et affinage de traces de raisonnement d'agents

Un tutoriel de programmation publié récemment propose une approche complète pour exploiter le jeu de données lambda/hermes-agent-reasoning-traces, une collection structurée de traces de raisonnement issues de modèles d'agents IA. Le guide couvre quatre étapes distinctes : le chargement et l'inspection du dataset, la construction de parseurs pour extraire les composants clés (traces de réflexion, appels d'outils, réponses), l'analyse statistique des comportements (fréquence d'utilisation des outils, longueur des conversations, taux d'erreurs), et enfin la conversion du dataset dans un format compatible avec l'entraînement supervisé. Le dataset est disponible en plusieurs configurations, notamment "kimi" et "glm-5.1", correspondant à des architectures d'agents différentes, et peut être chargé via la bibliothèque Hugging Face datasets. Les outils utilisés incluent Python 3, pandas, matplotlib, seaborn, transformers, accelerate et trl. Comprendre comment un agent IA raisonne en interne avant d'agir est un enjeu clé pour quiconque cherche à améliorer, déboguer ou affiner ces systèmes. Ce tutoriel permet de séparer concrètement la "pensée" interne d'un modèle (blocs `) de ses actions externes (blocs ) et des retours qu'il reçoit (), grâce à des parseurs basés sur des expressions régulières. Cette granularité est précieuse pour les équipes qui développent des agents autonomes : elle permet de détecter des comportements anormaux, d'identifier des appels d'outils malformés, ou de repérer des patterns de raisonnement défaillants avant de lancer un cycle de fine-tuning. La dernière étape du guide, la préparation du dataset pour le supervised fine-tuning (SFT), rend les données directement exploitables avec des frameworks comme TRL de Hugging Face. Le dataset hermes-agent-reasoning-traces` s'inscrit dans un mouvement plus large de publication de données d'entraînement spécialisées pour les agents IA multi-tours, capables d'utiliser des outils externes. Avec l'essor des architectures de type "agentic" dans des produits comme les assistants à code, les agents de recherche ou les copilotes professionnels, la qualité des traces de raisonnement utilisées pour l'entraînement devient un levier différenciant. Des acteurs comme Lambda, Kimi (Moonshot AI) ou encore les équipes derrière GLM (Tsinghua/Zhipu AI) contribuent à cet écosystème de données ouvertes. La tendance va vers des modèles capables de justifier leurs décisions étape par étape, ce qui exige précisément le type d'infrastructure d'analyse décrite dans ce tutoriel. Les prochaines évolutions pourraient inclure des métriques automatisées de qualité du raisonnement ou des benchmarks standardisés sur ce type de traces.

💬 Ce dataset de traces de raisonnement, c'est du matériel brut pour quiconque entraîne ou débogue un agent en ce moment. La partie intéressante c'est moins le fine-tuning que l'analyse en amont : repérer les appels d'outils malformés ou les boucles de raisonnement avant de lancer un cycle d'entraînement, ça évite de brûler des GPU pour rien. Reste que les configs "kimi" et "glm-5.1" sont assez spécifiques, difficile de généraliser sans retravailler les parseurs de fond en comble.

LLMsTuto
1 source
2MarkTechPost 

TabPFN : comment l'apprentissage en contexte surpasse Random Forest et CatBoost sur les données tabulaires

TabPFN-2.5, un modèle de fondation pour données tabulaires développé par Prior Labs, s'impose comme un concurrent sérieux face aux références historiques du machine learning structuré que sont Random Forest, XGBoost et CatBoost. Contrairement à ces modèles entraînés spécifiquement sur chaque jeu de données, TabPFN est pré-entraîné sur des millions de tâches synthétiques générées à partir de processus causaux. Lors des tests comparatifs sur un jeu de données de classification binaire contenant 5 000 échantillons et 20 variables (dont 10 informatives et 5 redondantes), TabPFN surpasse les modèles à base d'arbres de décision en termes de précision tout en éliminant la phase d'entraînement itératif classique. Il obtient ses prédictions directement, sans ajustement des hyperparamètres, en s'appuyant uniquement sur ce qu'il a déjà appris. Ce changement de paradigme est significatif pour les praticiens du machine learning. Pendant des années, les modèles à arbres ont dominé les données tabulaires, la forme la plus répandue en entreprise, de la santé à la finance, car les réseaux de neurones profonds n'arrivaient pas à les battre de manière cohérente sur ce format. TabPFN-2.5 renverse cette tendance en appliquant le principe d'apprentissage en contexte aux données structurées, à l'image de ce que font les grands modèles de langage pour le texte. Il se montre compétitif face à des systèmes d'ensemble puissants comme AutoGluon, tout en réduisant drastiquement le temps et l'effort de mise en oeuvre. Pour les équipes data qui passent des heures à optimiser des pipelines ML, c'est une promesse concrète de gain de productivité. Les données tabulaires représentent la grande majorité des cas d'usage réels en machine learning industriel, un domaine longtemps considéré comme l'apanage des modèles classiques. L'essor des modèles de fondation généralistes, d'abord dans le langage, puis dans l'image, laissait entrevoir cette évolution vers le tabular, mais les tentatives précédentes restaient limitées en taille et en performance. TabPFN-2.5 franchit un cap en prenant en charge des jeux de données plus larges et plus complexes que ses versions antérieures. Prior Labs propose également une approche de distillation permettant de convertir les prédictions de TabPFN en modèles plus légers (réseaux de neurones ou ensembles d'arbres), préservant l'essentiel de la précision tout en accélérant l'inférence pour la production. La prochaine étape sera de valider ces résultats à grande échelle sur des benchmarks industriels diversifiés, mais la direction est claire : les modèles de fondation s'attaquent désormais au coeur du machine learning appliqué.

UEPrior Labs, entreprise allemande, porte cette avancée depuis l'UE, offrant aux équipes data européennes un outil réduisant significativement le temps de développement de pipelines ML sur données tabulaires.

RecherchePaper
1 source
AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA
3Amazon Science 

AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA

Amazon Web Services (AWS) et l'université Johns Hopkins ont annoncé le lancement de l'Antibody Developability Benchmark, une base de données publique destinée à accélérer la conception d'anticorps thérapeutiques par intelligence artificielle. Ce jeu de données est 20 fois plus diversifié que les benchmarks existants dans la littérature scientifique, couvrant 50 anticorps de référence, plusieurs formats structuraux, cibles et profils biophysiques. Le projet est né d'une collaboration entre l'équipe Amazon Bio Discovery d'AWS et le Gray Lab du département de génie chimique et biomoléculaire de Johns Hopkins, dirigé par le professeur Jeffrey Gray, créateur original de RosettaDock, un outil de référence pour la prédiction de structures de complexes protéiques. Ce benchmark comble un manque critique qui freinait depuis des années le développement d'outils d'IA fiables pour la découverte de médicaments. Les modèles de langage protéique (pLM) et les architectures de deep learning structurel promettent de prédire la "développabilité" des anticorps, c'est-à-dire leur capacité à être fabriqués, stabilisés et administrés sans danger comme médicament. Or, comme l'a souligné Jeffrey Gray, les benchmarks internes de son laboratoire montraient que les modèles actuels échouaient encore à prédire des propriétés critiques comme la solubilité ou la spécificité. Sans données publiques suffisamment larges, diversifiées et collectées dans des conditions standardisées, il était impossible d'évaluer rigoureusement ces outils, ni de les améliorer de manière fiable. La nouvelle base de données répond directement à cette contrainte en fournissant des mesures biophysiques et biochimiques à grande échelle pour un espace de séquences représentatif du travail réel d'ingénierie des anticorps. Depuis 1986, date à laquelle la FDA américaine a approuvé son premier anticorps thérapeutique, les progrès ont été réels mais les délais et coûts de développement restent prohibitifs. Les pandémies récentes ont mis en lumière l'urgence de disposer d'outils capables d'identifier et d'optimiser rapidement ces molécules. Les modèles de fondation biologiques (BioFM) représentent une voie prometteuse, mais leur crédibilité repose sur leur capacité à être évalués contre des données expérimentales solides. Les datasets publics existants souffraient d'un biais structurel majeur : ils se concentraient sur un seul format d'anticorps, une seule cible, ou ne contenaient que des molécules naturelles ou cliniquement avancées, peu représentatives des défis réels de conception. En rendant publique cette base de données hétérogène et à grande échelle, AWS et Johns Hopkins espèrent catalyser une nouvelle génération d'outils in silico capables de raccourcir significativement les timelines de découverte, avec des implications directes pour la réponse aux crises sanitaires futures.

UELes laboratoires pharmaceutiques et équipes de recherche européens pourront exploiter ce benchmark public pour évaluer et améliorer leurs propres modèles d'IA appliqués à la conception d'anticorps thérapeutiques.

RecherchePaper
1 source
Planification de trajectoires multi-robots et détection de comportements aberrants
4arXiv cs.RO 

Planification de trajectoires multi-robots et détection de comportements aberrants

Des chercheurs ont publié une nouvelle méthode permettant de détecter automatiquement les comportements anormaux dans des flottes de robots autonomes hétérogènes, dans un article référencé arXiv:2510.17261. Le système repose sur deux piliers : un cadre de génération de données structurées baptisé Nets-within-Nets (NWN), qui coordonne les actions des robots à partir de spécifications de mission formalisées en logique temporelle linéaire (LTL), et un pipeline de détection d'anomalies basé sur l'architecture Transformer. L'objectif est d'identifier les exécutions dites "spurious", c'est-à-dire les séquences de tâches incorrectes, les violations de contraintes spatiales, les incohérences temporelles ou les écarts par rapport à la sémantique attendue d'une mission. Les performances mesurées sont significatives : le système atteint 91,3 % de précision pour détecter les inefficacités d'exécution, 88,3 % pour les violations centrales de mission, et 66,8 % pour les anomalies adaptatives liées aux contraintes. Ces résultats positionnent l'approche comme une solution viable pour la supervision en temps réel de flottes robotiques dans des environnements complexes, notamment dans l'industrie, la logistique automatisée ou les missions de secours, où une mauvaise exécution peut avoir des conséquences coûteuses voire dangereuses. La capacité à classer automatiquement une trajectoire comme normale ou anormale sans intervention humaine représente un gain opérationnel concret. Ce travail s'inscrit dans un mouvement de fond visant à rendre les systèmes multi-robots plus fiables et plus auditables, à mesure que leur déploiement s'accélère dans des contextes industriels critiques. La logique temporelle linéaire est depuis longtemps utilisée en vérification formelle de logiciels, mais son application à la supervision de trajectoires robotiques en temps réel reste un terrain de recherche actif. L'usage de Transformers pour cette tâche, couplé à une étude d'ablation sur les représentations d'embedding, suggère que les architectures issues du traitement du langage naturel trouvent une seconde vie dans la robotique multi-agents. Les prochaines étapes naturelles porteraient sur des tests en conditions réelles et l'extension à des missions plus dynamiques.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour