OutilsMarkTechPost · 11 juin 2026, 01:07· 2 min de lecture

Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références

Microsoft a publié SkillOpt, un framework open source conçu pour optimiser automatiquement les "skills", des prompts structurés qui guident le comportement des modèles de langage. Un tutoriel de référence détaille son implémentation complète sur le benchmark SearchQA, un jeu de questions-réponses fondé sur des extraits de documents. Le pipeline utilise GPT-4o comme modèle optimiseur et GPT-4o-mini comme modèle cible, en s'appuyant sur l'API OpenAI via une compatibilité Azure. Le workflow d'optimisation enchaîne six étapes distinctes : rollout (génération de réponses), reflection (analyse des erreurs), aggregation (consolidation des observations), selection (choix des meilleures améliorations), updating (réécriture du prompt) et validation-based gating (validation avant d'accepter chaque nouvelle version du skill). Le tutoriel tourne avec un échantillon limité à 24 exemples, sur deux epochs avec des batchs de 8, pour contenir les coûts en tokens.

Ce que rend possible SkillOpt est significatif : plutôt que d'ajuster les poids d'un modèle par entraînement classique, coûteux et nécessitant des GPU, il optimise uniquement le texte du prompt par itération automatique. Cela permet à n'importe quel développeur d'améliorer les performances d'un modèle sur une tâche précise sans toucher à l'infrastructure d'entraînement. L'outil mesure l'évolution de la précision en "hard accuracy" et "soft accuracy" à chaque cycle, offre un suivi de l'usage cumulatif en tokens, et visualise l'historique des modifications du skill. Cette transparence donne aux équipes un contrôle fin sur le compromis entre coût et gain de performance, un avantage concret pour les produits IA en production.

SkillOpt s'inscrit dans une tendance plus large portée par Microsoft Research : l'optimisation automatique de prompts, parfois appelée "prompt engineering automatisé" ou APO (Automatic Prompt Optimization). Des travaux antérieurs comme DSPy de Stanford ou ProTeGi avaient ouvert cette voie, mais SkillOpt mise sur une architecture modulaire et une compatibilité avec les backends Azure OpenAI et OpenAI standard pour maximiser l'adoption en entreprise. La publication du code sur GitHub sous forme de dépôt clonable avec dépendances pip illustre la volonté de Microsoft d'ancrer cet outil dans les workflows MLOps existants. L'enjeu à terme est d'industrialiser l'amélioration continue des agents IA sans intervention humaine à chaque itération, une capacité qui deviendra centrale à mesure que les entreprises déploient des systèmes LLM à grande échelle.

Impact France/UE

Les équipes IA européennes déployant des agents LLM sur Azure OpenAI peuvent adopter SkillOpt pour automatiser l'amélioration continue de leurs prompts sans coûts d'entraînement supplémentaires.

Dans nos dossiers

Microsoft OpenAI Azure Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification

Des chercheurs ont publié un tutoriel complet autour de SkillNet, un framework open source conçu pour augmenter les agents d'intelligence artificielle avec des compétences modulaires et réutilisables. Le système repose sur la bibliothèque Python skillnet-ai, accessible via PyPI, et s'appuie sur une API centralisée hébergée à api.openkg.cn. La démonstration utilise GPT-4o comme modèle par défaut, mais le framework reste compatible avec d'autres LLM. Le workflow présenté couvre l'ensemble du cycle de vie d'une compétence : recherche, installation depuis GitHub, inspection des métadonnées, évaluation qualitative, visualisation sous forme de graphe, et enfin intégration dans un pipeline d'exécution piloté par un agent planificateur. Ce type d'architecture répond à un problème concret qui freine le déploiement des agents IA en production : la difficulté à composer des capacités spécialisées de façon fiable et maintenable. Plutôt que d'entraîner un modèle monolithique pour chaque nouveau besoin, SkillNet permet à un agent de découvrir dynamiquement des compétences existantes, de les filtrer selon des critères de qualité mesurables, et de les assembler en pipeline selon les sous-tâches d'un objectif complexe. L'approche est particulièrement utile pour les équipes qui développent des agents multi-domaines, en réduisant la duplication d'efforts et en rendant les briques fonctionnelles auditables et interchangeables. La recherche sémantique intégrée, avec un seuil de similarité paramétrable, va au-delà de la simple correspondance par mots-clés et permet de trouver des compétences pertinentes même quand le vocabulaire ne correspond pas exactement. SkillNet s'inscrit dans un mouvement plus large visant à standardiser l'écosystème des agents IA, à l'image de ce que npm ou PyPI ont fait pour les bibliothèques logicielles. Le projet est adossé à OpenKG, une initiative académique chinoise spécialisée dans les graphes de connaissances ouvertes, ce qui explique l'orientation vers la représentation des relations entre compétences sous forme de graphe. La dépendance à GitHub comme dépôt de référence pour les skills instalables ancre le framework dans les pratiques existantes des développeurs. L'intégration d'une porte qualité automatisée, évaluant chaque compétence sur plusieurs dimensions avant de l'inclure dans un pipeline, anticipe les besoins des environnements de production où la fiabilité est non négociable. Les suites probables incluent l'émergence d'un registre communautaire de compétences validées et l'intégration avec des orchestrateurs d'agents comme LangGraph ou AutoGen.

💬 C'est le genre de truc qu'on attendait depuis un moment pour sortir des agents monolithiques. SkillNet propose quelque chose de sobre : tu découvres une compétence, tu la passes à une porte qualité, tu l'assembles dans un pipeline. Bon, ça vient d'OpenKG, une initiative académique chinoise, donc faudra voir si l'écosystème prend vraiment ou si ça reste un beau prototype de labo.

OutilsOutil

1 source

2VentureBeat AI

SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle

Microsoft Research Asia a publié SkillOpt, un framework open source sous licence MIT conçu pour optimiser automatiquement les compétences des agents IA. Ces compétences, appelées "skills", sont des ensembles d'instructions stockées dans des fichiers texte au format markdown (.md) qui permettent à un agent de s'adapter à des flux de travail d'entreprise complexes, sans modifier les paramètres du modèle sous-jacent. Développé par Yifan Yang, Senior Research SDE chez Microsoft Research Asia, SkillOpt introduit un optimiseur qui traite ces documents texte comme des objets entraînables, les faisant évoluer de manière systématique à partir des retours de performance. Sur plusieurs benchmarks industriels, il surpasse les méthodes existantes et améliore significativement la précision de modèles comme GPT-5.5 et Qwen, produisant des artefacts compacts et transférables vers de nouveaux domaines. L'enjeu est concret : aujourd'hui, affiner ces fichiers de compétences est un processus manuel et risqué. Les équipes procèdent par essais-erreurs, sans garantie que chaque modification représente réellement une amélioration. Yang identifie trois défaillances récurrentes dans les approches actuelles : l'absence de contrôle d'amplitude des modifications, qui provoque une dérive progressive des instructions ; l'absence de validation, qui laisse des corrections superficiellement raisonnables dégrader silencieusement les performances ; et l'absence de mémoire négative, qui permet aux mêmes erreurs de se reproduire indéfiniment. Pour illustrer la fragilité du système actuel, Yang cite un cas précis : une réécriture non contrôlée a fait chuter GPT-5.5 sur le benchmark SpreadsheetBench de 41,8 à 41,1, soit une régression invisible jusqu'à ce qu'elle soit mesurée. Ce problème est particulièrement critique dans les workflows multi-étapes, là où les grands modèles sont les plus vulnérables, non pas sur le raisonnement, mais sur la discipline procédurale : formats de sortie, auto-vérification, politiques d'utilisation des outils. Avant SkillOpt, plusieurs approches existaient sans résoudre ce problème de fond. Des méthodes d'optimisation de prompts comme TextGrad et GEPA traitent les textes comme des objets optimisables via le feedback de trajectoires d'exécution, mais se limitent à des configurations de prompt unique plutôt qu'à des artefacts de compétences persistants et réutilisables. Des méthodes comme EvoSkill et Trace2Skill convertissent les expériences d'exécution en bibliothèques de compétences domaine-spécifiques, mais sans le contrôle mathématique qui garantit que chaque itération est réellement une amélioration. SkillOpt comble ce vide en appliquant une discipline comparable à l'apprentissage profond, avec contrôle du pas d'optimisation, validation systématique et mémoire des échecs, au texte naturel plutôt qu'aux poids d'un réseau de neurones. La publication en open source signale que Microsoft vise une adoption large dans l'écosystème des agents IA d'entreprise, un marché en pleine structuration où la fiabilité procédurale devient un avantage compétitif décisif.

💬 Ce qui me plaît là-dedans, c'est que ça s'attaque enfin au vrai problème : pas le modèle, mais les instructions qu'on lui donne. Tuner des fichiers markdown à la main en espérant que ça s'améliore, c'est exactement le genre de bricolage qui fait perdre des heures aux équipes sans qu'elles s'en rendent compte. Reste à voir si ça tient sur des workflows vraiment complexes, mais le fait que Microsoft sorte ça en open source, ça sent le pari sur l'adoption longue.

OutilsOutil

1 source

3MarkTechPost

Optimisation de prompts par réflexion avec GEPA : multi-composants, feedback structuré et validation

GEPA, un framework d'optimisation de prompts par évolution réflexive, permet d'améliorer automatiquement les instructions données à un modèle de langage en analysant ses erreurs et en générant des variantes plus performantes. Dans un tutoriel récent, des développeurs ont mis en oeuvre cette approche pour résoudre des problèmes arithmétiques formulés en langage naturel. L'architecture repose sur deux modèles distincts : GPT-4o-mini d'OpenAI comme modèle d'exécution des tâches, et GPT-4.1 comme modèle de réflexion chargé d'améliorer les prompts. Le système démarre avec un prompt initial faible, génère un benchmark déterministe de 18 problèmes (réductions commerciales, distances de voyage, calculs de portefeuille, opérations en chaîne), puis itère jusqu'à un budget maximal de 100 appels métriques. Le dataset est séparé en 12 exemples d'entraînement et 6 de validation pour mesurer la généralisation. Ce qui distingue GEPA d'une simple optimisation manuelle, c'est sa capacité à faire évoluer simultanément plusieurs composantes d'un prompt. Ici, ce ne sont pas seulement les instructions générales qui changent, mais aussi les règles de format de sortie, les deux évoluant ensemble comme un système couplé. Le modèle de réflexion reçoit un retour structuré et actionnable sur les raisons précises de l'échec d'un prompt candidat, ce qui lui permet de cibler ses corrections plutôt que de procéder à l'aveugle. Cette boucle d'amélioration automatisée réduit considérablement le travail manuel de prompt engineering, un processus qui peut prendre des heures à des équipes entières chez des entreprises déployant des LLMs en production. Pour les ingénieurs et les chercheurs, cela signifie qu'un système peut apprendre de ses propres erreurs de façon systématique, sans intervention humaine à chaque itération. Le prompt engineering automatisé représente l'un des axes de recherche les plus actifs dans l'écosystème des modèles de langage. Des frameworks comme DSPy de Stanford, TextGrad ou encore APE (Automatic Prompt Engineer) ont ouvert cette voie ces deux dernières années, cherchant à remplacer l'intuition humaine par une optimisation guidée par des métriques. GEPA se positionne dans cette lignée en y ajoutant la dimension réflexive : le modèle n'optimise pas à l'aveugle, il comprend pourquoi un prompt échoue. L'utilisation de LiteLLM comme couche d'abstraction permet en outre de brancher n'importe quel fournisseur de modèles, ce qui rend l'approche agnostique à l'infrastructure. À mesure que les LLMs s'intègrent dans des pipelines critiques, la capacité à optimiser automatiquement les prompts sur des benchmarks maison devient un avantage concurrentiel direct, réduisant les coûts d'inférence et améliorant la fiabilité sans multiplier les appels humains en boucle.

💬 Le prompt engineering à la main, c'est des heures perdues à tâtonner pour gagner 3% de perf. Ce qui distingue GEPA des frameworks similaires (DSPy, TextGrad, APE), c'est que le système comprend pourquoi un prompt rate avant de proposer mieux, pas juste une variation à l'aveugle. Reste à voir si ça tient sur des tâches moins propres que des problèmes arithmétiques, mais le principe, là, il est solide.

OutilsTuto

1 source

4MarkTechPost

EverOS : runtime de mémoire open source pour agents, récupération hybride BM25/vectorielle et compétences auto-évolutives

EverMind a publié EverOS, un moteur de mémoire open source pour agents IA, sous licence Apache 2.0. Le projet s'attaque à un problème fondamental des grands modèles de langage : leur absence d'état persistant. Dès qu'une conversation se termine, le contexte disparaît. EverOS propose une approche différente : plutôt que d'enfermer la mémoire dans une base de données vectorielle opaque, il stocke chaque souvenir sous forme de fichiers Markdown ordinaires. Ces fichiers deviennent la source de vérité que les agents lisent, modifient et interrogent entre les sessions. La bibliothèque Python s'appuie sur une pile de stockage en trois couches : Markdown comme source canonique, SQLite pour la gestion des états et des files d'attente, et LanceDB pour les vecteurs et les index. La récupération est hybride : une seule requête LanceDB combine la recherche par mots-clés BM25, la recherche vectorielle dense et un filtrage scalaire, ce que l'équipe nomme mRAG. Les performances annoncées par EverMind sont de 93,05 % sur le benchmark LoCoMo, 83,00 % sur LongMemEval, et une latence p95 inférieure à 500 ms. Ce que change EverOS pour les développeurs d'agents, c'est avant tout l'inspectabilité et la portabilité. Les fichiers .md peuvent être ouverts dans n'importe quel éditeur, versionnés avec Git, ou consultés dans Obsidian. Il n'y a pas besoin de MongoDB, Elasticsearch, Milvus, Redis ou Kafka, ce qui réduit considérablement le coût opérationnel pour les développeurs indépendants et les petites équipes. L'architecture distingue deux pistes mémoire : côté utilisateur, des Profils, Épisodes, Faits et Prévisions ; côté agent, des Cas et des Compétences. Cette séparation est rare dans les bibliothèques concurrentes qui se concentrent généralement sur l'historique de chat. La mémoire procédurale est la fonctionnalité la plus distinctive : EverOS enregistre chaque tâche complétée comme un Cas, puis distille offline les patterns réussis en Compétences réutilisables partagées entre agents, sans curation manuelle. Le runtime est compatible avec le protocole OpenAI et se connecte à OpenRouter, vLLM, Ollama ou DeepInfra via un simple changement d'URL. EverOS s'inscrit dans une tendance plus large de recherche d'alternatives aux architectures mémoire complexes et coûteuses pour les systèmes agentiques. La version 1.1.0 a introduit des APIs de Knowledge pour des pages Markdown adossées à des sources taxonomiques, ainsi qu'un processus de Réflexion offline qui fusionne des clusters d'épisodes et affine les profils entre sessions. EverMind propose également EverOS Cloud pour les équipes qui préfèrent ne pas gérer l'infrastructure, avec parité complète du SDK et du format mémoire avec la version auto-hébergée. Les scores de benchmark sont prometteurs mais proviennent d'EverMind eux-mêmes, ce qui appelle une vérification sur des charges de travail réelles avant adoption en production.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic