Aller au contenu principal
Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références
OutilsMarkTechPost7h· 2 min de lecture

Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références

Source originale ↗·

Microsoft a publié SkillOpt, un framework open source conçu pour optimiser automatiquement les "skills", des prompts structurés qui guident le comportement des modèles de langage. Un tutoriel de référence détaille son implémentation complète sur le benchmark SearchQA, un jeu de questions-réponses fondé sur des extraits de documents. Le pipeline utilise GPT-4o comme modèle optimiseur et GPT-4o-mini comme modèle cible, en s'appuyant sur l'API OpenAI via une compatibilité Azure. Le workflow d'optimisation enchaîne six étapes distinctes : rollout (génération de réponses), reflection (analyse des erreurs), aggregation (consolidation des observations), selection (choix des meilleures améliorations), updating (réécriture du prompt) et validation-based gating (validation avant d'accepter chaque nouvelle version du skill). Le tutoriel tourne avec un échantillon limité à 24 exemples, sur deux epochs avec des batchs de 8, pour contenir les coûts en tokens.

Ce que rend possible SkillOpt est significatif : plutôt que d'ajuster les poids d'un modèle par entraînement classique, coûteux et nécessitant des GPU, il optimise uniquement le texte du prompt par itération automatique. Cela permet à n'importe quel développeur d'améliorer les performances d'un modèle sur une tâche précise sans toucher à l'infrastructure d'entraînement. L'outil mesure l'évolution de la précision en "hard accuracy" et "soft accuracy" à chaque cycle, offre un suivi de l'usage cumulatif en tokens, et visualise l'historique des modifications du skill. Cette transparence donne aux équipes un contrôle fin sur le compromis entre coût et gain de performance, un avantage concret pour les produits IA en production.

SkillOpt s'inscrit dans une tendance plus large portée par Microsoft Research : l'optimisation automatique de prompts, parfois appelée "prompt engineering automatisé" ou APO (Automatic Prompt Optimization). Des travaux antérieurs comme DSPy de Stanford ou ProTeGi avaient ouvert cette voie, mais SkillOpt mise sur une architecture modulaire et une compatibilité avec les backends Azure OpenAI et OpenAI standard pour maximiser l'adoption en entreprise. La publication du code sur GitHub sous forme de dépôt clonable avec dépendances pip illustre la volonté de Microsoft d'ancrer cet outil dans les workflows MLOps existants. L'enjeu à terme est d'industrialiser l'amélioration continue des agents IA sans intervention humaine à chaque itération, une capacité qui deviendra centrale à mesure que les entreprises déploient des systèmes LLM à grande échelle.

Impact France/UE

Les équipes IA européennes déployant des agents LLM sur Azure OpenAI peuvent adopter SkillOpt pour automatiser l'amélioration continue de leurs prompts sans coûts d'entraînement supplémentaires.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification
1MarkTechPost 

SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification

Des chercheurs ont publié un tutoriel complet autour de SkillNet, un framework open source conçu pour augmenter les agents d'intelligence artificielle avec des compétences modulaires et réutilisables. Le système repose sur la bibliothèque Python skillnet-ai, accessible via PyPI, et s'appuie sur une API centralisée hébergée à api.openkg.cn. La démonstration utilise GPT-4o comme modèle par défaut, mais le framework reste compatible avec d'autres LLM. Le workflow présenté couvre l'ensemble du cycle de vie d'une compétence : recherche, installation depuis GitHub, inspection des métadonnées, évaluation qualitative, visualisation sous forme de graphe, et enfin intégration dans un pipeline d'exécution piloté par un agent planificateur. Ce type d'architecture répond à un problème concret qui freine le déploiement des agents IA en production : la difficulté à composer des capacités spécialisées de façon fiable et maintenable. Plutôt que d'entraîner un modèle monolithique pour chaque nouveau besoin, SkillNet permet à un agent de découvrir dynamiquement des compétences existantes, de les filtrer selon des critères de qualité mesurables, et de les assembler en pipeline selon les sous-tâches d'un objectif complexe. L'approche est particulièrement utile pour les équipes qui développent des agents multi-domaines, en réduisant la duplication d'efforts et en rendant les briques fonctionnelles auditables et interchangeables. La recherche sémantique intégrée, avec un seuil de similarité paramétrable, va au-delà de la simple correspondance par mots-clés et permet de trouver des compétences pertinentes même quand le vocabulaire ne correspond pas exactement. SkillNet s'inscrit dans un mouvement plus large visant à standardiser l'écosystème des agents IA, à l'image de ce que npm ou PyPI ont fait pour les bibliothèques logicielles. Le projet est adossé à OpenKG, une initiative académique chinoise spécialisée dans les graphes de connaissances ouvertes, ce qui explique l'orientation vers la représentation des relations entre compétences sous forme de graphe. La dépendance à GitHub comme dépôt de référence pour les skills instalables ancre le framework dans les pratiques existantes des développeurs. L'intégration d'une porte qualité automatisée, évaluant chaque compétence sur plusieurs dimensions avant de l'inclure dans un pipeline, anticipe les besoins des environnements de production où la fiabilité est non négociable. Les suites probables incluent l'émergence d'un registre communautaire de compétences validées et l'intégration avec des orchestrateurs d'agents comme LangGraph ou AutoGen.

💬 C'est le genre de truc qu'on attendait depuis un moment pour sortir des agents monolithiques. SkillNet propose quelque chose de sobre : tu découvres une compétence, tu la passes à une porte qualité, tu l'assembles dans un pipeline. Bon, ça vient d'OpenKG, une initiative académique chinoise, donc faudra voir si l'écosystème prend vraiment ou si ça reste un beau prototype de labo.

OutilsOutil
1 source
Optimisation de prompts par réflexion avec GEPA : multi-composants, feedback structuré et validation
2MarkTechPost 

Optimisation de prompts par réflexion avec GEPA : multi-composants, feedback structuré et validation

GEPA, un framework d'optimisation de prompts par évolution réflexive, permet d'améliorer automatiquement les instructions données à un modèle de langage en analysant ses erreurs et en générant des variantes plus performantes. Dans un tutoriel récent, des développeurs ont mis en oeuvre cette approche pour résoudre des problèmes arithmétiques formulés en langage naturel. L'architecture repose sur deux modèles distincts : GPT-4o-mini d'OpenAI comme modèle d'exécution des tâches, et GPT-4.1 comme modèle de réflexion chargé d'améliorer les prompts. Le système démarre avec un prompt initial faible, génère un benchmark déterministe de 18 problèmes (réductions commerciales, distances de voyage, calculs de portefeuille, opérations en chaîne), puis itère jusqu'à un budget maximal de 100 appels métriques. Le dataset est séparé en 12 exemples d'entraînement et 6 de validation pour mesurer la généralisation. Ce qui distingue GEPA d'une simple optimisation manuelle, c'est sa capacité à faire évoluer simultanément plusieurs composantes d'un prompt. Ici, ce ne sont pas seulement les instructions générales qui changent, mais aussi les règles de format de sortie, les deux évoluant ensemble comme un système couplé. Le modèle de réflexion reçoit un retour structuré et actionnable sur les raisons précises de l'échec d'un prompt candidat, ce qui lui permet de cibler ses corrections plutôt que de procéder à l'aveugle. Cette boucle d'amélioration automatisée réduit considérablement le travail manuel de prompt engineering, un processus qui peut prendre des heures à des équipes entières chez des entreprises déployant des LLMs en production. Pour les ingénieurs et les chercheurs, cela signifie qu'un système peut apprendre de ses propres erreurs de façon systématique, sans intervention humaine à chaque itération. Le prompt engineering automatisé représente l'un des axes de recherche les plus actifs dans l'écosystème des modèles de langage. Des frameworks comme DSPy de Stanford, TextGrad ou encore APE (Automatic Prompt Engineer) ont ouvert cette voie ces deux dernières années, cherchant à remplacer l'intuition humaine par une optimisation guidée par des métriques. GEPA se positionne dans cette lignée en y ajoutant la dimension réflexive : le modèle n'optimise pas à l'aveugle, il comprend pourquoi un prompt échoue. L'utilisation de LiteLLM comme couche d'abstraction permet en outre de brancher n'importe quel fournisseur de modèles, ce qui rend l'approche agnostique à l'infrastructure. À mesure que les LLMs s'intègrent dans des pipelines critiques, la capacité à optimiser automatiquement les prompts sur des benchmarks maison devient un avantage concurrentiel direct, réduisant les coûts d'inférence et améliorant la fiabilité sans multiplier les appels humains en boucle.

💬 Le prompt engineering à la main, c'est des heures perdues à tâtonner pour gagner 3% de perf. Ce qui distingue GEPA des frameworks similaires (DSPy, TextGrad, APE), c'est que le système comprend pourquoi un prompt rate avant de proposer mieux, pas juste une variation à l'aveugle. Reste à voir si ça tient sur des tâches moins propres que des problèmes arithmétiques, mais le principe, là, il est solide.

OutilsTuto
1 source
AgentCore : optimisation de la qualité des agents, désormais en préversion
3AWS ML Blog 

AgentCore : optimisation de la qualité des agents, désormais en préversion

Amazon a annoncé ce 5 mai 2026 l'intégration de nouvelles capacités d'optimisation automatique dans AgentCore, sa plateforme de déploiement d'agents IA, désormais disponibles en préversion. Ces fonctionnalités couvrent trois mécanismes complémentaires : les Recommandations, l'évaluation par lots (batch evaluation) et les tests A/B. Le moteur de recommandations analyse les traces de production et les résultats d'évaluation pour proposer des améliorations concrètes des prompts système ou des descriptions d'outils, en ciblant un critère de performance défini par le développeur. L'évaluation par lots permet ensuite de valider ces suggestions sur un jeu de données de test prédéfini, en mesurant des scores agrégés pour détecter d'éventuelles régressions. Enfin, les tests A/B comparent deux versions d'un agent en production via AgentCore Gateway, en répartissant le trafic réel selon un pourcentage configurable et en restituant les résultats avec intervalles de confiance et significativité statistique. L'ensemble s'appuie sur un système de traçabilité OpenTelemetry géré par AgentCore Observability, qui capture chaque appel au modèle, chaque invocation d'outil et chaque étape de raisonnement. Ces nouvelles capacités répondent à un problème structurel bien connu des équipes IA en production : la dégradation silencieuse des agents au fil du temps. Lorsque les modèles évoluent, les comportements utilisateurs changent, ou les prompts sont réutilisés dans des contextes imprévus, la qualité baisse sans signal d'alerte clair. Jusqu'ici, le cycle de correction restait entièrement manuel : un utilisateur se plaint, un développeur lit des traces, formule une hypothèse, réécrit le prompt, teste quelques cas et pousse un correctif qui peut en créer un autre. AgentCore ferme cette boucle en remplaçant l'intuition du développeur par des données systématiques, avec un signal de récompense configurable : taux de succès des objectifs, précision de sélection des outils, pertinence, sécurité. Yoshiharu Okuda, directeur de la stratégie IA générative chez NTT DATA, a confirmé que des processus qui nécessitaient auparavant plusieurs semaines de réglage manuel se transforment désormais en cycles rapides et reproductibles. AgentCore est la plateforme d'Amazon Web Services pour construire, connecter et optimiser des agents IA à grande échelle, avec des milliers de développeurs déjà actifs. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud pour proposer des outils d'opérationnalisation des agents, au-delà de la simple inférence. Google Vertex AI, Microsoft Azure AI et AWS se disputent les équipes qui passent de la phase expérimentale à la production à grande échelle, là où la maintenance de la qualité devient un défi d'ingénierie à part entière. En automatisant la boucle observer-évaluer-améliorer, AWS positionne AgentCore comme une infrastructure de fond pour les organisations qui ne peuvent pas se permettre des équipes dédiées à l'optimisation manuelle de prompts sur des cycles hebdomadaires, alors que leurs agents dérivent chaque jour en production.

OutilsActu
1 source
Construire un pipeline complet d'observabilité et d'évaluation Langfuse pour le traçage, la gestion des prompts, le scoring et les expériences
4MarkTechPost 

Construire un pipeline complet d'observabilité et d'évaluation Langfuse pour le traçage, la gestion des prompts, le scoring et les expériences

Langfuse, plateforme open-source d'ingénierie LLM, propose un pipeline complet couvrant quatre dimensions critiques du développement d'applications à base de grands modèles de langage : le tracing des appels, la gestion centralisée des prompts, le scoring d'évaluation et les expérimentations sur datasets. Le tutoriel publié cette semaine détaille une implémentation complète, compatible aussi bien avec l'API OpenAI (notamment le modèle gpt-4o-mini) qu'avec un LLM déterministe simulé, permettant à tout développeur d'explorer chaque fonctionnalité sans dépendre d'un accès payant. L'intégration commence par la connexion au client Langfuse via des clés d'authentification publique et secrète (formats pk-lf- et sk-lf-), avec support des régions EU, US et des instances auto-hébergées. Le pipeline instrumente ensuite des fonctions Python simples puis un mini-pipeline RAG (Retrieval-Augmented Generation), en attachant à chaque appel LLM des métadonnées de trace, un modèle, des paramètres de température et des identifiants de prompt. Pour les équipes qui développent des produits IA en production, cette approche résout un problème central : la boîte noire des LLMs. Avec Langfuse, chaque génération devient observable, chaque prompt est versionné et centralisé, et chaque réponse peut recevoir un score d'évaluation automatique ou humain. Cela permet de détecter les régressions de qualité entre versions de prompts, de comparer les performances de différents modèles sur un même dataset, et de construire une boucle d'amélioration continue documentée. Les équipes produit et ML gagnent une visibilité structurée sur ce qui se passe réellement à l'intérieur de leurs pipelines, ce qui est aujourd'hui l'un des manques les plus critiques dans le déploiement d'applications LLM à l'échelle. Langfuse s'inscrit dans un écosystème en pleine structuration autour de l'observabilité LLM, aux côtés de solutions comme LangSmith (LangChain), Weights & Biases Weave ou Helicone. Sa différenciation principale repose sur son caractère open-source et la possibilité de l'auto-héberger, ce qui répond directement aux contraintes de conformité et de souveraineté des données des entreprises européennes. La montée en maturité de ces outils reflète un tournant dans l'industrie : les LLMs ne sont plus des prototypes à évaluer manuellement, mais des composants de production qui exigent la même rigueur d'ingénierie que n'importe quel service critique. L'intégration native avec le SDK OpenAI via un simple remplacement d'import facilite une adoption progressive, sans refonte d'architecture, ce qui devrait accélérer son adoption dans des stacks existantes.

UELangfuse étant open-source et auto-hébergeable, les entreprises européennes peuvent l'adopter en respectant leurs contraintes RGPD et de souveraineté des données, sans dépendre d'infrastructures américaines.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic