Aller au contenu principal
SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle
OutilsVentureBeat AIà l'instant· 2 min de lecture

SkillOpt de Microsoft améliore automatiquement les compétences des agents IA sans modifier les poids du modèle

Source originale ↗·

Microsoft Research Asia a publié SkillOpt, un framework open source sous licence MIT conçu pour optimiser automatiquement les compétences des agents IA. Ces compétences, appelées "skills", sont des ensembles d'instructions stockées dans des fichiers texte au format markdown (.md) qui permettent à un agent de s'adapter à des flux de travail d'entreprise complexes, sans modifier les paramètres du modèle sous-jacent. Développé par Yifan Yang, Senior Research SDE chez Microsoft Research Asia, SkillOpt introduit un optimiseur qui traite ces documents texte comme des objets entraînables, les faisant évoluer de manière systématique à partir des retours de performance. Sur plusieurs benchmarks industriels, il surpasse les méthodes existantes et améliore significativement la précision de modèles comme GPT-5.5 et Qwen, produisant des artefacts compacts et transférables vers de nouveaux domaines.

L'enjeu est concret : aujourd'hui, affiner ces fichiers de compétences est un processus manuel et risqué. Les équipes procèdent par essais-erreurs, sans garantie que chaque modification représente réellement une amélioration. Yang identifie trois défaillances récurrentes dans les approches actuelles : l'absence de contrôle d'amplitude des modifications, qui provoque une dérive progressive des instructions ; l'absence de validation, qui laisse des corrections superficiellement raisonnables dégrader silencieusement les performances ; et l'absence de mémoire négative, qui permet aux mêmes erreurs de se reproduire indéfiniment. Pour illustrer la fragilité du système actuel, Yang cite un cas précis : une réécriture non contrôlée a fait chuter GPT-5.5 sur le benchmark SpreadsheetBench de 41,8 à 41,1, soit une régression invisible jusqu'à ce qu'elle soit mesurée. Ce problème est particulièrement critique dans les workflows multi-étapes, là où les grands modèles sont les plus vulnérables, non pas sur le raisonnement, mais sur la discipline procédurale : formats de sortie, auto-vérification, politiques d'utilisation des outils.

Avant SkillOpt, plusieurs approches existaient sans résoudre ce problème de fond. Des méthodes d'optimisation de prompts comme TextGrad et GEPA traitent les textes comme des objets optimisables via le feedback de trajectoires d'exécution, mais se limitent à des configurations de prompt unique plutôt qu'à des artefacts de compétences persistants et réutilisables. Des méthodes comme EvoSkill et Trace2Skill convertissent les expériences d'exécution en bibliothèques de compétences domaine-spécifiques, mais sans le contrôle mathématique qui garantit que chaque itération est réellement une amélioration. SkillOpt comble ce vide en appliquant une discipline comparable à l'apprentissage profond, avec contrôle du pas d'optimisation, validation systématique et mémoire des échecs, au texte naturel plutôt qu'aux poids d'un réseau de neurones. La publication en open source signale que Microsoft vise une adoption large dans l'écosystème des agents IA d'entreprise, un marché en pleine structuration où la fiabilité procédurale devient un avantage compétitif décisif.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références
1MarkTechPost 

Microsoft SkillOpt : optimisation de prompts, analyse d'évolution des compétences et comparaison aux références

Microsoft a publié SkillOpt, un framework open source conçu pour optimiser automatiquement les "skills", des prompts structurés qui guident le comportement des modèles de langage. Un tutoriel de référence détaille son implémentation complète sur le benchmark SearchQA, un jeu de questions-réponses fondé sur des extraits de documents. Le pipeline utilise GPT-4o comme modèle optimiseur et GPT-4o-mini comme modèle cible, en s'appuyant sur l'API OpenAI via une compatibilité Azure. Le workflow d'optimisation enchaîne six étapes distinctes : rollout (génération de réponses), reflection (analyse des erreurs), aggregation (consolidation des observations), selection (choix des meilleures améliorations), updating (réécriture du prompt) et validation-based gating (validation avant d'accepter chaque nouvelle version du skill). Le tutoriel tourne avec un échantillon limité à 24 exemples, sur deux epochs avec des batchs de 8, pour contenir les coûts en tokens. Ce que rend possible SkillOpt est significatif : plutôt que d'ajuster les poids d'un modèle par entraînement classique, coûteux et nécessitant des GPU, il optimise uniquement le texte du prompt par itération automatique. Cela permet à n'importe quel développeur d'améliorer les performances d'un modèle sur une tâche précise sans toucher à l'infrastructure d'entraînement. L'outil mesure l'évolution de la précision en "hard accuracy" et "soft accuracy" à chaque cycle, offre un suivi de l'usage cumulatif en tokens, et visualise l'historique des modifications du skill. Cette transparence donne aux équipes un contrôle fin sur le compromis entre coût et gain de performance, un avantage concret pour les produits IA en production. SkillOpt s'inscrit dans une tendance plus large portée par Microsoft Research : l'optimisation automatique de prompts, parfois appelée "prompt engineering automatisé" ou APO (Automatic Prompt Optimization). Des travaux antérieurs comme DSPy de Stanford ou ProTeGi avaient ouvert cette voie, mais SkillOpt mise sur une architecture modulaire et une compatibilité avec les backends Azure OpenAI et OpenAI standard pour maximiser l'adoption en entreprise. La publication du code sur GitHub sous forme de dépôt clonable avec dépendances pip illustre la volonté de Microsoft d'ancrer cet outil dans les workflows MLOps existants. L'enjeu à terme est d'industrialiser l'amélioration continue des agents IA sans intervention humaine à chaque itération, une capacité qui deviendra centrale à mesure que les entreprises déploient des systèmes LLM à grande échelle.

UELes équipes IA européennes déployant des agents LLM sur Azure OpenAI peuvent adopter SkillOpt pour automatiser l'amélioration continue de leurs prompts sans coûts d'entraînement supplémentaires.

OutilsOutil
1 source
Promptimus : améliorer automatiquement des prompts LLM déjà performants
2Amazon Science 

Promptimus : améliorer automatiquement des prompts LLM déjà performants

Amazon Web Services a dévoilé Promptimus, une méthode d'optimisation automatique des prompts pour grands modèles de langage (LLM), destinée aux entreprises qui cherchent à améliorer des prompts déjà bien rodés sans repartir de zéro. La particularité du système repose sur une boucle d'itération en quatre étapes : il prend en entrée un prompt existant, un petit jeu de données JSONL de 20 à 50 exemples, et des métriques de performance définies par l'utilisateur. Trois agents IA spécialisés collaborent en coulisses, un analyseur de métriques, un agent de débogage et un agent de nettoyage de code, pour identifier précisément les points de défaillance, en diagnostiquer les causes profondes, et affiner chirurgicalement le prompt en conséquence. Le système inclut également un mode édition qui permet de modifier uniquement les parties défaillantes d'un prompt complexe, sans toucher à la logique métier qui fonctionne déjà. L'enjeu est considérable pour les entreprises. Dans les déploiements industriels, les prompts ne sont pas de simples instructions génériques : ils encodent des exigences légales précises, comme la conformité HIPAA pour les systèmes de santé, ou des règles de tolérance au risque pour les plateformes de trading financier. Ces prompts sont construits par des experts métier sur des semaines, voire des mois. Or, chaque fois qu'un fournisseur comme Anthropic, OpenAI, Google, Meta ou Alibaba sort un nouveau modèle, ces prompts soigneusement calibrés perdent en efficacité, les différences de comportement entre modèles suffisent à dégrader les performances. Promptimus est conçu pour être agnostique au modèle : il peut réoptimiser un prompt conçu pour un modèle source et l'adapter rapidement à un modèle cible, en comparant les résultats entre les deux. La difficulté sous-jacente que Promptimus cherche à résoudre est bien connue des équipes d'ingénierie prompt : les méthodes d'optimisation automatique existantes fonctionnent bien pour créer des prompts depuis zéro, mais peinent à améliorer ceux qui sont déjà excellents. Les suggestions génériques comme « sois plus créatif » ou « ajoute des exemples » n'ont aucun effet sur un prompt déjà optimisé, dont les marges d'amélioration restent très spécifiques et difficiles à cibler. Les scores scalaires comme retour d'information ne donnent aucune indication sur le pourquoi des échecs. Face à la cadence d'évolution des modèles fondamentaux, la reoptimisation manuelle est coûteuse et retarde l'adoption de modèles plus performants. Promptimus vise à industrialiser ce processus de migration, en automatisant entièrement l'analyse des métriques et la génération des points de contrôle de débogage via du code Python importable.

UELes entreprises européennes déployant des LLMs en production pourraient utiliser Promptimus pour automatiser la migration de leurs prompts lors des mises à jour de modèles fondamentaux, réduisant les coûts de réécriture manuelle.

OutilsOutil
1 source
SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification
3MarkTechPost 

SkillNet : des agents IA augmentés de compétences pour la recherche, l'évaluation, l'analyse de graphes et la planification

Des chercheurs ont publié un tutoriel complet autour de SkillNet, un framework open source conçu pour augmenter les agents d'intelligence artificielle avec des compétences modulaires et réutilisables. Le système repose sur la bibliothèque Python skillnet-ai, accessible via PyPI, et s'appuie sur une API centralisée hébergée à api.openkg.cn. La démonstration utilise GPT-4o comme modèle par défaut, mais le framework reste compatible avec d'autres LLM. Le workflow présenté couvre l'ensemble du cycle de vie d'une compétence : recherche, installation depuis GitHub, inspection des métadonnées, évaluation qualitative, visualisation sous forme de graphe, et enfin intégration dans un pipeline d'exécution piloté par un agent planificateur. Ce type d'architecture répond à un problème concret qui freine le déploiement des agents IA en production : la difficulté à composer des capacités spécialisées de façon fiable et maintenable. Plutôt que d'entraîner un modèle monolithique pour chaque nouveau besoin, SkillNet permet à un agent de découvrir dynamiquement des compétences existantes, de les filtrer selon des critères de qualité mesurables, et de les assembler en pipeline selon les sous-tâches d'un objectif complexe. L'approche est particulièrement utile pour les équipes qui développent des agents multi-domaines, en réduisant la duplication d'efforts et en rendant les briques fonctionnelles auditables et interchangeables. La recherche sémantique intégrée, avec un seuil de similarité paramétrable, va au-delà de la simple correspondance par mots-clés et permet de trouver des compétences pertinentes même quand le vocabulaire ne correspond pas exactement. SkillNet s'inscrit dans un mouvement plus large visant à standardiser l'écosystème des agents IA, à l'image de ce que npm ou PyPI ont fait pour les bibliothèques logicielles. Le projet est adossé à OpenKG, une initiative académique chinoise spécialisée dans les graphes de connaissances ouvertes, ce qui explique l'orientation vers la représentation des relations entre compétences sous forme de graphe. La dépendance à GitHub comme dépôt de référence pour les skills instalables ancre le framework dans les pratiques existantes des développeurs. L'intégration d'une porte qualité automatisée, évaluant chaque compétence sur plusieurs dimensions avant de l'inclure dans un pipeline, anticipe les besoins des environnements de production où la fiabilité est non négociable. Les suites probables incluent l'émergence d'un registre communautaire de compétences validées et l'intégration avec des orchestrateurs d'agents comme LangGraph ou AutoGen.

💬 C'est le genre de truc qu'on attendait depuis un moment pour sortir des agents monolithiques. SkillNet propose quelque chose de sobre : tu découvres une compétence, tu la passes à une porte qualité, tu l'assembles dans un pipeline. Bon, ça vient d'OpenKG, une initiative académique chinoise, donc faudra voir si l'écosystème prend vraiment ou si ça reste un beau prototype de labo.

OutilsOutil
1 source
Writer lance des agents IA capables d'agir de façon autonome, face à Amazon, Microsoft et Salesforce
4VentureBeat AI 

Writer lance des agents IA capables d'agir de façon autonome, face à Amazon, Microsoft et Salesforce

Writer, la plateforme d'agents IA pour les entreprises soutenue par Salesforce Ventures, Adobe Ventures et Insight Partners, a lancé le 30 avril 2026 un système de déclencheurs événementiels pour sa suite Writer Agent. Ce nouveau mécanisme permet à ses agents IA de surveiller en temps réel des signaux métier dans Gmail, Gong, Google Calendar, Google Drive, Microsoft SharePoint et Slack, puis d'exécuter automatiquement des workflows complexes en plusieurs étapes, sans qu'aucun humain n'ait à initier le processus. Le lancement comprend également un connecteur Adobe Experience Manager, un plugin d'observabilité Datadog et la prise en charge du chiffrement avec clés personnalisées (bring-your-own encryption keys). Selon Doris Jwo, vice-présidente Product Management chez Writer, le principe est simple : dès qu'un événement qualifié survient dans l'un de ces outils, un "playbook" prédéfini se déclenche et orchestre l'ensemble de la séquence de travail, sans intervention humaine. Ce passage du mode réactif au mode proactif représente une rupture structurelle dans la façon dont les entreprises utilisent l'IA. Jusqu'ici, même les plateformes les plus avancées exigeaient qu'un salarié ouvre une interface et formule une requête. Désormais, c'est l'agent qui surveille, détecte et agit. L'exemple concret fourni par Writer illustre bien l'enjeu : lorsqu'un brief créatif atterrit dans un dossier Google Drive dédié, le système déclenche automatiquement une cascade de playbooks qui rassemble la recherche, génère les visuels et prépare les livrables pour validation humaine, comprimant ainsi plusieurs heures de coordination Slack et de passages de relais entre équipes marketing. C'est précisément ce goulot d'étranglement humain que Writer dit avoir identifié comme principal frein à l'adoption à grande échelle de ses workflows automatisés. Writer n'est pas seul sur ce terrain. AWS, Salesforce et Microsoft accélèrent tous sur leurs propres plateformes agentiques, et la bataille pour devenir le système nerveux autonome des grandes entreprises ne fait que commencer. Writer avait introduit ses playbooks en novembre 2025 pour permettre aux équipes métier d'automatiser des tâches récurrentes sans écrire une ligne de code ; les déclencheurs événementiels en sont la prochaine évolution logique, transformant ces workflows de procédures manuelles en processus permanents et autonomes. La question qui reste ouverte, et qui agite l'ensemble de l'industrie, est celle de la gouvernance : jusqu'où les entreprises sont-elles prêtes à déléguer des décisions à des agents qui agissent seuls, en temps réel, sur des données sensibles et des outils critiques ? Les nouveaux contrôles de sécurité annoncés simultanément par Writer semblent être une réponse directe à cette préoccupation.

UELes entreprises européennes envisageant d'adopter ces agents autonomes devront évaluer leur conformité RGPD, notamment pour le traitement automatisé sans intervention humaine de données sensibles issues de Gmail, SharePoint ou Google Drive.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic