RechercheMicrosoft Research3h· 2 min de lecture

SkillOpt : les compétences d'agents traitées comme des paramètres entraînables

Des chercheurs ont présenté SkillOpt, une nouvelle méthode qui transforme les compétences (skills) des agents d'intelligence artificielle en paramètres entraînables, sans modifier les poids du modèle sous-jacent. Concrètement, SkillOpt traite le fichier de compétences d'un agent, c'est-à-dire les instructions qui guident son comportement, comme une couche d'optimisation distincte, gérée par un modèle "optimiseur" séparé tandis que le modèle cible reste figé. Le système a été testé sur six benchmarks, sept modèles cibles différents et trois modes d'exécution, soit 52 combinaisons d'évaluation au total. Dans chacune de ces 52 cellules, SkillOpt s'est révélé être la meilleure méthode, ou ex aequo avec la meilleure, ce qui en fait l'approche la plus systématiquement performante testée à ce jour pour ce type d'optimisation. Le processus fonctionne par cycles successifs : le modèle cible exécute des tâches d'entraînement avec la compétence actuelle, un modèle optimiseur analyse ensuite les trajectoires obtenues pour repérer ce qui a fonctionné et ce qui a échoué, puis propose des modifications ciblées (ajouts, suppressions, remplacements) limitées par un budget d'édition strict, comparable à un taux d'apprentissage.

Cette approche répond à un problème concret et de plus en plus pressant à mesure que les agents IA passent du prototype au déploiement en production : aujourd'hui, les compétences des agents sont écrites à la main par des experts, générées en une seule fois par un modèle de pointe, ou révisées de façon informelle après exécution. Aucune de ces méthodes ne dispose de garde-fous propres à l'apprentissage automatique, comme un contrôle de la taille des pas, une validation sur des données tenues à l'écart, ou une mémoire des révisions ayant échoué. Résultat : les fichiers de compétences ont tendance à s'allonger et à dériver au fil des réécritures, et une modification qui semble raisonnable peut en réalité dégrader silencieusement les performances réelles de l'agent, ce qui mine la fiabilité nécessaire à un usage professionnel.

Pour éviter cette dérive incontrôlée, chaque modification candidate doit passer une validation stricte : elle n'est adoptée que si elle obtient un score strictement supérieur à la version actuelle sur un jeu de validation séparé. Les modifications rejetées ne sont pas perdues pour autant : elles alimentent une mémoire d'échecs qui sert de retour négatif pour guider les prochaines propositions. Un mécanisme de mise à jour plus lent, à l'échelle de l'epoch, consolide par ailleurs des enseignements de plus long terme que des lots de données isolés ne peuvent révéler. Les compétences ainsi optimisées se sont montrées transférables entre différentes tailles de modèles, différents environnements d'exécution d'agents et des tâches connexes, ce qui suggère qu'elles capturent un savoir-faire réutilisable plutôt que des instructions ajustées à un seul benchmark.

Dans nos dossiers

Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

L'équipe Qwen d'Alibaba a publié mardi Qwen-AgentWorld, une paire de modèles d'intelligence artificielle conçus non pas pour agir dans des environnements numériques, mais pour prédire ce que ces environnements vont retourner en réponse à une action. Les deux modèles, un 35 milliards de paramètres et un 397 milliards, couvrent sept domaines sous une architecture unifiée : MCP, recherche web, terminal, génie logiciel, Android, navigation web et système d'exploitation. Entraînés sur plus de 10 millions de trajectoires d'interactions réelles, ils passent par trois phases successives : apprentissage du comportement des environnements (systèmes de fichiers, états du terminal, réponses API), raisonnement anticipatif sur les états futurs, puis renforcement par des règles et une évaluation qualitative ouverte. Les deux modèles sont des architectures Mixture-of-Experts, n'activant qu'une fraction de leurs paramètres par token. Ils prennent en charge des fenêtres de contexte de 256 000 tokens. Les poids du modèle 35B et le benchmark AgentWorldBench sont publiés sous licence Apache 2.0 ; ceux du 397B restent propriétaires. Ce qui fait la valeur de Qwen-AgentWorld n'est pas tant ses scores sur les benchmarks de prédiction que ses effets concrets sur la performance des agents entraînés à l'intérieur de ses simulations. En injectant des perturbations ciblées que les environnements réels ne permettent pas de reproduire à la demande (réponses partielles, cas limites rares, conditions de disque bas), les chercheurs ont fait passer le score MCPMark de 24,6 à 33,8. Sur la tâche de recherche, un agent entraîné dans un monde entièrement fictif a transféré ses apprentissages vers des recherches réelles, portant le WideSearch F1 Item de 34,02 à 50,31 sur le modèle 35B. Un entraînement préalable au modèle monde, utilisé comme échauffement avant le fine-tuning agentique, a amélioré les performances sur sept benchmarks distincts, dont trois que le modèle n'avait jamais vus pendant l'entraînement. L'approche répond à une limite structurelle bien connue des équipes qui développent des agents à grande échelle : les environnements de production ne permettent pas de contrôler les conditions d'entraînement. Un moteur de recherche réel renvoie les résultats disponibles, pas les cas rares que l'agent devra pourtant gérer. Un terminal en production ne simule pas une panne sur commande. En renversant la question, en demandant au modèle non pas "que faire ?" mais "que va renvoyer l'environnement ?", Alibaba crée une infrastructure de simulation contrôlable. La publication arrive dans la continuité de Qwen3.7-Max, sorti en mai avec une capacité d'exécution autonome de 35 heures, et se distingue des travaux antérieurs comme WebWorld ou le modèle de Snowflake, qui restaient cantonnés à un seul domaine. C'est la première architecture à modéliser sept domaines dans un seul modèle dès la phase de préentraînement.

UELes équipes européennes développant des agents IA peuvent utiliser directement le modèle 35B publié sous licence Apache 2.0 pour améliorer l'entraînement de leurs agents dans des environnements simulés contrôlables.

RecherchePaper

1 source

2VentureBeat AI

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper

1 source

3VentureBeat AI

Un ajout de 0,12 % des paramètres offre aux agents IA une mémoire de travail que le RAG ne peut pas fournir

Des chercheurs du Mind Lab et de plusieurs universités ont publié une technique appelée delta-mem, conçue pour doter les agents d'intelligence artificielle d'une mémoire de travail persistante sans modifier les paramètres du modèle sous-jacent. Le principe : comprimer l'historique des interactions d'un agent en une matrice de taille fixe, appelée OSAM (Online State of Associative Memory), mise à jour dynamiquement au fil des échanges. Le module résultant n'ajoute que 0,12 % des paramètres du modèle de base, contre 76,40 % pour la solution concurrente la plus répandue, tout en surpassant cette dernière sur les benchmarks exigeants en mémoire. Lors de la génération, le système ne réinjecte pas de texte brut dans le contexte : l'état caché du modèle est projeté dans la matrice pour récupérer les informations passées, ce qui réduit la latence et évite de saturer la fenêtre de contexte. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, un assistant de code qui perd le fil d'une session de débogage, ou un agent d'analyse de données qui réingère les mêmes informations à chaque étape, génère des coûts en tokens, de la latence et des workflows fragiles. Les deux solutions habituelles, élargir la fenêtre de contexte ou multiplier les appels RAG, montrent leurs limites dès que les interactions s'étalent sur de longues séquences : le coût computationnel de l'attention croit de façon quadratique avec la longueur de la séquence, et les modèles souffrent de ce que les chercheurs appellent le "context rot", une dégradation effective de la mémorisation malgré des fenêtres théoriques d'un million de tokens. Delta-mem offre une troisième voie : une mémoire interne, compacte et continuellement mise à jour, sans dépendance à un module externe. Ce travail s'inscrit dans un débat plus large sur l'architecture des agents autonomes. Les approches existantes se répartissent en trois catégories : la mémoire textuelle, limitée par la taille de la fenêtre et sujette à la perte d'information ; le RAG, qui introduit de la latence et des problèmes d'alignement ; et les adaptateurs paramétriques, statiques après l'entraînement et incapables d'intégrer de nouvelles informations en temps réel. Delta-mem se positionne comme une quatrième voie, paramétrique mais dynamique, opérant à l'intérieur du modèle gelé. Jingdi Lei, co-auteur de l'article, cite des cas concrets : un assistant de code qui doit retenir les conventions d'un projet, les étapes de débogage récentes ou les préférences d'un développeur sur toute la durée d'un workflow ; un agent d'analyse qui doit maintenir des hypothèses et des observations intermédiaires sur plusieurs appels d'outils successifs. La technique reste pour l'instant au stade de la recherche, mais elle pointe vers une architecture d'agent où la mémoire de travail est un composant de première classe, aussi central que le modèle lui-même.

RecherchePaper

1 source

4MarkTechPost

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic