Aller au contenu principal
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
RechercheVentureBeat AI3h

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

1 source couvre ce sujet·Source originale ↗·

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif.

L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale.

Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

À lire aussi

1Le Big Data 

Cette IA prédit l’insuffisance cardiaque… 5 ans avant qu’elle n’arrive

Des chercheurs de l'Université d'Oxford ont mis au point un algorithme d'intelligence artificielle capable de prédire l'insuffisance cardiaque jusqu'à cinq ans avant l'apparition des premiers symptômes. L'outil analyse des scanners cardiaques classiques, mais avec une approche originale : plutôt que d'examiner directement le muscle cardiaque, il étudie le tissu graisseux qui l'entoure, dans lequel se cachent des signaux d'inflammation et d'anomalies invisibles à l'œil humain. À partir de cette analyse, le système génère un score de risque individuel pour chaque patient. Entraîné sur 72 000 patients suivis pendant dix ans au sein du NHS britannique, l'algorithme atteint une précision de 86 % sur une fenêtre de prévision de cinq ans. Les patients classés à haut risque présentent une probabilité jusqu'à vingt fois supérieure de développer la maladie, et un quart d'entre eux seraient effectivement touchés dans les cinq années suivantes. Les résultats ont été publiés dans le Journal of the American College of Cardiology. L'enjeu est considérable : l'insuffisance cardiaque touche des dizaines de millions de personnes dans le monde et reste aujourd'hui trop souvent diagnostiquée tardivement, parfois lors d'une hospitalisation d'urgence, quand le muscle cardiaque est déjà sérieusement endommagé et les options thérapeutiques réduites. En identifiant les patients à risque bien en amont, cet outil permettrait aux médecins de renforcer la surveillance, d'adapter les traitements préventifs et de réserver les interventions les plus lourdes aux profils les plus exposés, tout en évitant des examens inutiles pour les patients à faible risque. La British Heart Foundation souligne que ce changement de temporalité dans le diagnostic pourrait transformer radicalement les perspectives pour des milliers de patients chaque année. L'outil présente également un avantage logistique décisif : il fonctionne de manière entièrement automatisée, sans intervention humaine pour l'interprétation des images, et peut donc s'intégrer directement dans les flux de travail des services de radiologie existants sans modifier les pratiques cliniques. L'équipe d'Oxford travaille déjà à étendre la technologie à l'ensemble des scanners thoraciques, y compris ceux réalisés pour des raisons sans lien avec le cœur, ce qui multiplierait considérablement le nombre de patients potentiellement dépistés. La prochaine étape est l'obtention des autorisations réglementaires pour un déploiement au sein du NHS, avec l'ambition d'ajouter cette analyse aux examens de routine. Si ce feu vert est accordé, d'autres systèmes de santé à l'international pourraient rapidement emboîter le pas, faisant de cet algorithme un outil standard de prévention cardiaque à l'échelle mondiale.

UEL'algorithme d'Oxford, développé sur des données NHS, pourrait être adopté par les systèmes de santé européens pour dépister précocement l'insuffisance cardiaque, transformant les protocoles de prévention cardiaque à grande échelle.

RecherchePaper
1 source
Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises
2MarkTechPost 

Meta AI publie EUPE : une famille de vision encodeurs compacts de moins de 100M de parametres, rivaux des modeles specialises

Les équipes de recherche de Meta AI ont présenté EUPE (Efficient Universal Perception Encoder), une famille d'encodeurs visuels compacts de moins de 100 millions de paramètres capables de rivaliser avec des modèles spécialisés sur des tâches variées : classification d'images, segmentation dense, et questions-réponses visuelles. La publication, disponible sur arXiv sous la référence 2503.22387, expose une approche radicalement différente des méthodes existantes, notamment face à AM-RADIO et RADIOv2.5, les références actuelles en distillation multi-enseignants. Là où RADIOv2.5-B, sa variante à l'échelle ViT-B, accuse des écarts notables face aux experts de domaine sur les tâches denses, EUPE parvient à combler ces lacunes dans un format adapté aux appareils embarqués comme les smartphones ou les casques de réalité augmentée. L'enjeu est concret : déployer plusieurs encodeurs spécialisés en parallèle sur un appareil mobile est trop coûteux en calcul, mais n'en déployer qu'un seul signifie accepter des performances dégradées sur la plupart des tâches. EUPE change cette équation. Un seul modèle léger peut désormais gérer simultanément la compréhension visuelle globale, la détection de structures spatiales précises au niveau du pixel, et l'interaction avec des systèmes de langage visuel. Pour les développeurs d'applications mobiles, les fabricants de dispositifs AR ou les ingénieurs travaillant sur des pipelines d'IA embarquée, cela représente un gain substantiel en ressources sans sacrifice de polyvalence. La difficulté centrale que résout EUPE tient à un problème de capacité. Les modèles comme CLIP, SigLIP 2, DINOv2 ou SAM ont chacun été entraînés avec des objectifs distincts : paires texte-image pour les premiers, apprentissage auto-supervisé structurel pour le second, segmentation massive pour le troisième. Les tentatives précédentes de fusionner ces expertises par distillation agglomérative, où un modèle étudiant imite plusieurs enseignants spécialistes simultanément, donnaient de bons résultats sur de grands encodeurs dépassant 300 millions de paramètres, mais échouaient sur les architectures efficientes. La solution proposée par Meta suit un principe en deux temps : agrandir d'abord, puis réduire. Un modèle intermédiaire de grande taille absorbe les représentations des différents enseignants, avant d'être distillé à son tour dans l'encodeur compact final. Cette étape intermédiaire fournit au petit modèle une représentation unifiée et déjà réconciliée, plutôt qu'une collection brute de signaux contradictoires. La publication positionne EUPE comme une brique fondamentale pour la prochaine génération d'IA on-device, dans un contexte où Apple, Google et Qualcomm intensifient également leurs efforts pour faire tourner des modèles multimodaux directement sur le matériel utilisateur.

💬 Le problème des encodeurs visuels embarqués, c'est exactement ça : soit tu empiles plusieurs spécialistes et ça explose ton budget calcul, soit tu fais des compromis douloureux. L'approche "agrandir puis distiller" de Meta est maline, parce qu'elle donne au petit modèle une représentation déjà digérée plutôt que de lui coller des signaux contradictoires à réconcilier lui-même. Reste à voir ce que ça donne sur du vrai hardware, pas juste sur les benchmarks arXiv.

RecherchePaper
1 source
SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires
3Apple Machine Learning 

SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires

Des chercheurs ont présenté SQUIRE (Slot QUery Intermediate REpresentations), un nouveau système d'assistance à la création d'interfaces utilisateur conçu pour aider les développeurs front-end à prototyper plus efficacement. L'outil s'appuie sur l'IA générative mais introduit une couche intermédiaire structurée, les "slot queries", entre l'intention du développeur et le code produit, afin de rendre la génération plus prévisible et plus contrôlable. Le problème que SQUIRE cherche à résoudre est bien réel : les assistants IA actuels, qui fonctionnent via une interface de chat, offrent beaucoup de flexibilité mais peu de précision. Le langage naturel reste ambigu, et les modèles peuvent répondre de façon imprévisible, forçant les développeurs à itérer longuement avant d'obtenir un résultat satisfaisant. En introduisant des représentations intermédiaires explicites, SQUIRE permet à l'utilisateur de spécifier ses intentions de manière plus structurée, réduisant ainsi les allers-retours et accélérant le cycle de prototypage. Cette approche s'inscrit dans une tendance plus large de la recherche en interaction homme-machine : plutôt que de confier entièrement la génération à un modèle de langage via un prompt libre, on intercale des étapes de structuration qui préservent le contrôle humain. Des systèmes similaires ont émergé dans d'autres domaines de la génération de code, et SQUIRE applique ce principe au domaine spécifique des interfaces graphiques, où la précision visuelle et fonctionnelle est particulièrement exigeante. Les suites potentielles incluent une intégration dans des environnements de développement existants comme Figma ou VS Code.

RecherchePaper
1 source
MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter
4MarkTechPost 

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Une équipe internationale de chercheurs, impliquant notamment les Instituts Gladstone (maladies cardiovasculaires, neurologiques, sciences des données) et l'Université de Californie San Francisco, a développé MaxToki, un modèle d'intelligence artificielle capable de prédire l'évolution dans le temps de l'état génétique des cellules humaines. Contrairement aux modèles existants qui analysent les cellules comme des instantanés figés, MaxToki intègre une dimension temporelle, essentielle pour comprendre comment les cellules vieillissent. Le modèle repose sur une architecture de type transformer décodeur -- la même famille que les grands modèles de langage -- et a été entraîné sur des données de séquençage d'ARN unicellulaire. Il existe en deux versions : 217 millions et 1 milliard de paramètres. Son entraînement s'est déroulé en deux étapes, la première s'appuyant sur Genecorpus-175M, un corpus d'environ 175 millions de transcriptomes unicellulaires issus de 10 795 jeux de données publics, générant quelque 290 milliards de tokens. Une particularité technique clé est l'encodage par rang : plutôt que d'injecter des comptages bruts d'expression génique, chaque cellule est représentée par une liste de gènes classés selon leur expression relative, ce qui rend le modèle plus robuste face aux biais techniques des données biologiques. MaxToki ouvre des perspectives concrètes dans l'étude du vieillissement cellulaire et des maladies qui en découlent -- insuffisance cardiaque, maladie d'Alzheimer, fibrose pulmonaire -- des pathologies qui se développent sur des décennies à travers des changements progressifs dans les réseaux de gènes. Pouvoir modéliser ces trajectoires, et non plus seulement l'état instantané d'une cellule, représente un saut qualitatif pour la recherche biomédicale. La capacité à prédire "où va" une cellule pourrait accélérer l'identification de cibles thérapeutiques et la mise au point d'interventions capables de ralentir ou d'inverser ces processus dégénératifs, avant même l'apparition de symptômes cliniques. Le projet s'inscrit dans une vague plus large de fondation models appliqués à la biologie, une discipline où des acteurs comme NVIDIA (partenaire de ce projet), Google avec son modèle Evo, et plusieurs startups de biotech cherchent à reproduire le succès des LLMs dans le domaine du vivant. La plupart des modèles existants peinent à capturer la dynamique temporelle des systèmes biologiques, limitant leur utilité pour les maladies chroniques. MaxToki répond à ce manque en étendant notamment sa fenêtre de contexte de 4 096 à 16 384 tokens via la technique RoPE scaling, et en excluant délibérément les cellules cancéreuses et lignées immortalisées de l'entraînement pour ne pas biaiser l'apprentissage des dynamiques normales. Des institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) et japonaises (Université de Kyoto, Centre iPS) contribuent également, signe que la course aux modèles fondationnels en biologie est désormais pleinement internationale.

UEDes institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) participent au projet, positionnant l'Europe comme contributeur dans la course aux modèles fondationnels biologiques.

RecherchePaper
1 source