Aller au contenu principal
RechercheVentureBeat AI2h· 2 min de lecture

Xiaomi HarnessX réécrit sa propre infrastructure IA en cours de tâche, avec des gains plus marqués pour les petits modèles

Source originale ↗·

Des chercheurs de Xiaomi ont publié HarnessX, un framework qui permet à des agents IA de réécrire automatiquement leur propre infrastructure logicielle en cours d'exécution. Dans le jargon des systèmes agentiques, le "harness" désigne l'ensemble du code qui entoure le modèle de langage : les prompts, les connecteurs d'outils, la gestion de la mémoire et les flux de contrôle qui dictent comment un agent observe son environnement, raisonne et agit. HarnessX traite ce harness comme un objet modulaire et autonome, capable de s'améliorer lui-même à partir des données d'exécution collectées. Sur 15 combinaisons modèle-benchmark testées en applications d'entreprise réelles (ingénierie logicielle, interaction web), le gain de performance moyen atteint +14,5 %. Pour le modèle open-weight Qwen3.5-9B de 9 milliards de paramètres, les progrès sur des tâches de planification incarnée culminent à +44 %.

Ces résultats remettent en question une conviction centrale de l'industrie : que la performance d'un agent passe avant tout par la montée en puissance du modèle sous-jacent. HarnessX démontre que l'infrastructure logicielle qui entoure un modèle constitue un levier au moins aussi puissant, et que les modèles compacts peuvent bénéficier davantage d'une évolution de leur harness que d'un remplacement par un modèle plus grand. Pour les entreprises, cela ouvre une voie concrète vers des agents plus capables sans les coûts de calcul associés aux grands modèles, et sans les cycles de développement manuel qui rendent aujourd'hui l'ingénierie de harness si coûteuse en temps.

Le problème que HarnessX cherche à résoudre est structurel. Les harnesses actuels sont écrits à la main et restent statiques : tout changement de modèle, d'outil ou de domaine métier exige une réécriture manuelle. Leurs composants sont souvent entremêlés de façon à ce que modifier l'un casse silencieusement un autre. Enfin, les traces d'exécution générées lors des tests sont généralement jetées plutôt qu'utilisées pour améliorer le système. HarnessX répond à ces trois points en décomposant le harness en "processeurs" indépendants branchés sur des points de cycle de vie précis, permettant de les échanger, ajouter ou retirer sans toucher au modèle. Cette approche de "fonderie de harness unifiée" positionne Xiaomi dans une compétition croissante autour de l'outillage agentique, où des acteurs comme LangChain, LlamaIndex ou les équipes internes de Google et Meta cherchent eux aussi à industrialiser la couche logicielle qui détermine, de plus en plus, ce qu'un agent IA est réellement capable d'accomplir.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance
1VentureBeat AI 

Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance

Des chercheurs du Shanghai Artificial Intelligence Laboratory ont présenté Self-Harness, un paradigme permettant à un agent basé sur un grand modèle de langage d'améliorer automatiquement ses propres règles de fonctionnement. Publiés récemment, ces travaux menés par Hangfan Zhang et son équipe montrent que ce système peut accroître les performances d'un agent de jusqu'à 60 % sans intervention humaine ni recours à un modèle externe plus puissant. Le principe repose sur une boucle itérative en trois étapes : l'agent analyse d'abord ses propres traces d'exécution pour identifier des schémas d'échec récurrents, génère ensuite des modifications ciblées et minimales de son environnement d'exécution, puis valide chaque modification par des tests de régression avant de l'adopter. Seules les modifications qui améliorent les performances sans dégrader d'autres tâches sont retenues. L'enjeu est considérable pour les équipes de développement qui déploient des agents IA en production. Un agent LLM ne dépend pas uniquement de son modèle sous-jacent, mais aussi de son "harness" : le système environnant qui comprend les prompts système, les outils disponibles, la mémoire, les politiques de relance et les procédures de récupération en cas d'erreur. Des exemples bien connus incluent SWE-agent, Claude Code, Codex et OpenHands. Or, de nombreuses défaillances d'agents proviennent précisément de cette couche, et non du modèle lui-même : un agent peut déclarer succès sans vérifier le résultat, relancer indéfiniment une action échouée, ou encore souffrir d'une surcharge de contexte lorsque l'historique d'interaction devient trop long. Self-Harness permet de corriger ces failles de manière empirique et reproductible, là où la pratique actuelle repose principalement sur l'intuition des ingénieurs. Ce travail s'inscrit dans un contexte où la cadence de sortie des nouveaux modèles rend le réglage manuel des harnesses de plus en plus coûteux et difficile à maintenir. Comme le souligne Hangfan Zhang, un ingénieur expérimenté peut encore proposer de meilleures améliorations qu'un LLM dans certains cas, mais le vrai goulot d'étranglement est l'absence de boucle de rétroaction systématique et vérifiable. Les approches existantes font souvent appel à des modèles plus puissants pour améliorer des modèles cibles plus faibles, ce qui pose des problèmes de coût, de disponibilité et d'inadaptation aux modes d'échec spécifiques. Self-Harness contourne cette dépendance en rendant l'agent autonome dans son propre perfectionnement, ouvrant la voie à des systèmes capables de s'adapter en continu à l'évolution rapide des modèles de langage sous-jacents.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
2VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source
OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour
3MarkTechPost 

OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour

Une équipe de chercheurs issue du MIT, de l'UIUC, de CMU, USC, UVA et UC Berkeley a publié OSGym, un nouveau framework d'infrastructure conçu pour entraîner des agents IA capables d'utiliser un ordinateur comme le ferait un humain. Ces agents, appelés "computer use agents", observent une capture d'écran du bureau, décident d'une action (cliquer, taper du texte, ouvrir un fichier) et l'exécutent via clavier et souris. OSGym permet de gérer plus de 1 000 répliques d'environnements OS simultanément, pour un coût d'environ 0,23 dollar par réplique et par jour, contre environ 300 dollars par jour pour 128 répliques avec une approche naïve, soit une réduction de coût d'un facteur proche de 100. L'enjeu est considérable pour la recherche académique, qui ne dispose pas des budgets des grands laboratoires commerciaux. Entraîner un agent à naviguer dans un vrai système d'exploitation nécessite des centaines, voire des milliers d'environnements virtuels tournant en parallèle, chacun avec son propre disque bootable (environ 24 Go), son allocation CPU et RAM, et sa pile graphique. OSGym résout deux problèmes majeurs : le coût prohibitif de ces environnements, et leur instabilité (crashs, sessions qui expirent, applications gelées). En utilisant des conteneurs Docker plutôt que des machines virtuelles complètes, et en optimisant la densité de répliques par serveur, le système exploite un insight clé : au-delà d'un certain seuil, le goulot d'étranglement passe du CPU à la RAM, qui coûte dix à vingt fois moins cher. Chaque réplique dispose par ailleurs de son propre gestionnaire d'état, exposant une API inspirée d'OpenAI Gym (reset, step, shutdown), ce qui évite qu'une panne en cascade paralyse l'ensemble du système. Les agents de type "computer use" constituent l'une des frontières les plus actives de la recherche en IA. Des modèles commerciaux comme Claude Computer Use d'Anthropic ou Operator d'OpenAI ont montré que la direction est prometteuse, tandis que des projets académiques comme UI-TARS, Agent-S2 ou CogAgent repoussent les limites techniques. Mais l'accélération de ces travaux bute depuis longtemps sur un mur infrastucturel : générer suffisamment de données d'interaction réelles dans des environnements OS complets est trop coûteux pour la plupart des équipes universitaires. OSGym s'attaque directement à ce verrou en proposant une infrastructure open source et économiquement viable. Si le framework tient ses promesses à grande échelle, il pourrait démocratiser significativement la recherche sur les agents autonomes et accélérer le développement de systèmes capables d'exécuter des tâches complexes sur ordinateur sans intervention humaine.

UELes équipes de recherche académiques européennes pourraient bénéficier directement de cette infrastructure open source pour mener des travaux sur les agents autonomes sans les budgets des grands laboratoires commerciaux.

RecherchePaper
1 source
HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique
4arXiv cs.RO 

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique

Des chercheurs ont publié HeiSD, un nouveau cadre d'accélération pour les modèles Vision-Langage-Action (VLA) utilisés en robotique, présenté dans un article arXiv (2603.17573). Les modèles VLA sont devenus la solution dominante pour le contrôle de robots : ils combinent vision, compréhension du langage naturel et génération d'actions motrices. Leur principal talon d'Achille reste une vitesse d'inférence trop lente pour de nombreuses applications temps réel. HeiSD s'appuie sur une approche hybride du décodage spéculatif, une technique qui anticipe les tokens suivants pour accélérer la génération, en fusionnant deux familles de méthodes complémentaires : le décodage basé sur un modèle brouillon et le décodage par récupération en mémoire. Les résultats annoncés atteignent un facteur d'accélération de 2,45x sur des benchmarks en simulation, et de 2,06x à 2,41x dans des scénarios réels, tout en maintenant un taux de succès élevé sur les tâches testées. Cet gain de vitesse est significatif pour l'industrie de la robotique, où la latence entre la perception et l'action conditionne directement la sécurité et l'utilisabilité des robots. Un robot qui doit attendre plusieurs secondes entre chaque décision est inutilisable dans un entrepôt logistique ou une salle d'opération. En doublant approximativement la vitesse d'inférence sans dégrader les performances, HeiSD rapproche les VLA d'un déploiement industriel viable, sans nécessiter de matériel supplémentaire ni de réentraînement des modèles sous-jacents. Le décodage spéculatif est une piste de recherche active depuis l'explosion des grands modèles de langage, mais son application aux modèles robotiques posait des défis spécifiques : les erreurs en cascade lors du rejet de tokens et la difficulté à calibrer automatiquement la frontière entre les deux stratégies hybrides. HeiSD résout ces problèmes via un mécanisme de vérification sélective, une stratégie d'acceptation assouplie au niveau des séquences, et une métrique de fusion basée sur la cinématique du robot pour piloter automatiquement le découpage hybride. Ce travail s'inscrit dans une course plus large à l'efficacité des VLA, où des acteurs comme Google DeepMind (RT-2) et Physical Intelligence cherchent eux aussi à rendre ces modèles suffisamment rapides pour un usage en production.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic