Dossier Agents IA — page 12

1550 articles · page 12 sur 31

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

551Amazon Science RecherchePaper

Les agents autonomes face au défi entre intention et exécution

Des chercheurs en intelligence artificielle ont publié une étude approfondie sur ce qu'ils nomment l'« écart entre intention et exécution » dans les systèmes d'agents IA, le fossé entre ce qu'un modèle de langage entend faire et ce que le logiciel qui l'entoure réalise concrètement. Pour l'illustrer : un modèle peut vouloir corriger une seule instance d'une fonction dans du code, mais le harnais, le logiciel qui orchestre ses actions et gère ses interactions avec les outils, en modifie involontairement plusieurs. Pour combler cet écart sans aucun ajustement spécifique à une tâche, les chercheurs ont développé Simple Strands Agent (SSA), un harnais léger et personnalisable à agent unique. Testé sur plusieurs benchmarks de référence, dont SWE-Pro, SWE-Verified (qui évaluent la correction automatique de dépôts de code réels) et Terminal-Bench2 (environnements de terminal interactifs), SSA obtient des gains de performance constants sur plusieurs familles de modèles. Ce travail pointe un problème structurel souvent ignoré dans l'évaluation des agents IA : les performances publiées sur les benchmarks reflètent autant la qualité de l'infrastructure d'évaluation que la capacité intrinsèque du modèle. Des facteurs apparemment triviaux, délais d'expiration lors des interactions avec l'environnement, stabilité de l'infrastructure, contraintes de ressources, provoquent des variations de performance significatives. Les auteurs baptisent ce phénomène le « benchmaxing » : la tendance à optimiser les scores publiés sans nécessairement améliorer la capacité réelle du système. Pour les équipes qui déploient des agents en production, cela signifie qu'un gain impressionnant sur un benchmark peut disparaître entièrement dans un contexte légèrement différent, rendant les comparaisons entre systèmes peu fiables. L'étude s'inscrit dans un débat plus large sur la conception des agents IA. Pendant des années, la priorité a été donnée aux optimisations spécifiques : prompts ajustés, outils sur mesure, graphes d'exécution spécialisés. Or les chercheurs montrent que ces gains sont souvent fragiles, ce qui fonctionne pour un modèle ou une version donnée se dégrade ou régresse avec les modèles suivants, car ces optimisations surajustent implicitement le comportement d'un modèle particulier. La conclusion est qu'il faut désormais identifier des principes de conception invariants, valables quel que soit le modèle sous-jacent. L'interface entre modèle et harnais devient ainsi un domaine de recherche central, à l'image du rôle d'un système d'exploitation vis-à-vis d'un processeur. Les auteurs soulignent également que cette conception n'est pas entièrement agnostique au modèle : différentes familles de modèles ont des préférences distinctes en matière d'utilisation des outils et d'interprétation du contexte, faisant de la coconception modèle-harnais un levier décisif pour atteindre des performances optimales.

Dossier Agents IA — page 12

Les agents autonomes face au défi entre intention et exécution

Satya Nadella fustige le plan d'un vice-président visant à rendre l'agent IA de Microsoft délibérément addictif

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming

Solara : Microsoft lance son propre système d’exploitation pour l’IA

Liquid AI publie LFM2.5-8B-A1B : un modèle MoE embarqué de 8,3 milliards de paramètres dont 1,5 milliard actifs

Cognition, créateur de l'agent de code Devin, plus que double sa valorisation à 26 milliards de dollars en moins de neuf mois

Fujitsu intègre OpenAI à sa stratégie IA pour les entreprises japonaises

GPT-5.6 : On connaît sa date de sortie, le compte à rebours est lancé

Doter les agents d'ordinateurs : Ivan Burazin, Daytona

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

Meilleures plateformes d'IA à agents autonomes pour les entreprises en 2026

GitHub sécurise les workflows à base d'agents dans les systèmes CI/CD modernes

SAP : les entreprises qui adoptent l’IA innovent plus vite et plus efficacement

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Box Automate : la fin des tâches répétitives en entreprise

Ant Group publie en open source le modèle Ling-2.6-Flash avec plusieurs options de précision

L'accord Meta-Manus difficile à annuler : comment Pékin va-t-il exercer son autorité ?

Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?

MCP dans l'écosystème Java : une stratégie architecturale pour les intégrations LLM

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

OpenAI permet désormais aux équipes de créer des bots personnalisés capables de travailler de façon autonome

Shopify, l'IA en 2026 : explosion des usages, budget Opus-4.6 illimité, avec le CTO Mikhail Parakhin

OpenClaw peine à confirmer après son succès fulgurant

Kimi K2.6 exécute des agents pendant plusieurs jours et révèle les limites de l'orchestration d'entreprise

JetBrains Central : piloter l’ère du développement agentique en entreprise

Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Google lance 'Skills' dans Chrome : des prompts IA réutilisables en actions navigateur en un clic

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Accio Work d’Alibaba : l’IA autonome au service des PME

Comment un programmeur autodidacte est devenu le père de Claude Code

OSGym : une infrastructure open source pour agents informatiques, gérant plus de 1 000 répliques à 0,23 $/jour

OpenClaw vs ChatGPT : quel agent IA local bat le roi du cloud ?

Slack lance 30 nouveautés pour placer Slackbot au cœur du travail

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

Experian révèle un paradoxe de fraude dans l'adoption de l'IA par les services financiers

ByteDance aide OpenClaw à lancer sa marketplace logicielle en Chine

Slack ajoute 30 fonctionnalités IA à Slackbot, sa mise à jour la plus ambitieuse depuis le rachat par Salesforce

OpenAI : Sora coûtait un million de dollars par jour et a perdu la moitié de ses utilisateurs en un temps record

A-Evolve : l'équivalent PyTorch pour les systèmes d'agents autonomes, remplaçant le réglage manuel par la mutation d'état automatisée et l'auto-correction

Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer

L'avenir de l'IA entre ouverture et propriétaire

Granola lève 125 M$, valorisée 1,5 milliard, et passe de la prise de notes aux applications IA d'entreprise

The Download : le bien-être animal conquis par l'AGI, et la Maison Blanche dévoile sa politique IA

Google fait marche arrière sur l'IA dans le navigateur alors que l'industrie mise sur les outils de développement

Google Colab propose un serveur MCP (Model Context Protocol) open source : accédez aux environnements GPU depuis n'importe quel agent IA local

Internet est submergé par des milliards de visites de robots IA selon un rapport

Comment Nvidia NemoClaw compte sécuriser les agents OpenClaw ?

La version OpenClaw de Nvidia pourrait résoudre son plus grand problème : la sécurité