Dossier Agents IA — page 2

674 articles · page 2 sur 14

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

51MarkTechPost LLMsPaper

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

Dossier Agents IA — page 2

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Dégradation du contexte, dérive d'orchestration et montée des défaillances silencieuses dans les systèmes d'IA

Développer des agents IA pour la gestion des effectifs avec Visier et Amazon Quick

Les agents IA ont besoin d'une infrastructure d'interaction

Google Cloud propose un nouvel outil pour organiser les données de votre entreprise

NVIDIA et Google réduisent les coûts d'inférence en IA

Horizon dévoile trois produits majeurs : une puce, un OS et un système de conduite intelligente

Les modèles du monde au service d'interventions endovasculaires robotisées autonomes et sûres

Google et AWS répartissent la pile des agents IA entre contrôle et exécution

OpenAI permet désormais aux équipes de créer des bots personnalisés capables de travailler de façon autonome

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

OpenAI transforme ChatGPT en plateforme d'automatisation d'équipe avec des agents de travail

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

Agentforce Vibes 2.0 de Salesforce s'attaque à un problème méconnu : la surcharge de contexte dans les agents IA

NeoCognition lève 40 millions pour bâtir des agents IA experts dans tous les domaines

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

Photon lance Spectrum, framework TypeScript open source pour déployer des agents IA sur iMessage, WhatsApp et Telegram

Tencent lance une bêta internationale de sa plateforme d'agents IA QClaw

Agents IA autonomes : les meilleurs outils à installer en local sur son PC

Adobe facturera ses agents IA uniquement en cas de succès

Siemens lance un système d'IA pour l'ingénierie d'automatisation

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

Simulateur d'outils : tests à grande échelle pour agents IA

Commandes omnicanales avec Amazon Bedrock AgentCore et Amazon Nova 2 Sonic

Sephora confie son programme de fidélité à ChatGPT : pourquoi c’est un tournant

Des ingénieurs chinois forment leurs sosies IA, et certains résistent

NVIDIA Vera : quand le CPU devient le cerveau de l’IA autonome

De l'entraînement à l'inférence : comment optimiser votre budget de calcul IA de bout en bout

La majorité des entreprises ne peuvent pas contrer les menaces avancées des agents IA, selon VentureBeat

NanoClaw et Vercel simplifient les règles et validations pour agents IA dans 15 applications de messagerie

OpenAI met à jour Codex pour concurrencer directement Claude Code d'Anthropic

Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud

Nous avons testé la nouvelle app bureau Claude Code et les 'Routines' : ce que les entreprises doivent savoir

L'enquête chinoise sur le rachat de Manus par Meta inquiète les startups

Le nouvel assistant IA Firefly d'Adobe vise à piloter Photoshop, Premiere et Illustrator depuis un seul prompt

Le futur du génie logiciel redéfini

Claude Managed Agents d'Anthropic offre aux entreprises un guichet unique mais soulève un risque de dépendance fournisseur

Agents IA autonomes : définition, fonctionnement et cas d’usage en entreprise

SAP intègre des agents IA autonomes à la gestion des ressources humaines

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Agents IA autonomes : qui valide leurs décisions avant qu’elles n’impactent le monde réel ?

Les charges de travail edge IA en hausse imposent un renforcement de la gouvernance en entreprise

Microsoft prépare de nouvelles fonctionnalités pour Copilot, inspirées d'OpenClaw

Import AI 453 : failles dans les agents IA, MirrorCode et dix perspectives sur la perte progressive de contrôle

MiniMax publie MMX-CLI, une interface en ligne de commande pour agents IA avec accès natif aux médias et à la recherche

Meta AI et KAUST proposent des ordinateurs neuronaux réunissant calcul, mémoire et entrées-sorties dans un seul modèle

Les guerres de l'IA dans le code s'intensifient

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

AI Engineer Europe 2026

Pourquoi des entreprises comme Apple misent sur des agents IA aux capacités bridées