OutilsInfoQ AI13sem· 1 min de lecture

Anthropic conçoit un système à trois agents pour le développement full-stack de longue durée

Résumé IASource uniqueImpact UE Take éditorial

Anthropic a présenté une architecture expérimentale baptisée "three-agent harness", un dispositif en trois agents distincts conçu pour améliorer les workflows de développement logiciel autonome sur de longues durées. Le système dissocie trois fonctions jusqu'alors souvent mélangées dans un seul agent : la planification, la génération de code et l'évaluation des résultats. Chaque rôle est confié à un agent spécialisé, ce qui permet d'orchestrer des sessions de développement frontend et full-stack pouvant s'étendre sur plusieurs heures sans perte de cohérence.

L'enjeu est considérable pour les équipes qui misent sur l'IA pour accélérer leur cycle de développement. En isolant l'évaluation dans un agent dédié, le système introduit une boucle de rétroaction itérative qui maintient la qualité du code généré même lorsque la tâche devient complexe ou que le contexte s'allonge. C'est précisément ce point de rupture, la dégradation des performances sur des tâches longues et multi-fichiers, qui freine l'adoption de l'IA en développement professionnel.

Cette approche s'inscrit dans une réflexion plus large de l'industrie sur les "multi-agent systems", où la spécialisation des rôles permet de dépasser les limites d'un agent unique. Anthropic n'est pas seul sur ce terrain : OpenAI, Google DeepMind et des startups comme Cognition (Devin) explorent des architectures similaires. La publication de ce harness, accompagnée de commentaires techniques de l'industrie, suggère qu'Anthropic cherche à poser un standard méthodologique autant qu'à démontrer une capacité technique.

Impact France/UE

Les équipes de développement européennes pourraient à terme bénéficier de cette architecture pour des workflows de codage assisté de longue durée, mais l'impact reste indirect et non immédiat.

💬 L'analyse de Mathieu

Le vrai problème sur les tâches longues, c'est que l'agent finit par se perdre entre ce qu'il planifie, ce qu'il génère et ce qu'il valide. Trois agents spécialisés avec une boucle d'évaluation dédiée, c'est la bonne architecture pour tenir sur plusieurs heures sans perdre le fil sur un projet multi-fichiers. Anthropic cherche clairement à poser un standard ici, pas juste à montrer une démo.

Dans nos dossiers

Anthropic Google DeepMind OpenAI

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Un développeur d'Anthropic partage des conseils de prompting pour Fable 5, centrés sur ses propres angles morts

Voici le résumé en français : Thariq Shihipar, développeur chez Anthropic, a partagé une série de conseils pour tirer le meilleur parti de Fable 5, le nouveau modèle de l'entreprise, en s'appuyant sur son expérience de terrain. Sa thèse centrale renverse la perspective habituelle : selon lui, le principal frein à l'efficacité n'est plus la capacité du modèle, mais les angles morts de l'utilisateur lui-même, c'est-à-dire les connaissances implicites que le programmeur possède sans même s'en rendre compte et qu'il omet de transmettre à l'IA. Pour y remédier, Shihipar propose des méthodes concrètes, notamment des "passes de détection des angles morts" et des entretiens structurés, conçus pour aider les développeurs à identifier systématiquement ce qu'ils savent sans le formuler avant de déléguer une tâche d'implémentation à Claude. Cette approche marque un tournant dans la manière de penser l'usage professionnel des assistants de code IA. Plutôt que de chercher à améliorer le prompt par tâtonnement ou à multiplier les instructions techniques, elle invite les développeurs à interroger leur propre expertise tacite, celle qui guide intuitivement leurs décisions de conception mais reste rarement explicitée. Pour les équipes qui intègrent Claude dans leurs flux de travail quotidiens, cela signifie que la qualité des résultats dépend désormais moins des capacités brutes du modèle que de la capacité des humains à formaliser leur propre raisonnement, un enjeu de communication autant que de technique. Cette réflexion s'inscrit dans un mouvement plus large autour de l'ingénierie de prompt à mesure que les modèles gagnent en autonomie et en compétence sur des tâches complexes de programmation. À mesure que des modèles comme Fable 5 réduisent l'écart de performance brute, la valeur ajoutée se déplace vers la qualité de l'interaction humain-machine. Les praticiens chez Anthropic, en partageant ce type de retours d'expérience issus de leur propre usage interne des outils, cherchent à outiller la communauté des développeurs pour qu'elle exploite pleinement le potentiel de ces nouveaux modèles, plutôt que d'en rester à des pratiques de prompting héritées de générations d'IA moins capables.

💬 Ce qui bloque, c'est plus le modèle, c'est toi. Le vrai goulot d'étranglement avec Claude, c'est tout ce que tu sais sans le dire, ton contexte implicite que le modèle n'a jamais vu. Selon Le Fil IA, la prochaine bataille du prompting ne sera pas technique mais cognitive : apprendre à formaliser ce qu'on sait déjà.

OutilsTuto

1 source

2VentureBeat AI

Anthropic introduit le "dreaming", un système permettant aux agents IA d'apprendre de leurs erreurs

Anthropic a présenté mardi une série de mises à jour majeures pour sa plateforme Claude Managed Agents lors de sa deuxième conférence annuelle Code with Claude, à San Francisco. La nouveauté phare s'appelle le « dreaming » : un mécanisme qui permet aux agents IA de passer en revue leurs sessions passées, d'en extraire des tendances récurrentes et de générer des notes structurées appelées « playbooks », afin de s'améliorer au fil du temps. En parallèle, deux fonctionnalités jusqu'ici expérimentales passent en bêta publique : « outcomes », qui mesure l'efficacité des agents sur des tâches concrètes, et l'orchestration multi-agents, permettant de faire travailler plusieurs instances de Claude simultanément. Les premiers résultats sont frappants : la société d'IA juridique Harvey a multiplié par six son taux de complétion de tâches après avoir intégré le dreaming ; Wisedocs, spécialisée dans la revue de documents médicaux, a réduit ses délais de traitement de 50 % grâce à outcomes ; et Netflix traite désormais les journaux de centaines de builds en parallèle via l'orchestration multi-agents. Ces annonces s'inscrivent dans un contexte de croissance exponentielle pour Anthropic. Lors d'une discussion à la conférence, le PDG Dario Amodei a révélé que la société avait enregistré au premier trimestre 2026 une croissance annualisée de 80x en revenus et en volume d'utilisation, soit huit fois supérieure aux projections internes qui tablaient sur une multiplication par dix. Le volume d'appels à l'API Claude a progressé de près de 70x en glissement annuel, et les développeurs utilisant Claude Code y consacrent en moyenne vingt heures par semaine. « Nous avions planifié pour un monde à 10x de croissance par an, et nous avons vu 80x », a déclaré Amodei, expliquant ainsi les tensions récentes sur les capacités de calcul de l'entreprise. Le dreaming se distingue volontairement des systèmes de mémoire conventionnels qu'Anthropic avait déjà lancés plus tôt cette année. Il ne modifie pas les poids du modèle sous-jacent et n'effectue aucun réentraînement : il s'agit d'un processus planifié qui analyse les historiques de sessions, identifie les erreurs récurrentes et les méthodes convergentes entre plusieurs agents, puis consigne ces enseignements sous forme de texte lisible par des humains. Alex Albert, responsable du product management recherche chez Anthropic, compare ce mécanisme à la manière dont un professionnel documente une procédure après l'avoir itérée en pratique, sauf que c'est le modèle lui-même qui effectue cette capitalisation. Toutes les mémoires produites restent inspectables et auditables, ce qui répond directement aux exigences de traçabilité des entreprises souhaitant déployer des agents IA en environnement de production.

💬 Le nom est gadget, mais le mécanisme est sérieux. Ce que fait le "dreaming", c'est transformer les erreurs d'un agent en documentation structurée, inspectable, qu'une équipe peut vérifier avant de le laisser tourner en prod, et c'est exactement le truc qui manquait pour convaincre les DSI frileux. Harvey à 6x de taux de complétion, c'est le genre de chiffre qui ouvre des budgets.

OutilsOutil

1 source

3Ars Technica AI

Claude d'Anthropic introduit une forme de raisonnement prolongé dans ses agents managés

Lors de sa conférence développeurs "Code with Claude" à San Francisco, Anthropic a dévoilé une nouvelle fonctionnalité expérimentale baptisée "dreaming" pour ses Claude Managed Agents. Concrètement, ce mécanisme consiste en un processus planifié au cours duquel les sessions récentes et les mémoires stockées sont passées en revue, afin d'identifier et de conserver les informations les plus pertinentes pour les tâches futures. La fonctionnalité est actuellement disponible en préversion de recherche et reste limitée aux Managed Agents de la plateforme Claude. Les Managed Agents constituent une couche de haut niveau au-dessus de l'API Messages d'Anthropic, présentée comme un "harnais d'agent préconfiguré et configurable fonctionnant sur une infrastructure gérée". Ils sont conçus pour les cas d'usage où plusieurs agents collaborent sur un même projet pendant plusieurs minutes ou plusieurs heures. L'intérêt du dreaming réside dans la gestion des fenêtres de contexte, intrinsèquement limitées pour tous les grands modèles de langage : sur des projets longs et complexes, des informations cruciales peuvent tout simplement se perdre au fil des échanges. En sélectionnant intelligemment les souvenirs à conserver, Anthropic cherche à rendre ses agents plus cohérents et plus performants sur la durée. Cette innovation s'inscrit dans un effort plus large de l'industrie pour résoudre le problème de la mémoire dans les systèmes d'IA agentiques. Du côté des interfaces de chat, une technique appelée "compaction" est déjà utilisée par de nombreux modèles : les conversations longues sont périodiquement analysées afin de supprimer les informations non essentielles tout en conservant ce qui importe pour le projet en cours. Le dreaming applique une logique similaire à des agents fonctionnant en autonomie sur plusieurs heures. Anthropic, qui fait face à une concurrence croissante d'OpenAI et de Google sur le segment des agents IA, positionne ainsi la plateforme Claude comme un environnement adapté aux flux de travail longs et complexes que les entreprises cherchent à automatiser.

💬 Le problème de la mémoire dans les agents longs, c'est ce qu'on contourne depuis des mois avec des hacks pas glorieux. Là, Anthropic formalise quelque chose de propre : un processus planifié qui trie et consolide les souvenirs utiles, un peu comme la compaction qu'on a déjà côté chat. Reste en preview et limité aux Managed Agents, donc hors de portée pour la plupart des workflows custom pour l'instant.

OutilsOutil

1 source

4The Decoder

Anthropic lance Claude Science, un espace de travail IA conçu spécifiquement pour les chercheurs

Anthropic a lancé Claude Science, un espace de travail conçu spécifiquement pour les chercheurs scientifiques. L'outil embarque plus de 60 compétences préconfigurées couvrant des domaines comme la génomique et la chimie computationnelle, permettant aux scientifiques d'automatiser des tâches complexes propres à leur discipline. Un agent de vérification intégré contrôle automatiquement les citations et les calculs produits, une fonction pensée pour limiter les erreurs dans un contexte où la rigueur est essentielle. L'application peut fonctionner en local ou sur des clusters de calcul haute performance (HPC), ce qui signifie que les données sensibles n'ont jamais besoin de quitter l'infrastructure propre d'un laboratoire. Cette approche répond directement aux préoccupations des institutions de recherche concernant la confidentialité des données, un frein majeur à l'adoption de l'IA dans les laboratoires manipulant des informations sensibles, qu'il s'agisse de séquences génomiques ou de données précliniques. En automatisant la vérification des citations et des calculs, Claude Science s'attaque aussi à un problème récurrent des outils d'IA généralistes en contexte scientifique: le risque d'erreurs factuelles ou de résultats non fiables qui peuvent compromettre des travaux de recherche entiers. Pour les laboratoires publics et privés, cela pourrait accélérer des processus de recherche jusqu'ici ralentis par des contraintes de conformité et de sécurité des données. Ce lancement s'inscrit dans une compétition plus large entre les géants de l'IA pour s'implanter dans le secteur scientifique, un marché où les besoins spécifiques en matière de précision, de traçabilité et de confidentialité diffèrent nettement des usages grand public. Anthropic mise sur la spécialisation par domaine, plutôt que sur un assistant généraliste, pour convaincre des institutions de recherche exigeantes. Reste à voir comment les laboratoires universitaires et industriels, souvent contraints par des budgets et des infrastructures HPC limités, adopteront concrètement cet outil, et si d'autres acteurs du secteur suivront cette voie de la spécialisation verticale.

UELes laboratoires de recherche français et européens pourraient tirer parti de l'exécution locale ou sur clusters HPC, un argument qui répond aux exigences de confidentialité des données scientifiques en vigueur en Europe.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic