Claude Code : '/goals' sépare l'agent qui travaille de celui qui décide que c'est fini
Anthropic a introduit une nouvelle fonctionnalité dans Claude Code appelée /goals, qui sépare formellement l'exécution d'une tâche de son évaluation. Concrètement, lorsqu'un développeur définit un objectif via cette commande, par exemple /goal all tests in test/auth pass, and the lint step is clean, un second modèle, Claude Haiku par défaut, intervient après chaque étape pour vérifier si la condition est réellement remplie. Si ce n'est pas le cas, l'agent continue à travailler. Ce n'est qu'une fois la condition satisfaite que le système enregistre l'objectif atteint dans la transcription de la conversation et efface l'instruction. Haiku est retenu pour ce rôle d'évaluateur car sa décision est binaire : terminé ou pas terminé.
Le problème que /goals cherche à résoudre est concret et coûteux : un agent de migration de code peut terminer son exécution, afficher un pipeline vert, mais avoir laissé plusieurs composants non compilés, une erreur qui peut prendre plusieurs jours à détecter. Ce n'est pas une défaillance du modèle en tant que tel, c'est l'agent qui décide qu'il a fini avant que ce soit réellement le cas. Pour les entreprises qui déploient des pipelines IA en production, cette confusion entre ce qui a été accompli et ce qui reste à faire représente un risque opérationnel sérieux. Avec ce mécanisme natif, Anthropic affirme qu'il n'est plus nécessaire de s'appuyer sur une plateforme d'observabilité tierce ni sur des journaux personnalisés pour reconstruire après coup ce qui s'est passé.
D'autres acteurs du secteur ont identifié le même obstacle. OpenAI permet aux utilisateurs d'ajouter leurs propres évaluateurs mais laisse au modèle la responsabilité de décider quand s'arrêter. LangGraph et le Google Agent Development Kit (ADK) rendent possible une évaluation indépendante, mais exigent que les développeurs définissent eux-mêmes le nœud critique, la logique de terminaison et la configuration de l'observabilité. Google ADK propose un LoopAgent aux capacités comparables, mais l'architecture reste entièrement à la charge du développeur. Anthropic, en intégrant l'évaluateur directement dans Claude Code avec des paramètres par défaut, mise sur la simplicité de déploiement comme avantage différenciant. Sean Brownell, directeur solutions chez Sprinklr, tempère toutefois l'enthousiasme : la boucle tâche/juge fonctionne, mais l'approche d'Anthropic n'est pas fondamentalement unique. Cette évolution s'inscrit dans une tendance plus large où les systèmes de vérification indépendants deviennent un composant standard des agents à longue durée d'exécution, aux côtés d'outils comme Devin ou SWE-agent.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

![[AINews] Des agents pour tout le reste : Codex pour le travail intellectuel, Claude pour la création](/_next/image?url=https%3A%2F%2Fapi.lefilia.fr%2Fapi%2Fv1%2Fimages%2Farticle_2800402.png&w=3840&q=75)


