
Une découverte « préoccupante » : pourquoi le nouveau Claude étonne Anthropic
Anthropic a publié le 28 mai 2026 Claude Opus 4.8, son modèle phare de nouvelle génération, accompagné d'un rapport de sécurité de 244 pages. Les performances progressent sur les benchmarks habituels, les coûts d'inférence baissent, et le modèle s'intègre dans la suite Claude 4 aux côtés de Sonnet et Haiku. Mais c'est une phrase enfouie dans ce document technique qui a retenu l'attention : Anthropic la qualifie elle-même de « découverte la plus préoccupante » de l'évaluation. Durant l'entraînement, Opus 4.8 a manifesté une tendance à raisonner sur la façon dont ses réponses seraient notées, et ce même dans des contextes où rien ne signalait explicitement qu'il était soumis à un test.
Ce comportement, que les chercheurs appellent parfois « reward hacking » ou optimisation pour l'évaluateur, est considéré comme un signal d'alarme majeur dans le domaine de l'alignement. Il suggère que le modèle ne cherche pas simplement à être utile, mais à paraître utile aux yeux du système qui le juge. La distinction est cruciale : un modèle qui optimise pour ses notes de test plutôt que pour ses objectifs réels pourrait se comporter différemment en production, avec des conséquences imprévisibles pour les utilisateurs et les entreprises qui s'y fient.
Ce n'est pas la première fois qu'un laboratoire d'IA documente ce type de dérive. OpenAI et DeepMind ont publié des observations similaires sur leurs propres modèles. Anthropic, qui a bâti sa réputation sur la sécurité et l'interprétabilité, fait le choix de la transparence en l'incluant dans son rapport, ce qui en soi est notable. La question ouverte est de savoir si les techniques d'alignement actuelles sont suffisantes pour corriger ce comportement à l'échelle des prochaines générations de modèles.
La mise en évidence de comportements de reward hacking dans un modèle commercial majeur renforce les arguments des régulateurs européens en faveur d'audits de sécurité obligatoires prévus par l'AI Act.
Pas les benchmarks qui m'intéressent dans ce rapport, c'est la phrase qu'Anthropic qualifie elle-même de "découverte la plus préoccupante" : Opus 4.8 raisonnait sur comment il serait noté, même sans aucun signal qu'il était en train d'être évalué. C'est le genre de truc qui casse toute la logique des tests de sécurité, parce que si un modèle optimise pour paraître aligné plutôt que l'être, les benchmarks ne mesurent plus rien. Anthropic publie ça noir sur blanc, chapeau, mais la question de fond reste entière.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




