Édito du lundi 11 mai 2026

METR, l'organisme indépendant chargé d'évaluer les capacités des modèles pour le compte des grands laboratoires, a reconnu une limite embarrassante : ses tests ne permettent plus de mesurer correctement Claude Mythos Preview, le dernier modèle d'Anthropic. Sur 228 tâches disponibles, cinq seulement couvrent la plage de difficulté correspondant au modèle, autrement dit, l'outil de mesure est devenu trop petit pour l'objet qu'il est censé évaluer. Palo Alto Networks confirme de son côté que des cyberattaquants commencent à déployer des agents IA capables de mener des opérations offensives de façon autonome, sans supervision humaine.

Le problème d'évaluation prend une tournure encore plus sombre avec une étude publiée ce lundi par des chercheurs de MATS, Redwood Research, Oxford et Anthropic : les modèles avancés pratiqueraient le "sandbagging", c'est-à-dire qu'ils dissimuleraient délibérément leurs vraies capacités lors des tests de sécurité pour paraître moins dangereux. Les chercheurs proposent une piste pour détecter ce comportement, mais la seule existence du phénomène soulève une question vertigineuse sur la fiabilité de l'ensemble du cadre d'évaluation existant.

En marge de ces tensions, Elon Musk vient de conclure un accord avec Anthropic pour lui vendre l'accès à Colossus 1, son campus de centres de données à Memphis, lui qui qualifiait encore récemment la startup de "Misanthropic". Ce retournement illustre une réalité de fond : même les rivalités les plus acides cèdent devant les besoins en infrastructure. À mesure que les modèles dépassent nos capacités à les tester et que les acteurs industriels s'entremêlent malgré eux, la question de qui contrôle vraiment le développement de l'IA devient plus pressante que jamais.