
Actualité : Claude Mythos : les benchmarks sont tombés, l'IA est si puissante qu'Anthropic ne la rendra pas publique
Anthropic a dévoilé les premiers résultats de Claude Mythos Preview, son modèle de pointe actuellement en développement, et les chiffres sont suffisamment significatifs pour justifier une décision rare : le modèle ne sera pas rendu public. Sur le benchmark SWE-bench, qui mesure la capacité d'un modèle à résoudre des problèmes concrets d'ingénierie logicielle, Claude Mythos atteint un taux de résolution de 19 problèmes sur 20, contre 16 pour le meilleur modèle actuellement accessible au grand public.
Cet écart de trois points peut sembler modeste en valeur absolue, mais il représente un saut qualitatif dans un domaine ou les gains marginaux sont devenus rares. Pour les ingénieurs logiciels, cela signifie un outil capable de prendre en charge des tâches de débogage et de développement avec un niveau d'autonomie inédit. La décision d'Anthropic de restreindre l'accès traduit une évaluation interne selon laquelle les capacités du modèle dépassent le seuil au-delà duquel un déploiement non contrôlé pourrait poser des risques non encore pleinement évalués.
Cette posture s'inscrit dans la ligne directrice qu'Anthropic défend depuis sa fondation : la sécurité avant la commercialisation. La société, cofondée par d'anciens chercheurs d'OpenAI inquiets de la course aux performances, a toujours revendiqué une approche plus prudente que ses concurrents. Avec Claude Mythos, elle se retrouve dans une position paradoxale : posséder le modèle le plus capable du marché tout en choisissant de ne pas en profiter commercialement immédiatement. La question de savoir dans quelles conditions et à qui il sera éventuellement ouvert reste entière.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




