Un modèle d'IA a codé sans interruption pendant 19 jours sur une tâche MirrorCode, pour un coût de 2 600 dollars
Epoch AI a publié un nouveau benchmark appelé MirrorCode, conçu pour évaluer la capacité des modèles d'IA à recréer des programmes complets à partir de zéro, sans accès au code source original. Les résultats placent Claude Opus 4.7 d'Anthropic en tête, avec un taux de réussite de 56 %, ayant notamment reconstruit un outil de 16 000 lignes de code en seulement 14 heures. À l'autre extrémité du spectre, l'une des tâches les plus complexes du benchmark a mobilisé un modèle en continu pendant 19 jours, pour un coût total de 2 600 dollars de calcul.
Ces chiffres illustrent l'écart considérable qui persiste entre les tâches de programmation accessibles aux IA actuelles et les projets logiciels réellement complexes. Si Claude franchit la barre des 50 % sur des cas intermédiaires, aucun modèle testé ne parvient à résoudre les exercices les plus difficiles du benchmark. Cela signifie que les modèles les plus avancés du marché restent aujourd'hui incapables d'automatiser la reproduction de logiciels non triviaux de manière fiable et économique.
MirrorCode s'inscrit dans une tendance plus large d'évaluations centrées sur le codage autonome à longue durée, qui sont devenues un enjeu stratégique majeur pour les laboratoires d'IA. Des acteurs comme Anthropic, OpenAI et Google investissent massivement dans des agents capables de maintenir une cohérence sur des milliers de lignes et plusieurs jours de travail. Le coût de 2 600 dollars pour une seule tâche pointe vers les limites économiques actuelles de ces systèmes, un obstacle que les prochaines générations de modèles devront franchir pour rendre l'ingénierie logicielle autonome viable à grande échelle.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


