Aller au contenu principal
RechercheThe Decoder1j· 1 min de lecture

Un modèle d'IA a codé sans interruption pendant 19 jours sur une tâche MirrorCode, pour un coût de 2 600 dollars

Source originale ↗·

Epoch AI a publié un nouveau benchmark appelé MirrorCode, conçu pour évaluer la capacité des modèles d'IA à recréer des programmes complets à partir de zéro, sans accès au code source original. Les résultats placent Claude Opus 4.7 d'Anthropic en tête, avec un taux de réussite de 56 %, ayant notamment reconstruit un outil de 16 000 lignes de code en seulement 14 heures. À l'autre extrémité du spectre, l'une des tâches les plus complexes du benchmark a mobilisé un modèle en continu pendant 19 jours, pour un coût total de 2 600 dollars de calcul.

Ces chiffres illustrent l'écart considérable qui persiste entre les tâches de programmation accessibles aux IA actuelles et les projets logiciels réellement complexes. Si Claude franchit la barre des 50 % sur des cas intermédiaires, aucun modèle testé ne parvient à résoudre les exercices les plus difficiles du benchmark. Cela signifie que les modèles les plus avancés du marché restent aujourd'hui incapables d'automatiser la reproduction de logiciels non triviaux de manière fiable et économique.

MirrorCode s'inscrit dans une tendance plus large d'évaluations centrées sur le codage autonome à longue durée, qui sont devenues un enjeu stratégique majeur pour les laboratoires d'IA. Des acteurs comme Anthropic, OpenAI et Google investissent massivement dans des agents capables de maintenir une cohérence sur des milliers de lignes et plusieurs jours de travail. Le coût de 2 600 dollars pour une seule tâche pointe vers les limites économiques actuelles de ces systèmes, un obstacle que les prochaines générations de modèles devront franchir pour rendre l'ingénierie logicielle autonome viable à grande échelle.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Import AI 

Import AI 453 : failles dans les agents IA, MirrorCode et dix perspectives sur la perte progressive de contrôle

METR et Epoch AI, deux organisations spécialisées dans la mesure des capacités de l'IA, ont publié MirrorCode, un benchmark inédit conçu pour évaluer la capacité des modèles à réimplémenter de manière autonome des logiciels complexes existants. Le principe est simple mais exigeant : l'agent IA reçoit un accès en exécution seule à un programme en ligne de commande, ainsi qu'un ensemble de tests visibles, mais sans accès au code source original. Il doit ensuite reproduire fidèlement le comportement du programme. Le benchmark couvre plus de 20 programmes cibles dans des domaines variés : utilitaires Unix, outils de sérialisation de données, bioinformatique, interpréteurs, analyse statique, cryptographie et compression. Le résultat le plus frappant : Claude Opus 4.6 a réussi à réimplémenter gotree, un toolkit de bioinformatique représentant environ 16 000 lignes de code Go et plus de 40 commandes, une tâche qu'un ingénieur humain sans assistance IA aurait mis entre 2 et 17 semaines à accomplir. Ces résultats suggèrent que les systèmes d'IA actuels ont déjà atteint, sur certaines tâches précises, le niveau d'un développeur expérimenté travaillant à plein temps. La capacité à rétro-ingénierer un logiciel complexe en se basant uniquement sur ses sorties est un exercice que seule une fraction des programmeurs humains pourrait réaliser, et en y consacrant plusieurs jours. MirrorCode documente aussi un phénomène important : les performances s'améliorent avec la puissance de calcul allouée à l'inférence, ce qui signifie que des projets encore hors de portée aujourd'hui pourraient devenir accessibles en augmentant simplement les ressources. Pour les entreprises tech, cela redéfinit concrètement ce qu'un agent IA peut accomplir en autonomie sur des projets de longue haleine, bien au-delà de la simple complétion de code. Ce benchmark s'inscrit dans un effort plus large pour mesurer précisément les capacités réelles des grands modèles de langage, souvent sous-estimées ou surestimées selon les contextes. METR, connue pour ses évaluations d'autonomie des agents IA, et Epoch AI, spécialisée dans les tendances de progression du domaine, combinent ici leurs expertises pour produire une méthodologie plus proche des scénarios professionnels réels. Les auteurs soulignent eux-mêmes les limites : les programmes ciblés produisent des sorties canoniques facilitant la vérification, certains résultats sur les programmes simples pourraient s'expliquer par de la mémorisation, et le benchmark ne couvre qu'une fraction de l'univers logiciel. Néanmoins, la trajectoire est claire : à mesure que les modèles progressent et que les budgets de calcul augmentent, la frontière entre ce qu'un agent IA peut faire seul et ce qui nécessite un humain continue de se déplacer rapidement.

UELes équipes de développement logiciel en France et en Europe doivent réévaluer leurs processus d'ingénierie face à des agents IA capables de réimplémenter des projets complexes de manière autonome, redéfinissant le périmètre et la valeur du travail des développeurs.

RecherchePaper
1 source
Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde
2arXiv cs.RO 

Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde

Des chercheurs ont publié sur arXiv une méthode baptisée Privileged Foresight Distillation (PFD), conçue pour améliorer les modèles d'action robotiques sans coût supplémentaire à l'exécution. Ces "world action models" sont des systèmes d'IA entraînés à prédire simultanément des vidéos futures et des actions à effectuer, une architecture populaire dans le domaine de la manipulation robotique. La question centrale que les auteurs cherchent à résoudre est la suivante : à quoi sert réellement la branche de prédiction vidéo lors de l'entraînement, si elle peut être retirée à l'inférence sans perte significative de performance sur des benchmarks comme LIBERO et RoboTwin ? Leur réponse : la vision du futur crée pendant l'entraînement une correction précise et mesurable des actions prédites, correction qui peut être "distillée" dans un adaptateur léger attaché à un modèle n'observant que le présent. Concrètement, PFD fonctionne en deux temps : un modèle "enseignant" voit les vraies images futures pendant l'entraînement et génère une correction, calculée comme la différence entre ses prédictions avec et sans ces images ; un modèle "étudiant", qui n'a accès qu'à l'image courante, apprend à reproduire cette correction via un petit adaptateur. Les deux modèles partagent la même architecture visuelle et ne diffèrent que dans leur masque d'attention sur les tokens vidéo. À l'inférence, aucune vidéo future n'est générée, ce qui maintient une latence négligeable. Les tests sur LIBERO et RoboTwin confirment des gains constants de performance sans surcoût computationnel, ce qui rend la méthode directement applicable à des systèmes robotiques existants. Ce travail s'inscrit dans un débat plus large sur l'utilité des représentations temporelles dans les modèles génératifs appliqués à la robotique. La tendance des "world models", popularisée par des travaux de Google DeepMind, Tesla et d'autres laboratoires, consiste à entraîner des agents capables d'anticiper les conséquences de leurs actions. Jusqu'ici, une interprétation dominante voulait que la prédiction du futur n'agisse que comme régularisateur sur le backbone visuel partagé. PFD renverse cette lecture en montrant que le futur est une correction compressible et transmissible, plutôt qu'une cible de prédiction ou un simple bruit d'entraînement. Cette distinction ouvre des perspectives pour concevoir des robots plus précis tout en réduisant les contraintes d'inférence en temps réel.

RecherchePaper
1 source
3MarkTechPost 

Comment la distillation de connaissances condense l'intelligence d'ensemble en un seul modèle IA

La distillation de connaissances est une technique de compression de modèles d'intelligence artificielle qui permet de transférer le savoir acquis par un grand modèle, ou un ensemble de modèles, vers un modèle plus petit et plus rapide. Dans l'expérience présentée, les chercheurs ont entraîné un ensemble de 12 modèles distincts jouant le rôle d'enseignant collectif, puis ont distillé leur intelligence combinée dans un seul modèle étudiant, plus léger. Le pipeline complet est construit en Python avec PyTorch sur un jeu de données synthétique de classification binaire (5 000 exemples, 20 variables), représentatif de problèmes concrets comme la prédiction de clics publicitaires. La clé du processus réside dans l'utilisation des sorties probabilistes "soft" de l'ensemble enseignant, avec une mise à l'échelle par température, plutôt que les simples étiquettes binaires du jeu de données. Résultat : le modèle étudiant récupère 53,8 % de l'avantage de précision de l'ensemble, avec une compression de facteur 160. Pour l'industrie, cette approche répond à un problème fondamental du déploiement en production : les ensembles de modèles sont précis mais trop lents et trop coûteux pour répondre à des contraintes de latence réelles. Un modèle seul, distillé depuis un ensemble de 12 réseaux, peut être servi en temps réel là où l'ensemble original serait inutilisable. La valeur ne vient pas seulement de la réduction de taille, mais de la qualité du signal transmis : les distributions de probabilité de l'enseignant portent une information bien plus riche que les étiquettes brutes, permettant à l'étudiant d'apprendre des nuances que l'entraînement standard ne capturerait pas. Cette technique est aujourd'hui centrale dans la mise en production des grands modèles de langage et des systèmes de vision par ordinateur, où des modèles comme DistilBERT ou les versions compressées de LLaMA sont directement issus de cette logique. La distillation de connaissances a émergé des travaux pionniers de Geoffrey Hinton et ses collègues chez Google en 2015, initialement pour compresser des ensembles en réseaux uniques. Depuis, elle est devenue un pilier de l'ingénierie ML à l'échelle : chaque fois qu'un modèle de recherche trop lourd doit être rendu opérationnel, la distillation est l'une des premières pistes explorées. L'enjeu est stratégique, les entreprises qui maîtrisent cette compression peuvent déployer des capacités de niveau "grand modèle" sur des infrastructures standard, réduisant drastiquement les coûts de calcul. Avec la prolifération des LLM de plusieurs centaines de milliards de paramètres, la distillation est devenue incontournable pour rendre l'IA générative accessible sur des appareils embarqués, des API à faible latence, ou des environnements edge où la puissance de calcul est limitée.

💬 La distillation de connaissances, c'est pas nouveau, Hinton 2015, DistilBERT, tout ça. Ce qui est bien expliqué ici, c'est pourquoi les soft labels avec la mise à l'échelle par température font toute la différence par rapport à un entraînement classique : l'élève apprend les nuances de l'enseignant, pas juste ses réponses binaires. Facteur 160 de compression avec 53% de l'avantage récupéré, c'est le genre de ratio qui explique pourquoi chaque labo qui sort un gros modèle sort aussi une version distillée dans les semaines qui suivent.

RecherchePaper
1 source
OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant
4MarkTechPost 

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

OpenAI a publié LifeSciBench, un benchmark de 750 tâches conçu pour évaluer la capacité des modèles d'IA à raisonner comme de vrais scientifiques en sciences du vivant. Contrairement aux benchmarks biologiques classiques, qui posent des questions fermées à réponse unique, LifeSciBench soumet les modèles à des problèmes ouverts rédigés par 173 experts titulaires d'un doctorat et issus de l'industrie biotechnologique ou pharmaceutique. Chaque tâche couvre l'un des sept flux de travail scientifiques, analyse de données, conception expérimentale, raisonnement, validation, traduction et communication, et l'un des sept domaines biologiques, de la génomique à la chimie médicinale en passant par la médecine translationnelle. Environ 53 % des tâches s'accompagnent d'artefacts (séquences ADN, figures, tableaux, structures chimiques), et 79 % exigent en moyenne quatre étapes de raisonnement enchaînées. La qualité du benchmark a été validée par 453 relecteurs indépendants, dont 97 % docteurs, avec un taux d'accord global supérieur à 96 %. Les résultats révèlent un écart considérable entre les capacités actuelles des modèles et les exigences du travail scientifique réel. GPT-Rosalind, le modèle spécialisé d'OpenAI, obtient le meilleur score normalisé (0,576) et le taux de réussite par tâche le plus élevé (36,1 %), contre 25,7 % pour GPT-5.5, 23,6 % pour Gemini 3.1 Pro, 20,7 % pour GPT-5.4 et seulement 13,0 % pour Grok 4.3. Autrement dit, même le modèle le plus performant échoue sur près des deux tiers des tâches. Le système de notation s'appuie sur 19 020 critères granulaires, soit environ 25 par tâche, et un seuil de réussite fixé à 70 % du score normalisé. Les points faibles sont nets : GPT-Rosalind chute de 45,1 % de réussite sur les tâches textuelles à 28,1 % dès que des artefacts entrent en jeu, et les workflows de conception et d'optimisation restent particulièrement résistants, avec un taux de passage de seulement 30,7 %. LifeSciBench s'inscrit dans une dynamique plus large où l'industrie pharmaceutique et la recherche biomédicale sont identifiées comme des terrains d'application prioritaires pour les grands modèles de langage. Alors que des entreprises comme Isomorphic Labs, Recursion ou Insilico Medicine déploient déjà des IA dans le pipeline de découverte de médicaments, la question de leur fiabilité sur des tâches complexes et multi-étapes n'avait pas encore de réponse standardisée. Ce benchmark comble ce vide en proposant une évaluation qui reflète la réalité du travail de laboratoire, et non des QCM académiques. Le fait qu'aucun modèle ne dépasse 37 % de réussite signale que le secteur est loin de la saturation, et que des spécialisations domaine par domaine, comme GPT-Rosalind, représentent une piste sérieuse. Le benchmark est publié en accès ouvert, ce qui devrait accélérer la compétition entre laboratoires pour progresser sur ces tâches.

UELes laboratoires pharmaceutiques et instituts de recherche biomédicale européens peuvent s'appuyer sur ce benchmark en accès ouvert pour évaluer objectivement leurs modèles d'IA dans les pipelines de découverte de médicaments.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic