Aller au contenu principal
RechercheVentureBeat AI6sem

Les modèles de pointe échouent une fois sur trois en production et deviennent plus difficiles à auditer

Résumé IASource uniqueImpact UE
Source originale ↗·

Les modèles d'IA les plus avancés échouent encore environ une fois sur trois dans des conditions réelles, selon le neuvième rapport annuel de l'AI Index publié par Stanford HAI. Sur τ-bench, un benchmark qui évalue des agents sur des tâches concrètes impliquant des échanges utilisateurs et des appels à des API externes, les meilleurs modèles actuels, dont Claude Opus 4.5, GPT-5.2 et Qwen3.5, n'atteignent qu'entre 62,9 % et 70,2 % de réussite. Pourtant, ces mêmes systèmes ont réalisé des progrès spectaculaires ailleurs : les performances sur Humanity's Last Exam ont progressé de 30 % en un an, les scores sur MMLU-Pro dépassent désormais 87 %, et la réussite sur SWE-bench Verified, qui mesure la capacité à résoudre de vrais bugs logiciels, est passée de 60 % à près de 100 % en douze mois. Sur WebArena, un environnement web simulé pour agents autonomes, le taux de succès est passé de 15 % en 2023 à 74,3 % début 2026. En cybersécurité, les modèles frontières résolvent désormais 93 % des problèmes de Cybench, contre 15 % l'an dernier.

Ce décalage entre capacité et fiabilité constitue, selon Stanford HAI, le défi opérationnel central pour les directions informatiques en 2026. L'adoption de l'IA en entreprise a atteint 88 %, et les usages se multiplient dans des domaines à haute exigence d'exactitude : traitement fiscal, finance d'entreprise, droit, traitement de prêts hypothécaires, avec des taux de précision oscillant entre 60 et 90 %. Le problème n'est pas l'absence de progrès, mais leur caractère imprévisible. Les chercheurs reprennent le concept de "jagged frontier" de l'universitaire Ethan Mollick pour décrire cette frontière instable : un modèle peut décrocher une médaille d'or à l'Olympiade Internationale de Mathématiques, comme l'a fait Gemini Deep Think en 2025, résolvant cinq des six problèmes en langage naturel en moins de 4h30, et simultanément être incapable de lire l'heure de façon fiable.

Ce rapport intervient dans un contexte de course aux capacités qui ne montre aucun signe de ralentissement. Stanford HAI est explicite : "Les capacités de l'IA ne plafonnent pas. Elles s'accélèrent." Les progrès en génération vidéo illustrent cette tendance : Veo 3 de Google DeepMind, testé sur plus de 18 000 vidéos générées, a démontré une capacité à simuler la flottabilité et à résoudre des labyrinthes sans entraînement spécifique sur ces tâches, suggérant que certains modèles commencent à modéliser le fonctionnement du monde physique. La question qui se pose désormais n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais comment garantir une fiabilité suffisante pour des déploiements critiques, et comment auditer des systèmes dont la complexité croissante rend l'interprétabilité de plus en plus difficile.

Impact France/UE

Les entreprises européennes déployant l'IA dans des secteurs réglementés (finance, droit, fiscal) doivent intégrer ce taux d'échec de 30 % dans leurs stratégies de déploiement, avec des implications directes pour la conformité à l'AI Act qui exige des garanties de fiabilité pour les systèmes à haut risque.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
1arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
La planification par gradient dans les modèles du monde sur des horizons prolongés
2Robohub 

La planification par gradient dans les modèles du monde sur des horizons prolongés

Des chercheurs de Meta AI, de l'Université de Californie Berkeley et du GRASP Lab ont publié un article présentant GRASP, un nouveau planificateur à base de gradients conçu pour les modèles de monde appris. L'équipe comprend Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun et Amir Bar. GRASP s'attaque à l'un des problèmes les plus persistants de l'IA incarnée : utiliser efficacement un modèle prédictif puissant pour planifier des séquences d'actions sur de longs horizons temporels. L'approche repose sur trois innovations clés : élever la trajectoire dans des états virtuels pour paralléliser l'optimisation dans le temps, introduire de la stochasticité directement dans les itérations d'état pour favoriser l'exploration, et reformuler les gradients afin que les actions reçoivent des signaux d'apprentissage clairs, tout en évitant les gradients instables qui traversent les modèles de vision haute dimension. Ce travail est important parce qu'il résout un goulot d'étranglement concret qui freine le déploiement des modèles de monde modernes dans des systèmes de contrôle réels. Un modèle de monde, dans ce contexte, est un simulateur différentiable appris : donné un état courant et une séquence d'actions futures, il prédit ce qui va se passer. En théorie, cela permettrait à un agent de planifier par optimisation, en faisant rouler le modèle en avant et en rétropropageant les erreurs. En pratique, sur de longs horizons, ce processus dégénère : les graphes de calcul deviennent mal conditionnés (problème d'explosion ou de disparition des gradients, analogue au backpropagation through time), des minima locaux apparaissent à cause de la structure non-greedy de la tâche, et les espaces latents de haute dimension introduisent des instabilités supplémentaires. GRASP contourne ces trois écueils simultanément, rendant la planification par gradient beaucoup plus robuste sans abandonner la différentiabilité du système. Les modèles de monde sont devenus un axe central de la recherche en IA depuis que Yann LeCun, directeur scientifique de Meta AI, a défendu leur rôle fondamental dans la quête d'une IA plus générale. Des systèmes comme DreamerV3 ou les modèles vidéo génératifs récents montrent que ces architectures peuvent désormais prédire de longues séquences d'observations dans des espaces visuels complexes et généraliser entre tâches. Mais posséder un simulateur puissant et s'en servir efficacement pour la prise de décision sont deux choses différentes. GRASP comble ce fossé en rendant la planification à long horizon viable là où elle échouait auparavant, ouvrant la voie à des agents robotiques ou autonomes capables de raisonner sur des séquences d'actions étendues dans des environnements réels.

RecherchePaper
1 source
3Ars Technica AI 

Les modèles d'IA sont mauvais pour parier sur le football, Grok en tête

Une étude publiée cette semaine par la startup londonnienne General Reasoning révèle que les grands modèles d'IA de Google, OpenAI, Anthropic et xAI ont tous perdu de l'argent en pariant virtuellement sur les matchs de Premier League de la saison 2023-2024. Le rapport, baptisé "KellyBench", a soumis huit systèmes d'IA à une reconstitution virtuelle complète de la saison, en leur fournissant des données historiques détaillées sur chaque équipe et chaque rencontre. Les modèles avaient pour mission de construire des stratégies maximisant les rendements tout en gérant le risque, une tâche à laquelle tous ont échoué, le modèle Grok d'xAI s'illustrant particulièrement mal. Ce résultat met en lumière une limite structurelle des IA actuelles : leur incapacité à raisonner de manière fiable sur des problèmes complexes du monde réel sur de longues périodes. Là où ces mêmes systèmes excellent dans des tâches bien délimitées comme l'écriture de code ou la génération de texte, la prévision sportive exige une intégration de facteurs dynamiques, d'incertitudes cumulées et d'un jugement probabiliste soutenu que les modèles peinent à maintenir sur une saison entière. L'étude KellyBench s'inscrit dans un débat plus large sur les véritables capacités de raisonnement des LLM. Alors que les benchmarks traditionnels sont régulièrement saturés par les nouveaux modèles, General Reasoning cherche à concevoir des épreuves qui résistent dans le temps et mesurent des compétences cognitives authentiques. Les paris sportifs, imprévisibles par nature et impossibles à mémoriser par entraînement, constituent un terrain de test particulièrement révélateur des lacunes réelles de ces systèmes.

💬 Ça paraît anecdotique, mais c'est en fait un des benchmarks les plus honnêtes qu'on ait vus depuis longtemps : tu enlèves la possibilité de mémoriser les réponses pendant l'entraînement, et là les modèles se plantent dans les grandes largeurs. Ce que ça révèle, c'est pas qu'ils sont "mauvais au foot", c'est qu'ils tiennent pas sur la durée dès que le problème est dynamique et bruité. Grok en lanterne rouge, c'est la cerise.

RecherchePaper
1 source
Modèles du monde : 10 points clés sur l'IA en ce moment
4MIT Technology Review 

Modèles du monde : 10 points clés sur l'IA en ce moment

Les "world models" figurent parmi les dix tendances les plus importantes de l'intelligence artificielle selon le MIT Technology Review, qui leur consacre une place dans sa sélection éditoriale annuelle "10 Things That Matter in AI Right Now". La publication organise en parallèle une table ronde réservée aux abonnés intitulée "Can AI Learn to Understand the World?", animée par le rédacteur en chef Mat Honan, le senior editor Will Douglas Heaven et la journaliste spécialisée Grace Huckins. Les world models représentent une approche fondamentalement différente de l'IA actuelle : plutôt que de prédire des tokens de texte, ces systèmes cherchent à construire une représentation interne du monde physique, capable d'anticiper les conséquences d'actions dans des environnements réels. L'enjeu est considérable pour la robotique, les véhicules autonomes et tout système d'IA devant agir dans le monde réel plutôt que simplement répondre à des requêtes textuelles. Le sujet est étroitement lié aux travaux de Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une vision où les world models constitueraient la prochaine étape majeure au-delà des grands modèles de langage. Des applications concrètes commencent à émerger, comme l'utilisation des données de Pokémon Go pour doter des robots livreurs d'une cartographie centimètre par centimètre de l'environnement urbain. L'intérêt croissant de la presse spécialisée pour ce concept signale que le débat sur les limites des LLMs actuels s'intensifie dans les cercles de recherche.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour