Aller au contenu principal
RechercheMIT Technology Review6sem

Comprendre l'état actuel de l'IA : ces graphiques sont essentiels

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Le rapport annuel AI Index 2026 de l'Institut HAI de l'Université Stanford, publié ce mois-ci, dresse un bilan saisissant de l'état de l'intelligence artificielle mondiale. Malgré les prédictions d'un essoufflement technologique, les modèles de pointe continuent de progresser à un rythme sans précédent. Sur le benchmark SWE-bench Verified, qui mesure les capacités en ingénierie logicielle, les meilleurs scores sont passés d'environ 60 % en 2024 à près de 100 % en 2025. Les modèles atteignent désormais ou dépassent les performances d'experts humains sur des tests de niveau doctorat en sciences, mathématiques et compréhension du langage. L'adoption de l'IA par le grand public progresse plus vite que celle du PC ou d'Internet en leur temps, et les entreprises du secteur génèrent des revenus plus rapidement que lors de n'importe quel autre boom technologique de l'histoire. Le tout, en dépensant des centaines de milliards de dollars en centres de données et en puces électroniques.

Cette accélération a des conséquences concrètes et massives. Les centres de données IA dans le monde peuvent désormais consommer 29,6 gigawatts d'électricité, soit l'équivalent de la consommation maximale de l'État de New York. La seule utilisation de GPT-4o d'OpenAI pourrait dépasser annuellement les besoins en eau potable de 12 millions de personnes. La chaîne d'approvisionnement en semi-conducteurs représente une vulnérabilité stratégique majeure : les États-Unis concentrent la majorité des centres de données mondiaux, mais une seule entreprise taïwanaise, TSMC, fabrique la quasi-totalité des puces IA de pointe. Par ailleurs, les benchmarks censés mesurer les progrès de l'IA, les cadres réglementaires et le marché du travail peinent à suivre un secteur qui avance bien plus vite qu'eux.

Sur le plan géopolitique, la course entre les États-Unis et la Chine est désormais au coude à coude. En début d'année 2023, OpenAI dominait nettement avec ChatGPT, mais l'écart s'est resserré en 2024 avec l'arrivée des modèles de Google et Anthropic. En février 2025, DeepSeek R1, développé par un laboratoire chinois, a brièvement égalé ChatGPT. En mars 2026, Anthropic prend la tête du classement Arena, suivi de près par xAI, Google et OpenAI, tandis que DeepSeek et Alibaba ne sont qu'à faible distance. Si les États-Unis disposent de modèles plus puissants, de davantage de capitaux et de 5 427 centres de données (dix fois plus que tout autre pays), la Chine domine en publications scientifiques, brevets et robotique. La transparence, elle, recule : OpenAI, Anthropic et Google ne divulguent plus leurs codes d'entraînement ni la taille de leurs modèles, compliquant le travail des chercheurs indépendants en matière de sécurité de l'IA.

Impact France/UE

Les cadres réglementaires européens, dont l'AI Act, peinent à suivre le rythme d'accélération de l'IA décrit dans le rapport Stanford HAI 2026, soulevant des interrogations sur la capacité de l'UE à encadrer efficacement un secteur qui évolue bien plus vite que ses institutions.

💬 Le point de vue du dev

SWE-bench à presque 100% en un an, des modèles qui surpassent des experts sur des tests de doctorat, une adoption plus rapide qu'Internet en son temps. Les chiffres Stanford HAI 2026 sont là, vérifiables, pas du storytelling de keynote. Ce qui coince, c'est que pendant que les perfs s'envolent, OpenAI, Anthropic et Google ont discrètement arrêté de publier tailles de modèles et codes d'entraînement, laissant les chercheurs en sécurité IA travailler de plus en plus dans le noir.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?
1MIT Technology Review 

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?

Le 21 mai 2026, MIT Technology Review a réuni trois de ses journalistes spécialisés, le rédacteur en chef Mat Honan, le senior editor IA Will Douglas Heaven et la reporter Grace Huckins, pour une table ronde enregistrée consacrée à une question centrale du moment : les IA peuvent-elles apprendre à véritablement comprendre le monde physique ? La discussion s'inscrit dans un mouvement de fond où les grands laboratoires misent sur les "world models", des systèmes capables de se représenter l'environnement réel plutôt que de simplement traiter du texte. L'enjeu est de taille : les grands modèles de langage (LLM) actuels montrent des limites structurelles dès qu'il s'agit d'interagir avec le monde physique, de planifier des actions ou d'anticiper les conséquences de décisions dans des environnements dynamiques. Les world models visent à combler ce fossé, en permettant à des robots, véhicules autonomes ou agents IA d'opérer avec une compréhension spatiale et causale du réel, une capacité que les LLM seuls ne possèdent pas. Le sujet mobilise des figures majeures de la recherche en IA, à commencer par Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une architecture alternative aux transformers pour atteindre cette intelligence "du monde réel". Des applications concrètes émergent déjà, comme l'utilisation des données de Pokémon Go pour offrir aux robots livreurs une cartographie centimètre par centimètre de l'environnement urbain. Le débat sur les world models est désormais au coeur des stratégies des grands acteurs de l'industrie.

UELe chercheur français Yann LeCun est l'une des figures centrales du débat sur les world models, un paradigme qui intéresse les laboratoires européens travaillant sur la robotique et les agents autonomes.

RecherchePaper
1 source
2AI News 

L'écart entre les États-Unis et la Chine en IA s'est réduit, mais pas sur l'IA responsable

Le rapport annuel sur l'intelligence artificielle publié cette semaine par l'Institut pour l'IA centrée sur l'humain de l'Université Stanford dresse un état des lieux qui contredit plusieurs certitudes dominantes. Ce document de 423 pages couvre les performances des modèles, les flux d'investissement, la recherche académique et la sécurité de l'IA. Parmi les conclusions les plus saillantes : l'écart de performance entre les modèles américains et chinois s'est pratiquement refermé. En février 2025, DeepSeek-R1 a brièvement égalé le meilleur modèle américain, et en mars 2026, le modèle de pointe d'Anthropic ne devance son équivalent chinois que de 2,7 %. Les États-Unis produisent encore davantage de modèles de premier rang (50 en 2025 contre 30 pour la Chine) et conservent un avantage en brevets à fort impact, mais la Chine domine désormais en volume de publications, en citations et en dépôts de brevets. Sa part dans les 100 articles d'IA les plus cités est passée de 33 en 2021 à 41 en 2024. La Corée du Sud, fait notable, détient le premier rang mondial pour les brevets IA par habitant. Ce rééquilibrage des forces a des implications directes pour les entreprises et les gouvernements qui fondent leur stratégie sur une supposée suprématie technologique américaine durable : cette hypothèse n'est plus solide. Le rapport pointe également une vulnérabilité structurelle majeure : les États-Unis abritent 5 427 centres de données, soit plus de dix fois tout autre pays, mais la quasi-totalité des puces IA qui les font fonctionner est fabriquée par une seule entreprise, TSMC, dont le site principal se trouve à Taïwan. Une expansion de TSMC sur le sol américain a certes démarré en 2025, mais la dépendance reste critique. Par ailleurs, les incidents documentés liés à l'IA ont bondi à 362 en 2025 contre 233 en 2024, et moins de 100 par an avant 2022, selon l'AI Incident Database. Le moniteur de l'OCDE a enregistré un pic de 435 incidents mensuels en janvier 2026. Ce qui rend ces chiffres d'autant plus préoccupants, c'est l'absence quasi totale d'évaluation publique en matière de sécurité responsable. Le rapport constate que presque tous les développeurs de modèles publient leurs résultats sur des benchmarks de capacité, mais que les benchmarks de sécurité, d'équité et de factualité restent en grande partie vides. Seul Claude Opus 4.5 renseigne plus de deux indicateurs de sécurité responsable parmi ceux suivis par le rapport ; seul GPT-5.2 rapporte le benchmark StrongREJECT. Les laboratoires font bien du red-teaming et des tests d'alignement en interne, mais ces efforts sont rarement divulgués via un référentiel commun et comparable. Résultat : toute comparaison externe sur les dimensions de sécurité est impossible pour la majorité des modèles. Selon une enquête conjointe du rapport et de McKinsey, la part des organisations évaluant leur gestion des incidents IA comme "excellente" est en recul, signalant que la gouvernance interne ne suit pas le rythme de déploiement.

UEL'UE doit reajuster sa strategie d'autonomie technologique face a la quasi-parite sino-americaine en IA, et l'absence de benchmarks publics de securite responsable complique directement l'evaluation de conformite prevue par l'AI Act.

💬 L'écart à 2,7% entre le meilleur modèle US et son équivalent chinois, oui, c'est notable. Mais le chiffre qui m'a arrêté, c'est que pendant que les incidents IA grimpent à 362 en 2025, presque aucun labo ne publie ses données sur les benchmarks de sécurité (seul Claude Opus 4.5 renseigne plus de deux indicateurs dans le rapport). On compare les capacités dans tous les sens, et on construit sur des fondations qu'on refuse de montrer.

RecherchePaper
1 source
Les grands modèles de langage comprennent-ils vraiment le contexte ?
3Apple Machine Learning 

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper
1 source
Des scientifiques artificiels
4MIT Technology Review 

Des scientifiques artificiels

Les grandes entreprises d'intelligence artificielle ont longtemps brandi la promesse d'une science révolutionnée pour justifier leurs investissements massifs. Cette promesse prend aujourd'hui une forme concrète : en octobre 2025, OpenAI a lancé une équipe dédiée à l'IA pour la science et vient d'annoncer GPT-Rosalind, premier d'une série de modèles scientifiques spécialisés. Anthropic a simultanément dévoilé plusieurs fonctionnalités Claude orientées vers les sciences biologiques. Google DeepMind, pionnier dans ce domaine, avait déjà décroché le Nobel de chimie 2024 avec AlphaFold, le système de prédiction de structures protéiques développé par Demis Hassabis et John Jumper. En février 2026, Google publiait son propre outil de co-scientifique IA. Sous le capot, ces systèmes combinent généralement plusieurs agents spécialisés : l'outil de Google mobilise un agent superviseur, un agent de génération et un agent de classement pour produire hypothèses et plans de recherche à partir d'un objectif fourni par un chercheur humain. Des chercheurs de Stanford ont de leur côté créé un "laboratoire virtuel" multi-agents capable de concevoir de nouveaux fragments d'anticorps se liant au SARS-CoV-2. L'enjeu dépasse la simple assistance : OpenAI a officiellement désigné la construction d'un chercheur autonome comme sa "North Star". En février, la société a connecté GPT-5 aux laboratoires biologiques automatisés de Ginkgo Bioworks, permettant au système de proposer des expériences et d'interpréter les résultats avec une intervention humaine minimale. Résultat : après un volume d'expériences massif, le système a mis au point un protocole réduisant de 40 % le coût de synthèse d'une protéine spécifique. Cette capacité à itérer à grande vitesse, sans les contraintes physiques ou cognitives d'une équipe humaine, représente un avantage compétitif considérable pour les laboratoires pharmaceutiques, biotechs et centres de recherche fondamentale. Mais une étude publiée dans Nature apporte une nuance importante : si les scientifiques individuels tirent avantage de l'IA dans leur carrière, la science dans son ensemble pourrait en pâtir. En effet, les modèles d'IA excellent dans l'analyse de bases de données existantes et de littérature établie, ce qui pousse les chercheurs qui les utilisent à se concentrer sur des domaines déjà bien documentés, au détriment de territoires moins balisés mais potentiellement décisifs. Le risque est une homogénéisation progressive des sujets de recherche, laissant en jachère des problèmes complexes moins compatibles avec les approches algorithmiques. Pour que l'IA amplifie réellement la science plutôt que de l'uniformiser, la communauté scientifique devra coordonner activement ses efforts pour préserver la diversité et l'originalité de la recherche à l'ère des agents autonomes.

UEGoogle DeepMind, basé à Londres, est pionnier mondial de l'IA scientifique avec AlphaFold et son outil de co-scientifique, ce qui positionne l'Europe comme acteur clé dans la course à l'automatisation de la recherche scientifique.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour