Aller au contenu principal
RechercheAI News6sem

L'écart entre les États-Unis et la Chine en IA s'est réduit, mais pas sur l'IA responsable

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Le rapport annuel sur l'intelligence artificielle publié cette semaine par l'Institut pour l'IA centrée sur l'humain de l'Université Stanford dresse un état des lieux qui contredit plusieurs certitudes dominantes. Ce document de 423 pages couvre les performances des modèles, les flux d'investissement, la recherche académique et la sécurité de l'IA. Parmi les conclusions les plus saillantes : l'écart de performance entre les modèles américains et chinois s'est pratiquement refermé. En février 2025, DeepSeek-R1 a brièvement égalé le meilleur modèle américain, et en mars 2026, le modèle de pointe d'Anthropic ne devance son équivalent chinois que de 2,7 %. Les États-Unis produisent encore davantage de modèles de premier rang (50 en 2025 contre 30 pour la Chine) et conservent un avantage en brevets à fort impact, mais la Chine domine désormais en volume de publications, en citations et en dépôts de brevets. Sa part dans les 100 articles d'IA les plus cités est passée de 33 en 2021 à 41 en 2024. La Corée du Sud, fait notable, détient le premier rang mondial pour les brevets IA par habitant.

Ce rééquilibrage des forces a des implications directes pour les entreprises et les gouvernements qui fondent leur stratégie sur une supposée suprématie technologique américaine durable : cette hypothèse n'est plus solide. Le rapport pointe également une vulnérabilité structurelle majeure : les États-Unis abritent 5 427 centres de données, soit plus de dix fois tout autre pays, mais la quasi-totalité des puces IA qui les font fonctionner est fabriquée par une seule entreprise, TSMC, dont le site principal se trouve à Taïwan. Une expansion de TSMC sur le sol américain a certes démarré en 2025, mais la dépendance reste critique. Par ailleurs, les incidents documentés liés à l'IA ont bondi à 362 en 2025 contre 233 en 2024, et moins de 100 par an avant 2022, selon l'AI Incident Database. Le moniteur de l'OCDE a enregistré un pic de 435 incidents mensuels en janvier 2026.

Ce qui rend ces chiffres d'autant plus préoccupants, c'est l'absence quasi totale d'évaluation publique en matière de sécurité responsable. Le rapport constate que presque tous les développeurs de modèles publient leurs résultats sur des benchmarks de capacité, mais que les benchmarks de sécurité, d'équité et de factualité restent en grande partie vides. Seul Claude Opus 4.5 renseigne plus de deux indicateurs de sécurité responsable parmi ceux suivis par le rapport ; seul GPT-5.2 rapporte le benchmark StrongREJECT. Les laboratoires font bien du red-teaming et des tests d'alignement en interne, mais ces efforts sont rarement divulgués via un référentiel commun et comparable. Résultat : toute comparaison externe sur les dimensions de sécurité est impossible pour la majorité des modèles. Selon une enquête conjointe du rapport et de McKinsey, la part des organisations évaluant leur gestion des incidents IA comme "excellente" est en recul, signalant que la gouvernance interne ne suit pas le rythme de déploiement.

Impact France/UE

L'UE doit reajuster sa strategie d'autonomie technologique face a la quasi-parite sino-americaine en IA, et l'absence de benchmarks publics de securite responsable complique directement l'evaluation de conformite prevue par l'AI Act.

💬 Le point de vue du dev

L'écart à 2,7% entre le meilleur modèle US et son équivalent chinois, oui, c'est notable. Mais le chiffre qui m'a arrêté, c'est que pendant que les incidents IA grimpent à 362 en 2025, presque aucun labo ne publie ses données sur les benchmarks de sécurité (seul Claude Opus 4.5 renseigne plus de deux indicateurs dans le rapport). On compare les capacités dans tous les sens, et on construit sur des fondations qu'on refuse de montrer.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA
1VentureBeat AI 

xMemory réduit les coûts en tokens et la surcharge de contexte dans les agents IA

Des chercheurs du King's College London et de l'Alan Turing Institute ont développé xMemory, une nouvelle technique de mémoire pour les agents d'intelligence artificielle conçus pour fonctionner sur de longues durées et plusieurs sessions. Le problème qu'ils cherchent à résoudre est concret : les pipelines RAG (Retrieval-Augmented Generation) standard, qui permettent aux LLMs de puiser dans des données externes, ne sont pas adaptés aux assistants persistants. xMemory organise les conversations en une hiérarchie structurée de thèmes sémantiques, puis les recherche de haut en bas — du thème général vers les détails bruts — au lieu de faire des recherches directes dans les journaux de conversation bruts. Les résultats sont significatifs : selon les chercheurs, le système ramène la consommation de tokens de plus de 9 000 à environ 4 700 tokens par requête sur certaines tâches, tout en améliorant la qualité des réponses et le raisonnement sur le long terme. L'enjeu est majeur pour les entreprises qui déploient des agents IA dans des contextes métiers — assistants personnalisés, outils de décision multi-sessions, support client continu. Le problème fondamental du RAG classique dans ce contexte, c'est que la mémoire d'un agent n'est pas une base de données diverse, mais un flux continu et corrélé de conversations. Les passages récupérés se ressemblent souvent, contiennent des quasi-doublons, et sont liés par des coréférences et des dépendances temporelles strictes. Résultat : les systèmes classiques récupèrent trop d'informations similaires sur un même sujet — par exemple, plusieurs variantes de "j'aime les oranges" — en ratant des faits catégoriels essentiels pour répondre à la vraie question. Les tentatives de correction par filtrage ou compression après récupération aggravent souvent le problème, car elles suppriment accidentellement des éléments de contexte indispensables. L'approche xMemory repose sur un principe qu'ils appellent "découplage vers agrégation" : au lieu d'interroger directement les logs de conversation, le système décompose d'abord le flux en faits sémantiques distincts et autonomes, puis les regroupe dans une hiérarchie de thèmes. Cette structure évite la redondance — deux passages similaires assignés à des composants sémantiques différents ne seront pas récupérés ensemble. C'est une réponse directe à l'un des angles morts les plus sous-estimés du déploiement LLM en entreprise : la gestion de la mémoire à long terme. Alors que la demande pour des agents IA cohérents et personnalisés explose, xMemory propose une architecture qui réduit à la fois les coûts de calcul et les hallucinations liées à une mémoire mal gérée — un double gain qui pourrait rapidement influencer la façon dont les équipes d'ingénierie construisent leurs pipelines d'agents persistants.

UELa recherche, menée par le King's College London et l'Alan Turing Institute, pourrait influencer les architectures d'agents IA adoptées par les équipes d'ingénierie européennes cherchant à réduire les coûts de déploiement et améliorer la cohérence des assistants persistants.

RecherchePaper
1 source
2MIT Technology Review 

Comprendre l'état actuel de l'IA : ces graphiques sont essentiels

Le rapport annuel AI Index 2026 de l'Institut HAI de l'Université Stanford, publié ce mois-ci, dresse un bilan saisissant de l'état de l'intelligence artificielle mondiale. Malgré les prédictions d'un essoufflement technologique, les modèles de pointe continuent de progresser à un rythme sans précédent. Sur le benchmark SWE-bench Verified, qui mesure les capacités en ingénierie logicielle, les meilleurs scores sont passés d'environ 60 % en 2024 à près de 100 % en 2025. Les modèles atteignent désormais ou dépassent les performances d'experts humains sur des tests de niveau doctorat en sciences, mathématiques et compréhension du langage. L'adoption de l'IA par le grand public progresse plus vite que celle du PC ou d'Internet en leur temps, et les entreprises du secteur génèrent des revenus plus rapidement que lors de n'importe quel autre boom technologique de l'histoire. Le tout, en dépensant des centaines de milliards de dollars en centres de données et en puces électroniques. Cette accélération a des conséquences concrètes et massives. Les centres de données IA dans le monde peuvent désormais consommer 29,6 gigawatts d'électricité, soit l'équivalent de la consommation maximale de l'État de New York. La seule utilisation de GPT-4o d'OpenAI pourrait dépasser annuellement les besoins en eau potable de 12 millions de personnes. La chaîne d'approvisionnement en semi-conducteurs représente une vulnérabilité stratégique majeure : les États-Unis concentrent la majorité des centres de données mondiaux, mais une seule entreprise taïwanaise, TSMC, fabrique la quasi-totalité des puces IA de pointe. Par ailleurs, les benchmarks censés mesurer les progrès de l'IA, les cadres réglementaires et le marché du travail peinent à suivre un secteur qui avance bien plus vite qu'eux. Sur le plan géopolitique, la course entre les États-Unis et la Chine est désormais au coude à coude. En début d'année 2023, OpenAI dominait nettement avec ChatGPT, mais l'écart s'est resserré en 2024 avec l'arrivée des modèles de Google et Anthropic. En février 2025, DeepSeek R1, développé par un laboratoire chinois, a brièvement égalé ChatGPT. En mars 2026, Anthropic prend la tête du classement Arena, suivi de près par xAI, Google et OpenAI, tandis que DeepSeek et Alibaba ne sont qu'à faible distance. Si les États-Unis disposent de modèles plus puissants, de davantage de capitaux et de 5 427 centres de données (dix fois plus que tout autre pays), la Chine domine en publications scientifiques, brevets et robotique. La transparence, elle, recule : OpenAI, Anthropic et Google ne divulguent plus leurs codes d'entraînement ni la taille de leurs modèles, compliquant le travail des chercheurs indépendants en matière de sécurité de l'IA.

UELes cadres réglementaires européens, dont l'AI Act, peinent à suivre le rythme d'accélération de l'IA décrit dans le rapport Stanford HAI 2026, soulevant des interrogations sur la capacité de l'UE à encadrer efficacement un secteur qui évolue bien plus vite que ses institutions.

💬 SWE-bench à presque 100% en un an, des modèles qui surpassent des experts sur des tests de doctorat, une adoption plus rapide qu'Internet en son temps. Les chiffres Stanford HAI 2026 sont là, vérifiables, pas du storytelling de keynote. Ce qui coince, c'est que pendant que les perfs s'envolent, OpenAI, Anthropic et Google ont discrètement arrêté de publier tailles de modèles et codes d'entraînement, laissant les chercheurs en sécurité IA travailler de plus en plus dans le noir.

RecherchePaper
1 source
LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte
3Apple Machine Learning 

LaCy : ce que les petits modèles de langage peuvent et doivent apprendre ne se réduit pas à une question de perte

Une étude présentée au workshop "Memory for LLM-Based Agentic Systems" de la conférence ICLR 2025 s'attaque à une question fondamentale pour les petits modèles de langage (SLM) : que doivent-ils apprendre lors du préentraînement, et que doivent-ils déléguer à des sources externes ? Les chercheurs ont développé LaCy, un cadre théorique et expérimental qui questionne la fonction de perte standard utilisée pour entraîner ces modèles, en montrant qu'optimiser uniquement la vraisemblance des données n'est pas suffisant pour des SLM efficaces et fiables. Le problème est structurel : contrairement aux grands modèles comme GPT-4 ou Llama 3, les SLM disposent d'une capacité paramétrique limitée, ce qui les contraint à faire des choix sur les connaissances à mémoriser. Sans mécanisme adapté, ils génèrent des faits incorrects plutôt que d'admettre leur ignorance et de consulter une base de données ou un modèle plus puissant. LaCy propose de reformuler ce que le modèle "devrait" apprendre en tenant compte explicitement de la disponibilité de sources externes, comme des documents récupérés par RAG ou des API spécialisées. Ce travail s'inscrit dans la tendance croissante à déployer des agents IA embarqués sur des appareils à faible puissance, où les gros modèles ne peuvent pas tourner localement. Alors que des entreprises comme Google, Apple ou Mistral misent sur des SLM pour l'edge computing et les assistants embarqués, la question de la frontière entre mémoire paramétrique et mémoire externe devient stratégique. LaCy ouvre la voie à des entraînements plus ciblés, où le modèle apprend à savoir ce qu'il ne sait pas.

UEMistral, entreprise française en pointe sur les petits modèles pour l'edge computing, est directement concernée par les conclusions de LaCy sur l'optimisation de l'entraînement des SLM.

RecherchePaper
1 source
Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic
4Le Big Data 

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour