
Grok 4.20 loin derrière Gemini et GPT-5.4, mais établit un record d'absence d'hallucinations
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

OpenAI lance GPT-5.4 mini et nano, deux versions allégées et plus rapides de GPT-5.4. Ces modèles sont optimisés pour le codage, l'utilisation d'outils, le raisonnement multimodal et les charges de travail API à fort volume ainsi que les sous-agents.
UELes développeurs et entreprises européens peuvent accéder à ces modèles allégés via l'API OpenAI pour réduire leurs coûts sur les charges de travail à fort volume.
Mars 2026 restera dans les annales de l'intelligence artificielle comme le mois où l'industrie a basculé dans une nouvelle ère. Entre le 10 et le 16 mars, douze modèles majeurs ont été déployés simultanément par OpenAI, Google, Anthropic, xAI et Mistral, une cadence sans précédent qui compresse en sept jours ce qui prenait auparavant plusieurs années. OpenAI a lancé la gamme GPT-5.4 déclinée en cinq variantes (Standard, Pro, Thinking, mini, nano), avec une architecture d'orchestration inédite basée sur la récupération dynamique des outils (tool search) qui réduit l'utilisation de jetons de 47 %. Le modèle atteint 75 % sur le benchmark OSWorld-Verified, dépassant pour la première fois la ligne de base humaine fixée à 72,4 %, et réduit les hallucinations de 33 % par rapport à GPT-5.2. Google a riposté avec Gemini 3.1 Flash-Lite à 0,25 dollar le million de jetons, déclenchant un effondrement généralisé des tarifs API. De son côté, Anthropic a stabilisé Claude Sonnet 4.6 comme référence développeur avec une fenêtre de contexte d'un million de tokens. Le changement de paradigme dépasse la simple guerre des benchmarks : l'IA conversationnelle est morte, l'IA agentique lui a succédé. Ces nouveaux systèmes ne se contentent plus de générer du texte, ils naviguent sur des interfaces, remplissent des tableurs, orchestrent des workflows complexes de bout en bout, et communiquent en multimodal temps réel (full-duplex). Pour les développeurs et les entreprises, cela signifie qu'il est désormais possible de déléguer des séquences d'actions longues à des agents autonomes avec un niveau de fiabilité qui n'existait pas six mois auparavant. Mais c'est l'événement Anthropic qui a le plus secoué les marchés : une erreur de configuration a provoqué la fuite de 3 000 documents internes révélant l'existence de Claude Mythos, un modèle non publié aux capacités offensives en cybersécurité. Le secteur a immédiatement chuté de 14,5 milliards de dollars en capitalisation boursière. Cette accélération s'inscrit dans une course aux armements financière et géopolitique à grande échelle. OpenAI a levé 3 milliards de dollars supplémentaires, portant sa valorisation à 852 milliards, tandis que la Chine renforçait son initiative stratégique "AI Plus" en réponse directe. En Europe, AMI Labs, la startup fondée par Yann LeCun, a levé plus d'un milliard de dollars en amorçage pour développer des architectures alternatives aux modèles américains dominants. La fuite de Claude Mythos pose une question qui dépassera largement mars 2026 : comment réguler des modèles dont les capacités offensives restent secrètes jusqu'à leur divulgation accidentelle ? Les suites législatives, notamment en Europe et aux États-Unis, s'annoncent déterminantes pour la prochaine phase du déploiement agentique à l'échelle industrielle.
UEAMI Labs, la startup européenne fondée par Yann LeCun, a levé plus d'un milliard de dollars pour développer des architectures alternatives aux modèles américains, et la fuite de Claude Mythos relance en urgence le débat réglementaire européen sur l'encadrement des modèles aux capacités offensives non divulguées dans le cadre de l'AI Act.

GPT-5.2, le modèle le plus performant d'OpenAI pour les mathématiques et les sciences, établit de nouveaux records sur des benchmarks comme GPQA Diamond et FrontierMath. Il a permis de résoudre un problème théorique ouvert et de générer des preuves mathématiques fiables, illustrant des avancées concrètes dans la recherche.

Xiaomi lance MiMo-V2-Pro, un nouveau modèle d'IA positionné comme concurrent direct de Gemini (Google) et GPT (OpenAI). Cette offensive marque l'entrée ambitieuse du constructeur chinois dans la course aux grands modèles de langage. L'article ne précise pas encore les capacités techniques ni les benchmarks du modèle.