Aller au contenu principal
Grok 4.20 loin derrière Gemini et GPT-5.4, mais établit un record d'absence d'hallucinations
LLMsThe Decoder7sem

Grok 4.20 loin derrière Gemini et GPT-5.4, mais établit un record d'absence d'hallucinations

Résumé IASource uniqueImpact UE
Source originale ↗·

Le Grok 4.20 de xAI se distingue comme le modèle le moins sujet aux hallucinations parmi tous les modèles testés, tout en étant rapide et économique. Cependant, il accuse un retard significatif face aux modèles de pointe comme Gemini et GPT-5.4 sur les benchmarks standards.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Présentation de GPT-5.4 mini et nano
1OpenAI Blog 

Présentation de GPT-5.4 mini et nano

OpenAI lance GPT-5.4 mini et nano, deux versions allégées et plus rapides de GPT-5.4. Ces modèles sont optimisés pour le codage, l'utilisation d'outils, le raisonnement multimodal et les charges de travail API à fort volume ainsi que les sous-agents.

UELes développeurs et entreprises européens peuvent accéder à ces modèles allégés via l'API OpenAI pour réduire leurs coûts sur les charges de travail à fort volume.

LLMsActu
1 source
2Le Big Data 

Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents

Mars 2026 restera dans les annales de l'intelligence artificielle comme le mois où l'industrie a basculé dans une nouvelle ère. Entre le 10 et le 16 mars, douze modèles majeurs ont été déployés simultanément par OpenAI, Google, Anthropic, xAI et Mistral, une cadence sans précédent qui compresse en sept jours ce qui prenait auparavant plusieurs années. OpenAI a lancé la gamme GPT-5.4 déclinée en cinq variantes (Standard, Pro, Thinking, mini, nano), avec une architecture d'orchestration inédite basée sur la récupération dynamique des outils (tool search) qui réduit l'utilisation de jetons de 47 %. Le modèle atteint 75 % sur le benchmark OSWorld-Verified, dépassant pour la première fois la ligne de base humaine fixée à 72,4 %, et réduit les hallucinations de 33 % par rapport à GPT-5.2. Google a riposté avec Gemini 3.1 Flash-Lite à 0,25 dollar le million de jetons, déclenchant un effondrement généralisé des tarifs API. De son côté, Anthropic a stabilisé Claude Sonnet 4.6 comme référence développeur avec une fenêtre de contexte d'un million de tokens. Le changement de paradigme dépasse la simple guerre des benchmarks : l'IA conversationnelle est morte, l'IA agentique lui a succédé. Ces nouveaux systèmes ne se contentent plus de générer du texte, ils naviguent sur des interfaces, remplissent des tableurs, orchestrent des workflows complexes de bout en bout, et communiquent en multimodal temps réel (full-duplex). Pour les développeurs et les entreprises, cela signifie qu'il est désormais possible de déléguer des séquences d'actions longues à des agents autonomes avec un niveau de fiabilité qui n'existait pas six mois auparavant. Mais c'est l'événement Anthropic qui a le plus secoué les marchés : une erreur de configuration a provoqué la fuite de 3 000 documents internes révélant l'existence de Claude Mythos, un modèle non publié aux capacités offensives en cybersécurité. Le secteur a immédiatement chuté de 14,5 milliards de dollars en capitalisation boursière. Cette accélération s'inscrit dans une course aux armements financière et géopolitique à grande échelle. OpenAI a levé 3 milliards de dollars supplémentaires, portant sa valorisation à 852 milliards, tandis que la Chine renforçait son initiative stratégique "AI Plus" en réponse directe. En Europe, AMI Labs, la startup fondée par Yann LeCun, a levé plus d'un milliard de dollars en amorçage pour développer des architectures alternatives aux modèles américains dominants. La fuite de Claude Mythos pose une question qui dépassera largement mars 2026 : comment réguler des modèles dont les capacités offensives restent secrètes jusqu'à leur divulgation accidentelle ? Les suites législatives, notamment en Europe et aux États-Unis, s'annoncent déterminantes pour la prochaine phase du déploiement agentique à l'échelle industrielle.

UEAMI Labs, la startup européenne fondée par Yann LeCun, a levé plus d'un milliard de dollars pour développer des architectures alternatives aux modèles américains, et la fuite de Claude Mythos relance en urgence le débat réglementaire européen sur l'encadrement des modèles aux capacités offensives non divulguées dans le cadre de l'AI Act.

LLMsActu
1 source
Progresser dans les sciences et les mathématiques avec GPT-5.2
3OpenAI Blog 

Progresser dans les sciences et les mathématiques avec GPT-5.2

GPT-5.2, le modèle le plus performant d'OpenAI pour les mathématiques et les sciences, établit de nouveaux records sur des benchmarks comme GPQA Diamond et FrontierMath. Il a permis de résoudre un problème théorique ouvert et de générer des preuves mathématiques fiables, illustrant des avancées concrètes dans la recherche.

LLMsPaper
1 source
On ne s’y attendait pas : voici la grosse offensive de Xiaomi contre Gemini et GPT
4Frandroid 

On ne s’y attendait pas : voici la grosse offensive de Xiaomi contre Gemini et GPT

Xiaomi lance MiMo-V2-Pro, un nouveau modèle d'IA positionné comme concurrent direct de Gemini (Google) et GPT (OpenAI). Cette offensive marque l'entrée ambitieuse du constructeur chinois dans la course aux grands modèles de langage. L'article ne précise pas encore les capacités techniques ni les benchmarks du modèle.

LLMsActu
1 source