Aller au contenu principal
TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?
LLMsTowards AI8sem

TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?

Résumé IASource uniqueImpact UE
Source originale ↗·

OpenAI a lancé GPT-5.4 le 5 mars, son modèle frontier le plus orienté productivité à ce jour, avec une fenêtre contextuelle d'1M tokens, l'utilisation native d'ordinateur et un tarif de 2,50$/15$ par million de tokens. Dans les benchmarks, aucun modèle ne domine clairement : GPT-5.4 mène sur ProofBench et le codage, tandis que Gemini 3.1 Pro excelle sur LegalBench et GPQA, et Claude Opus 4.6 sur SWE-bench. Parallèlement, l'expérience "autoresearch" d'Andrej Karpathy démontre que des agents IA peuvent identifier de façon autonome des améliorations réelles à l'entraînement des réseaux de neurones — signalant potentiellement l'émergence d'une IA capable de s'améliorer elle-même en boucle fermée.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GPT-5.1: Une version améliorée et conversatielle de ChatGPT
1OpenAI Blog 

GPT-5.1: Une version améliorée et conversatielle de ChatGPT

OpenAI lance aujourd'hui GPT-5.1, une mise à jour du modèle GPT-5 offrant des fonctionnalités plus réactives et personnalisables. Cette version améliore la capacité du modèle à comprendre les contextes et permet aux utilisateurs payants de personnaliser le ton et le style de ChatGPT. Disponible dès maintenant pour les abonnés, GPT-5.1 marque une avancée significative dans l'interaction conversationnelle des systèmes d'IA.

LLMsActu
1 source
Présentation de GPT-5.4 mini et nano
2OpenAI Blog 

Présentation de GPT-5.4 mini et nano

OpenAI lance GPT-5.4 mini et nano, deux versions allégées et plus rapides de GPT-5.4. Ces modèles sont optimisés pour le codage, l'utilisation d'outils, le raisonnement multimodal et les charges de travail API à fort volume ainsi que les sous-agents.

UELes développeurs et entreprises européens peuvent accéder à ces modèles allégés via l'API OpenAI pour réduire leurs coûts sur les charges de travail à fort volume.

LLMsActu
1 source
Présentation de GPT-5.4
3OpenAI Blog 

Présentation de GPT-5.4

OpenAI a présenté GPT-5.4, un modèle de pointe optimisé pour le travail professionnel, doté de capacités avancées en programmation, utilisation des ordinateurs, recherche d'outils et un contexte de 1 million de tokens. Ce modèle combine efficacité et performance pour des tâches complexes.

LLMsOutil
1 source
4Le Big Data 

Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents

Mars 2026 restera dans les annales de l'intelligence artificielle comme le mois où l'industrie a basculé dans une nouvelle ère. Entre le 10 et le 16 mars, douze modèles majeurs ont été déployés simultanément par OpenAI, Google, Anthropic, xAI et Mistral, une cadence sans précédent qui compresse en sept jours ce qui prenait auparavant plusieurs années. OpenAI a lancé la gamme GPT-5.4 déclinée en cinq variantes (Standard, Pro, Thinking, mini, nano), avec une architecture d'orchestration inédite basée sur la récupération dynamique des outils (tool search) qui réduit l'utilisation de jetons de 47 %. Le modèle atteint 75 % sur le benchmark OSWorld-Verified, dépassant pour la première fois la ligne de base humaine fixée à 72,4 %, et réduit les hallucinations de 33 % par rapport à GPT-5.2. Google a riposté avec Gemini 3.1 Flash-Lite à 0,25 dollar le million de jetons, déclenchant un effondrement généralisé des tarifs API. De son côté, Anthropic a stabilisé Claude Sonnet 4.6 comme référence développeur avec une fenêtre de contexte d'un million de tokens. Le changement de paradigme dépasse la simple guerre des benchmarks : l'IA conversationnelle est morte, l'IA agentique lui a succédé. Ces nouveaux systèmes ne se contentent plus de générer du texte, ils naviguent sur des interfaces, remplissent des tableurs, orchestrent des workflows complexes de bout en bout, et communiquent en multimodal temps réel (full-duplex). Pour les développeurs et les entreprises, cela signifie qu'il est désormais possible de déléguer des séquences d'actions longues à des agents autonomes avec un niveau de fiabilité qui n'existait pas six mois auparavant. Mais c'est l'événement Anthropic qui a le plus secoué les marchés : une erreur de configuration a provoqué la fuite de 3 000 documents internes révélant l'existence de Claude Mythos, un modèle non publié aux capacités offensives en cybersécurité. Le secteur a immédiatement chuté de 14,5 milliards de dollars en capitalisation boursière. Cette accélération s'inscrit dans une course aux armements financière et géopolitique à grande échelle. OpenAI a levé 3 milliards de dollars supplémentaires, portant sa valorisation à 852 milliards, tandis que la Chine renforçait son initiative stratégique "AI Plus" en réponse directe. En Europe, AMI Labs, la startup fondée par Yann LeCun, a levé plus d'un milliard de dollars en amorçage pour développer des architectures alternatives aux modèles américains dominants. La fuite de Claude Mythos pose une question qui dépassera largement mars 2026 : comment réguler des modèles dont les capacités offensives restent secrètes jusqu'à leur divulgation accidentelle ? Les suites législatives, notamment en Europe et aux États-Unis, s'annoncent déterminantes pour la prochaine phase du déploiement agentique à l'échelle industrielle.

UEAMI Labs, la startup européenne fondée par Yann LeCun, a levé plus d'un milliard de dollars pour développer des architectures alternatives aux modèles américains, et la fuite de Claude Mythos relance en urgence le débat réglementaire européen sur l'encadrement des modèles aux capacités offensives non divulguées dans le cadre de l'AI Act.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour