Dossier GPT-5 — page 4

299 articles · page 4 sur 6

GPT-5 et ses variantes (5.4, 5.5), la famille frontier d'OpenAI : capacités agentiques, coûts d'inférence, comparaisons avec Claude et Gemini.

151Ben's Bites OutilsOutil

Enregistrer une compétence

OpenAI a dévoilé une fonctionnalité majeure pour son agent de code Codex : le mode Record & Replay, qui permet de montrer au système un flux de travail répétitif une seule fois, comme remplir une note de frais ou soumettre une demande de congé, pour qu'il le transforme automatiquement en une compétence réutilisable, inspectable et modifiable. Dans le même élan, Anthropic a annoncé que Claude Code supporte désormais les Artefacts, des pages HTML interactives partageables pouvant servir de tableaux de bord de projet ou de récapitulatifs de pull requests, disponibles en bêta pour les plans Team et Enterprise. OpenAI a également élargi Daybreak, son programme de cybersécurité, avec une nouvelle version de GPT-5.5-Cyber réservée à ses partenaires de confiance, capable de reproduire davantage de vulnérabilités que son prédécesseur, ainsi qu'avec Patch the Planet, une initiative pour accélérer la correction de failles dans les logiciels open source. De son côté, Sakana AI a lancé Fugu, une API qui orchestre plusieurs modèles sur des tâches complexes et revendique un score de 73,7 sur SWE-bench Pro et 82,1 sur TerminalBench 2.1, des performances proches de Fable, même si des lacunes subsistent en usage réel. Ces annonces illustrent une tendance de fond : les outils d'IA passent du stade de l'assistant ponctuel à celui d'un système d'automatisation durable. La fonctionnalité Record & Replay de Codex réduit concrètement la friction pour les équipes qui gèrent des processus administratifs ou métiers répétitifs, sans exiger de compétences en programmation. Les Artefacts de Claude Code ouvrent la voie à une collaboration plus riche entre développeurs, en rendant les livrables de l'IA directement partageables. Pour la cybersécurité, l'extension de Daybreak signale qu'OpenAI positionne ses modèles comme des outils offensifs et défensifs à part entière pour les professionnels du secteur. Ces développements s'inscrivent dans une semaine particulièrement dense pour l'écosystème de l'IA générative. L'API Interactions de Google est passée en disponibilité générale, unifiant accès aux modèles et aux agents sous une même interface. GPT-5.5 Instant a amélioré ses performances sur les questions médicales, atteignant le niveau des meilleurs modèles de raisonnement d'OpenAI selon l'entreprise. Perplexity Computer a intégré un système de mémoire baptisé Brain. Stripe a ouvert un répertoire permettant aux agents de rechercher et de payer des services directement depuis la ligne de commande. ElevenLabs, enfin, a lancé un moteur publicitaire capable de localiser des spots dans plus de 50 langues. La vitesse à laquelle ces capacités s'accumulent suggère que 2026 marque un tournant dans l'autonomie réelle des agents, avec des workflows complets désormais déléguables de bout en bout.

UECes outils (Codex Record & Replay, Claude Code Artifacts, API Fugu, annuaire Stripe pour agents) sont immédiatement accessibles aux développeurs et entreprises européens, mais aucune annonce ne cible spécifiquement la France ou l'Union européenne.

Dossier GPT-5 — page 4

Enregistrer une compétence

Réduire la dépendance aux fournisseurs grâce aux modèles multi-agents Sakana AI Fugu

GLM-5.2 rivalise avec GPT ; Z.ai prévoit la sortie d'Open Fable en décembre

Amazon Bedrock AgentCore est disponible en production : passez d'une idée à un agent opérationnel en quelques minutes

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

GLM-5.2 : meilleur modèle de codage frontend au monde, IndexShare pour le décodage spéculatif

Satya sur Loopcraft : construire des écosystèmes frontier

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

OpenJarvis : un framework local pour agents IA personnels avec outils, mémoire et apprentissage

[AINews] Reve 2 et Ideogram 4 : mises en page dans la génération d'images

Opus 4.8

Dès le premier jour, la facture à l’usage de GitHub Copilot interroge les devs

L'agent navigateur d'Anthropic a été détourné dans 31,5 % des cas avant l'activation des protections

Censés « vivre ensemble », 50 % des agents IA s’entretuent ou se laissent mourir

MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?

Avec Opus 4.8, Claude apprend à dire « je ne sais pas »

DeepSWE : Claude n’est pas aussi doué qu’on ne le pensait en codage, il a triché !

Les grands labos d'IA sont désormais des labos d'agents

Microsoft lance Fara1.5 (4B/9B/27B), des agents de navigation qui surpassent OpenAI Operator et Gemini 2.5 Computer Use

Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU

☕️ Daybreak, la nouvelle plateforme cybersécurité d’OpenAI

OpenAI lance Daybreak : La fin des failles de sécurité informatiques ?

L'UE veut réguler l'IA mais dépend de la coopération d'OpenAI et Anthropic

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Incroyable ! Des IA parviennent à se dupliquer seules sur un autre ordinateur

Hugging Face lance un App Store open source pour robots avec plus de 200 applications pour Reachy Mini

[AINews] Silicon Valley prend les services au sérieux

MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel

Le grand cirque OpenAI avant son introduction en bourse

Poolside lance Laguna XS.2, un modèle ouvert gratuit et performant pour le codage local à base d'agents

Musk contre Altman devant la justice, et le problème de rentabilité de l'IA

ImageGen est sur la voie de l'AGI

OpenAI lance ChatGPT pour les cliniciens : la médecine change-t-elle ère ?

OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise

Des scientifiques artificiels

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

Les deux visages d'OpenClaw

GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic

Salesforce lance Headless 360 pour transformer sa plateforme en infrastructure pour agents autonomes

Les modèles de pointe échouent une fois sur trois en production et deviennent plus difficiles à auditer

« L’IA va nous détruire » : le manifeste du premier terroriste anti-ChatGPT

[AINews] Le dernier souffle de l'humanité

Meta dispose d'un modèle IA compétitif mais perd son identité open source

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

OpenAI lance ChatGPT Pro à 100 dollars avec des limites d'utilisation de Codex 5 fois supérieures à celles de Plus

L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro

Import AI 452 : lois d'échelle pour la cyberguerre, automatisation par IA en hausse et énigme autour des prévisions de PIB

L'IA s'invite dans le terminal

Cette startup veut changer la façon dont les mathématiciens font des maths

[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027