Dossier GPT-5 — page 3

155 articles · page 3 sur 4

GPT-5 et ses variantes (5.4, 5.5), la famille frontier d'OpenAI : capacités agentiques, coûts d'inférence, comparaisons avec Claude et Gemini.

101MarkTechPost LLMsOpinion

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

Dossier GPT-5 — page 3

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

Xiaomi lance la bêta publique de sa série de modèles d'IA MiMo-V2.5

GPT-Rosalind : cette IA travaille gratuitement pour les chercheurs, mais il y a un hic

OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique

Claude Opus 4.7 : Le nouveau monstre d’Anthropic arrive (peut-être) cette semaine !

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

AI Engineer Europe 2026

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

OpenAI lance ChatGPT Pro à 100 dollars avec des limites d'utilisation de Codex 5 fois supérieures à celles de Plus

Préparez votre portefeuille : OpenAI lance un nouveau niveau ChatGPT Pro à 100 $

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Pas de Claude pour Claws

AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents

« L’humanité va se scinder en deux » : interview choc et confessions explosives d’OpenAI

Gradient Labs dote chaque client bancaire d'un gestionnaire de compte IA

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Actualité : “Un seuil a été franchi” : le nouveau modèle de Claude a fuité par erreur, Anthropic évoque des capacités sans précédent

L'IA s'invite dans le terminal

Xiaomi MiMo-V2-Pro : le géant chinois lance son rival de ChatGPT et Gemini

L’entreprise chinoise Moonshot AI vise 18 milliards de valorisation

Ce métier ne sert plus à rien selon OpenAI : « ils ont fait leur temps »

ChatGPT 5.4 Mini : les utilisateurs ont enfin accès à la nouvelle IA OpenAI

[AINews] Bulletin Claude Cowork : la réponse d'Anthropic à OpenClaw

Nvidia craque pour OpenClaw

Voici un nouveau format que j'aimerais essayer

[AINews] NVIDIA GTC : Jensen met le paquet sur OpenClaw et Vera CPU et annonce 1 000 milliards de dollars de commandes pour 2027

Import AI 449 : des LLMs entraînent d'autres LLMs ; entraînement distribué 72B ; la vision par ordinateur est plus difficile que le texte génératif

Comment une IA associé à un labo automatisé accélère la recherche biologique

ChatGPT : comment cette IA va changer le monde ?

OpenAI nous fait languir : ChatGPT mode adulte encore repoussé

Comment Balyasny Asset Management a créé un moteur de recherche IA pour l'investissement

ChatGPT 5.4 : vrai saut produit, ou benchmark packaging ?

Présentation de ChatGPT pour Excel et de nouvelles intégrations de données financières

Élargir les plages de fréquences single-minus pour les gravitons

Interaction en Temps Réel : Des Conversations Quotidiennes Plus Fluides et Plus Utiles

Guide : quelle IA utiliser à l'ère des agents autonomes

Dans l'agent de données interne d'OpenAI

Décision de mettre fin au GPT-4o, GPT-4.1, GPT-4.1 mini et OpenAI o4-mini dans ChatGPT

Présentation de Prism

Critiques de règles : Une approche conversationnelle pour l'apprentissage des langues par Praktika

Comment Higgsfield transforme des idées simples en vidéos sociales cinématographiques

Présentation de ChatGPT Go, désormais disponible dans le monde entier

Les enseignements de Netomi pour l'échelle des systèmes agenics dans l'entreprise

Évaluer la capacité de l'IA à accélérer la recherche biologique

Augmenter les revenus de 300%, une promesse de l'intégration de l'IA dans les PME

Comment Scout24 construit la prochaine génération de recherche immobilière avec l'IA

Entraînement au cœur de JetBrains, l'entreprise qui révolutionne la manière dont le monde écrit le code

Système de défense AI de Doppel arrête les attaques avant qu'elles ne se propagent

Codex passe à la vitesse supérieure avec GPT‑5-Codex

De refus catégoriques à des achèvements sûrs : vers une formation à la sécurité axée sur les résultats