Aller au contenu principal
MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?
LLMsLe Big Data4h

MiniMax lance M3 : le modèle Open Weight le plus puissant jamais créé ?

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Le 1er juin 2026, la société chinoise MiniMax a lancé M3, son nouveau modèle d'intelligence artificielle à poids ouverts. Il s'agit du premier modèle open weight à combiner trois capacités jusqu'ici réservées aux systèmes propriétaires : une fenêtre contextuelle d'un million de jetons, des performances de pointe en programmation et en agents autonomes, ainsi qu'une prise en charge native du texte et des images. Sur SWE-Bench Pro, le benchmark de référence pour la résolution de problèmes logiciels réels, M3 obtient 59 %, dépassant GPT-5.5 et Gemini 3.1 Pro selon MiniMax. Il atteint également 66 % sur Terminal-Bench 2.1, 74,2 % sur Atlas MCP et 83,5 sur BrowseComp, score qui surpasserait Claude Opus 4.7. Le modèle est déjà accessible via l'API officielle de MiniMax et son agent de développement MiniMax Code, tandis que les poids ouverts seront publiés sur Hugging Face et GitHub dans une dizaine de jours.

Ce lancement est significatif parce qu'il réduit concrètement la barrière entre modèles open source et systèmes propriétaires de premier rang. L'architecture repose sur une technologie maison appelée MiniMax Sparse Attention (MSA), qui identifie les informations pertinentes avant de concentrer les calculs sur elles : résultat, le coût de calcul par jeton est divisé par vingt sur un contexte d'un million de jetons, le traitement des entrées est neuf fois plus rapide que sur la génération précédente, et la génération de réponses gagne un facteur supérieur à quinze. La vitesse de production avoisine 100 jetons par seconde, environ trois fois celle de Claude Opus. Pour les développeurs et les entreprises qui cherchent à déployer des agents autonomes sans dépendre d'APIs propriétaires à coût élevé, M3 représente une option crédible et, surtout, inspecTable.

MiniMax est une startup fondée à Shanghai qui opère depuis plusieurs années dans l'ombre des géants américains et de ses concurrents chinois comme Baidu ou Zhipu AI. Avec M3, elle entre directement en compétition avec Anthropic, Google et OpenAI sur le segment haut de gamme, mais avec la carte distinctive de l'ouverture des poids. Le contexte réglementaire et géopolitique autour de l'IA chinoise reste tendu, ce qui rend d'autant plus remarquable qu'une entreprise de ce pays publie un modèle en open weight à ce niveau de performance. Des validations indépendantes seront nécessaires : une partie des benchmarks ont été conduits sur l'infrastructure de MiniMax elle-même. La publication imminente des poids permettra à la communauté de vérifier ces affirmations, et les semaines qui suivent diront si M3 tient ses promesses dans des conditions réelles d'utilisation.

Impact France/UE

L'arrivée d'un modèle open weight performant réduit la dépendance des entreprises et développeurs européens aux APIs propriétaires américaines à coût élevé.

💬 Le point de vue du dev

Un million de jetons, des scores d'agent au niveau des meilleurs modèles fermés, et les poids open source dans dix jours : si tout ça se confirme, c'est une vraie gifle pour les APIs propriétaires. Le calcul change pour ceux qui veulent déployer des agents sans facturer à chaque appel. Les benchmarks sont en partie auto-déclarés, donc on attend les poids sur HuggingFace, mais là MiniMax joue dans la cour des grands pour de bon.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API
1AI News 

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion
1 source
OpenAI déploie GPT-5.5 Instant : moins d’erreurs, plus de puissance
2Le Big Data 

OpenAI déploie GPT-5.5 Instant : moins d’erreurs, plus de puissance

OpenAI a lancé GPT-5.5 Instant le 5 mai 2026, un nouveau modèle qui remplace progressivement GPT-5.3 Instant sur l'ensemble des offres ChatGPT. Le déploiement, annoncé par Sam Altman sur X, devrait être finalisé en deux jours. La mise à jour apporte trois améliorations majeures : une réduction de 52,5 % des hallucinations sur des sujets sensibles comme la médecine et le droit, des scores en hausse sur des questions scientifiques de niveau avancé ainsi qu'en mathématiques, et des réponses jusqu'à 30 % plus courtes. Le ton devient également plus naturel et plus chaleureux, selon la communication officielle d'OpenAI. Ces changements ont des conséquences concrètes pour les millions d'utilisateurs qui s'appuient quotidiennement sur ChatGPT dans des contextes professionnels ou académiques. La baisse des hallucinations est particulièrement significative dans des domaines où une réponse erronée peut avoir des conséquences réelles : un médecin qui vérifie un protocole, un juriste qui cherche une référence, un étudiant qui prépare un exposé. La concision accrue réduit le temps de lecture et améliore l'efficacité des échanges, une demande explicite de nombreux utilisateurs que l'entreprise dit avoir entendue. La personnalisation renforcée, qui exploite plus intelligemment les conversations passées, les fichiers et les données connectées, rapproche le modèle d'un assistant véritablement adaptatif plutôt que d'un outil générique. OpenAI évolue dans un contexte de concurrence intense, face à Google Gemini, Anthropic Claude et les modèles open source qui gagnent rapidement en maturité. La course ne porte plus seulement sur la puissance brute des modèles, mais aussi sur leur fiabilité et leur utilisabilité au quotidien, deux dimensions où les critiques contre ChatGPT s'étaient accumulées ces derniers mois. Sur la question de la mémoire et de la vie privée, OpenAI a ajouté une fonctionnalité permettant aux utilisateurs de consulter, modifier ou supprimer les informations utilisées pour personnaliser les réponses, une concession notable aux préoccupations croissantes autour de la confidentialité des données. Les performances annoncées restent à confirmer dans des usages réels prolongés, loin des benchmarks contrôlés, mais la direction prise par GPT-5.5 Instant témoigne d'un repositionnement stratégique clair : moins de puissance spectaculaire sur le papier, plus de crédibilité et de praticité dans l'usage réel.

UELes professionnels européens des secteurs médical et juridique utilisant ChatGPT bénéficieront de la réduction annoncée des hallucinations, sans impact réglementaire ou institutionnel spécifique pour la France ou l'UE.

LLMsActu
1 source
MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides
3VentureBeat AI 

MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides

MiniMax, laboratoire chinois d'intelligence artificielle, vient de publier un rapport technique approfondi sur sa série de modèles de langage M2 (M2, M2.5 et M2.7), tout en dévoilant les premières caractéristiques de sa prochaine génération, M3. Le document révèle l'architecture interne de M2 : un Transformer de type Mixture-of-Experts (MoE) totalisant 229,9 milliards de paramètres, dont seulement 9,8 milliards sont activés à chaque token, répartis entre 256 experts spécialisés. Pour éviter les déséquilibres de charge habituels dans ce type d'architecture, MiniMax a développé un système de routage original combinant une activation sigmoïde et des biais appris par expert. Surtout, la société annonce que M3 adoptera un nouveau mécanisme d'attention sub-quadratique qui permettrait un décodage jusqu'à 15,6 fois plus rapide sur des contextes d'un million de tokens, rendant le déploiement d'agents IA sur des documents ultra-longs économiquement viable pour la première fois. L'enjeu est considérable pour les entreprises qui travaillent avec de grands volumes de texte. Dans les LLM classiques, l'attention standard oblige chaque token à interagir mathématiquement avec tous les autres, ce qui fait exploser les besoins en mémoire et en calcul à mesure que les séquences s'allongent. Traiter un million de tokens avec ce système revient à mobiliser des ressources matérielles prohibitives. Le passage à une approche sub-quadratique, si elle préserve la qualité de compréhension, ouvrirait la voie à des agents capables d'ingérer des contrats, des bases de connaissances entières ou des historiques de conversations très longs sans coût exorbitant. Adina Yakup, chercheuse chez Hugging Face, a salué le travail sur X : "Au-delà des benchmarks, ils ont accompli un travail solide sur l'efficacité des MoE et la conception orientée agents." MiniMax s'inscrit dans une vague de laboratoires chinois, aux côtés de DeepSeek et Xiaomi, qui challengent frontalement les modèles américains dominants en proposant des performances de premier rang sous licences open source permissives, adaptées aux usages commerciaux. La série M2 avait atteint le haut des classements open source à sa sortie avant d'être dépassée par des concurrents ; le rapport publié constitue désormais un manuel de référence pour les équipes qui cherchent à entraîner ou affiner leurs propres modèles en interne. Le vrai pari de M3 sera de résoudre le compromis historique des méthodes sub-quadratiques, comme l'attention par fenêtre glissante, qui réduisent les coûts de calcul mais font perdre au modèle la vision d'ensemble des contextes distants. Si MiniMax tient ses promesses de vitesse sans sacrifier la précision, M3 pourrait redéfinir les standards d'efficacité pour les agents IA à grande échelle.

UELes équipes européennes développant des agents IA sur de longs contextes pourraient bénéficier des modèles open source de MiniMax pour réduire leurs coûts d'inférence, si M3 tient ses promesses de vitesse sans perte de précision.

LLMsOpinion
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
4MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour