Aller au contenu principal
LLMsLatent Space13sem· 1 min de lecture

[AINews] MiniMax 2.7 : GLM-5 atteint l'état de l'art à un tiers du coût

Source originale ↗·

MiniMax frappe fort avec le lancement de M2.7, son nouveau modèle de langage positionné comme une percée dans l'efficience des modèles ouverts chinois. À peine deux mois après son introduction en bourse, la startup rivalise désormais avec GLM-5 de Z.ai — considéré comme l'état de l'art open source du moment — tout en affichant un coût d'inférence inférieur au tiers.

L'enjeu dépasse la simple performance brute. Dans un secteur où les coûts d'API pèsent lourd sur les décisions d'adoption, M2.7 s'impose sur la frontière coût/performance établie par Artificial Analysis : 0,30 $ / 1,20 $ par million de tokens en entrée/sortie, contre plus du triple pour GLM-5. Pour les équipes qui déploient des agents en production, ce différentiel change concrètement les calculs de rentabilité.

Sur le plan technique, M2.7 revendique 56,22 % sur SWE-Pro, 57,0 % sur Terminal Bench 2 et 97 % d'adhérence aux compétences sur plus de 40 skills. L'Elo GDPval-AA atteint 1 494, devançant MiMo-V2-Pro (1 426) de Xiaomi, GLM-5 (1 406) et Kimi K2.5 (1 283). MiniMax met également en avant une réduction significative des hallucinations par rapport à M2.5. Le modèle est immédiatement disponible sur Ollama, OpenRouter, Vercel et plusieurs autres plateformes. En parallèle, Xiaomi entre dans la course avec MiMo-V2-Pro, un modèle API-only noté 49 sur l'Intelligence Index, avec 1 million de tokens de contexte et une efficience token revendiquée supérieure aux pairs.

La particularité narrative de M2.7 réside dans ce que MiniMax appelle les "Early Echoes of Self-Evolution" : le modèle aurait participé activement à sa propre évolution, en collectant des retours, construisant des jeux d'évaluation et itérant sur ses propres skills et architecture MCP. Une affirmation ambitieuse, nuancée par l'équipe elle-même — M2.7 ne couvrirait que 30 à 50 % du workflow de cette auto-amélioration. Un signal fort néanmoins, qui s'inscrit dans la tendance plus large du secteur : le vrai différenciateur n'est plus le modèle seul, mais l'infrastructure d'exécution — ce que les praticiens appellent désormais le harness engineering.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GLM-5.2 à poids ouverts de Z.ai surpasse GPT-5.5 sur plusieurs benchmarks de codage long terme, pour un sixième du coût
1VentureBeat AI 

GLM-5.2 à poids ouverts de Z.ai surpasse GPT-5.5 sur plusieurs benchmarks de codage long terme, pour un sixième du coût

La startup chinoise Z.ai (anciennement Zhipu AI) a annoncé le 17 juin 2026 la disponibilité immédiate de GLM-5.2, un modèle de langage open-weights de 753 milliards de paramètres conçu spécifiquement pour les tâches de développement logiciel autonomes et de longue durée. Le modèle est accessible dès maintenant sur Hugging Face, via l'API Z.ai et dans plus de 20 environnements de développement tiers. Il dispose d'une fenêtre de contexte stable d'un million de tokens et des abonnements entreprise démarrent à 12,60 dollars par mois. Ses poids sont publiés sous licence MIT sans restriction, permettant à quiconque de le télécharger, de le personnaliser et de le déployer localement. Sur les benchmarks industriels, GLM-5.2 surpasse GPT-5.5 d'OpenAI sur plusieurs épreuves clés : SWE-bench Pro (62,1 contre 58,6), FrontierSWE (74,4 % contre 72,6 %), MCP-Atlas (77,0 contre 75,3) et PostTrainBench (34,3 % contre 25,0 %). Il talonne Claude Opus 4.8 d'Anthropic sur la quasi-totalité de ces tests. La sortie de GLM-5.2 arrive à un moment stratégiquement décisif pour les entreprises qui dépendent de modèles d'IA de pointe. La semaine précédente, l'administration Trump a publié une directive de contrôle des exportations interdisant aux ressortissants étrangers d'utiliser Claude Fable 5 d'Anthropic, ce qui a conduit Anthropic à retirer ce modèle de l'accès global pour tous les utilisateurs. Pour les responsables techniques en dehors des États-Unis, GLM-5.2 offre une alternative concrète : un modèle de niveau frontier hébergeable en interne, hors de portée des restrictions géographiques et des aléas réglementaires américains. Son coût d'exploitation réduit à un sixième de celui des modèles propriétaires équivalents renforce encore son attrait pour les organisations soucieuses de maîtriser leur infrastructure IA. Sur le plan architectural, GLM-5.2 introduit une optimisation appelée IndexShare, qui réutilise un même indexeur pour quatre couches d'attention sparse consécutives, réduisant de 2,9 fois le nombre de FLOPs par token à longueur de contexte maximale. Le modèle intègre également une couche Multi-Token Prediction améliorée, qui accroît de 20 % la longueur des tokens acceptés lors de l'inférence, ainsi que des modes de raisonnement sélectionnables, "Max" pour la puissance maximale, "High" pour un équilibre performance-latence. Z.ai s'inscrit ainsi dans une tendance de fond portée par des acteurs chinois comme DeepSeek, qui misent sur l'open-source et l'efficacité architecturale pour rivaliser avec les laboratoires occidentaux disposant de budgets bien supérieurs. Avec GLM-5.2, la compétition pour le leadership en IA agentic se déplace clairement au-delà des frontières américaines.

UELes entreprises et développeurs français et européens disposent désormais d'une alternative frontier auto-hébergeable sous licence MIT, hors de portée des restrictions d'exportation américaines qui ont récemment limité l'accès aux modèles de pointe d'Anthropic.

💬 Le moment est trop bien choisi pour être un hasard. Z.ai sort un 753 milliards de paramètres open-weights qui passe devant GPT-5.5 sur le code, MIT, hébergeable où tu veux, pile une semaine après qu'Anthropic a dû couper Fable 5 globalement sur pression de Washington. Pour les boîtes européennes qui cherchaient une sortie de la dépendance cloud américaine, bon, la voilà.

LLMsOpinion
1 source
MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût
2VentureBeat AI 

MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût

La startup chinoise MiniMax a lancé dimanche soir son modèle de langage MiniMax-M3, se positionnant d'emblée comme une alternative redoutable aux modèles propriétaires américains. Disponible via l'API MiniMax à un tarif promotionnel de 0,30 dollar par million de tokens en entrée et 1,20 dollar par million en sortie, le modèle affiche des performances supérieures à GPT-5.5 d'OpenAI et à Gemini 3.1 Pro de Google sur plusieurs benchmarks clés, pour 5 à 10 % de leur coût. Même à plein tarif, 0,60 dollar l'entrée et 2,40 dollars la sortie, M3 revient à seulement 8 à 20 % du prix des grands modèles propriétaires concurrents. L'entreprise a également annoncé la mise à disposition sous licence open source avec poids ouverts dans les dix prochains jours, permettant aux entreprises de télécharger et personnaliser le modèle gratuitement. M3 intègre par ailleurs une fenêtre de contexte d'un million de tokens, une multimodalité native, et des capacités avancées en codage et en traitement de tâches agentiques, avec un abonnement mensuel à partir de 20 dollars. Ce lancement remet en question une règle non écrite du secteur : les développeurs devaient jusqu'ici choisir entre des modèles fermés très performants mais coûteux, ou des modèles open source accessibles mais limités sur les raisonnements complexes et les longues séquences. MiniMax-M3 brouille cette frontière en combinant performance de pointe et coût marginal, ce qui pourrait redistribuer les cartes pour les équipes de développement cherchant à intégrer des capacités d'IA avancées sans exploser leurs budgets d'inférence. La possibilité de déployer les poids en local renforce encore l'intérêt pour les entreprises soucieuses de confidentialité ou cherchant à s'affranchir de dépendances API. Cette percée s'inscrit dans un mouvement plus large de rattrapage des laboratoires chinois face aux géants américains. DeepSeek, Alibaba avec Qwen, Moonshot via Kimi et désormais MiniMax publient à un rythme soutenu des modèles compétitifs à des prix agressifs, alimentant une guerre tarifaire qui contraint OpenAI, Google et Anthropic à revoir leurs propres grilles. Sur le plan technique, M3 repose sur une architecture originale baptisée MiniMax Sparse Attention, qui rompt avec les mécanismes d'attention traditionnels dont le coût de calcul croît quadratiquement avec la longueur des séquences. En découpant les matrices clé-valeur en blocs ciblés lus une seule fois, cette approche permet d'être plus de quatre fois plus rapide que des alternatives open source comparables sur de longues séquences. La disponibilité imminente des poids ouverts pourrait transformer M3 en référence de facto pour les entreprises cherchant un modèle frontier déployable en interne.

UELes développeurs et entreprises européens disposent d'une alternative frontier open source déployable localement, réduisant la dépendance aux API américaines et les coûts d'inférence de 80 à 95 %.

💬 C'est le lancement qui va forcer OpenAI et Google à bouger leurs prix, et cette fois c'est difficile à ignorer. 5 à 10 % du coût avec les benchmarks qui suivent, et les poids ouverts dans dix jours pour déployer en local, si tu travailles avec des LLMs tu vas regarder ça de près. Reste à voir ce que ça donne en conditions réelles, mais l'architecture Sparse Attention sur les longues séquences, c'est une vraie proposition technique, pas juste du dumping tarifaire.

LLMsOpinion
1 source
GLM-5.2 de Zhipu AI rivalise avec les meilleurs modeles propriétaires sur les benchmarks de codage
3The Decoder 

GLM-5.2 de Zhipu AI rivalise avec les meilleurs modeles propriétaires sur les benchmarks de codage

Le laboratoire chinois Zhipu AI a publié GLM-5.2, un nouveau modèle de langage open source distribué sous licence MIT. Le modèle supporte une fenêtre de contexte stable d'un million de tokens, ce qui lui permet de traiter des projets logiciels entiers en une seule session. Sur le benchmark FrontierSWE, conçu pour évaluer les performances sur des tâches de programmation longues de plusieurs heures, GLM-5.2 n'affiche qu'un point de pourcentage de retard sur Claude Opus 4.8 d'Anthropic, l'un des modèles fermés les plus performants du moment dans cette catégorie. C'est un résultat significatif pour l'écosystème open source : un modèle librement accessible et modifiable parvient à rivaliser avec les systèmes propriétaires sur des tâches de développement logiciel complexes et de longue durée. Pour les entreprises et développeurs indépendants, cela signifie un accès à des capacités de codage avancées sans dépendance à des API payantes ni contraintes de confidentialité des données. Le fait que GLM-5.2 soit sous licence MIT le rend également librement utilisable dans des produits commerciaux. Les limites restent réelles : en raisonnement général, GLM-5.2 accuse encore un retard notable face aux modèles fermés comme GPT-4o ou Claude Opus. Zhipu AI s'inscrit dans une vague de laboratoires chinois, aux côtés de DeepSeek, Qwen ou Baichuan, qui rattrapent progressivement les leaders occidentaux sur des domaines ciblés. L'enjeu est désormais de savoir si cette convergence sur le code va s'étendre aux capacités cognitives plus larges, et à quel rythme.

UELes entreprises et développeurs européens peuvent accéder à des capacités de codage avancées sans dépendance à des API payantes ni contraintes de confidentialité des données, grâce à la licence MIT de GLM-5.2.

LLMsOpinion
1 source
MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2
4MarkTechPost 

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

MiniMax a rendu public les poids de son modèle MiniMax M2.7 sur Hugging Face, officiellement annoncé le 18 mars 2026. Il s'agit du modèle open source le plus performant de l'entreprise à ce jour, construit sur une architecture Mixture-of-Experts (MoE) qui n'active qu'une fraction des paramètres à chaque inférence, rendant le modèle nettement plus rapide et moins coûteux à faire tourner qu'un modèle dense de qualité comparable. M2.7 est conçu autour de trois axes : l'ingénierie logicielle professionnelle, la productivité bureautique avancée, et ce que MiniMax appelle les "Agent Teams", une capacité native de collaboration multi-agents. Sur le benchmark SWE-Pro, qui évalue la maîtrise de plusieurs langages de programmation à travers des tâches d'analyse de logs, débogage, revue de sécurité et workflows machine learning, M2.7 atteint 56,22 %, à égalité avec GPT-5.3-Codex. Il obtient également 57,0 % sur Terminal Bench 2, 39,8 % sur NL2Repo, et 55,6 % sur VIBE-Pro, benchmark de génération de code à l'échelle d'un dépôt, plaçant le modèle au niveau de Claude Opus 4.6 sur des tâches couvrant Web, Android, iOS et simulation. Ce qui distingue M2.7, c'est sa capacité à intervenir sur des systèmes en production réels. Face à une alerte critique, le modèle peut corréler des métriques de monitoring avec des timelines de déploiement, conduire une analyse statistique sur des traces d'échantillonnage, se connecter proactivement à des bases de données pour vérifier la cause racine, identifier des fichiers de migration d'index manquants dans un dépôt, puis appliquer une création d'index non bloquante avant de soumettre une merge request, le tout en moins de trois minutes selon les équipes MiniMax. Ce positionnement dépasse largement la génération de code : il s'agit d'un modèle capable de raisonnement causal de niveau SRE (Site Reliability Engineering), un profil rare parmi les modèles disponibles en open source. Le détail le plus frappant de M2.7 est son architecture d'auto-évolution. Le modèle a été chargé d'optimiser lui-même ses propres performances sur un scaffold interne, sans intervention humaine. Il a conduit plus de 100 itérations autonomes selon une boucle : analyser les trajectoires d'échec, planifier des modifications, toucher au code du scaffold, relancer des évaluations, comparer les résultats, décider de conserver ou annuler les changements. Au fil de ce processus, M2.7 a découvert seul des optimisations efficaces, notamment la recherche systématique de la combinaison optimale de paramètres d'échantillonnage (température, frequency penalty, presence penalty), la conception de guidelines de workflow plus précises, et l'ajout d'une détection de boucles infinies dans l'agent loop. Résultat : une amélioration de 30 % sur les ensembles d'évaluation internes. Au sein des équipes de reinforcement learning de MiniMax, M2.7 gère désormais 30 à 50 % des workflows de bout en bout, les chercheurs humains n'intervenant que pour les décisions critiques, un signal fort que la frontière entre outil et collaborateur est en train de se déplacer.

UELes développeurs et entreprises européens peuvent déployer librement les poids de ce modèle open source pour des tâches d'ingénierie logicielle avancée, réduisant leur dépendance aux API propriétaires.

💬 Un modèle open source qui a passé 100 itérations à modifier son propre scaffold et s'est amélioré de 30 % tout seul, c'est le truc qu'on lisait dans les papiers de recherche il y a 18 mois. Là c'est sorti sur Hugging Face, avec les poids, et des benchmarks qui le placent au niveau de Claude Opus 4.6 sur du code à l'échelle d'un dépôt réel. Reste à voir si ça tient hors du contexte lab, mais pour une fois l'architecture MoE n'est pas juste un argument marketing pour réduire les coûts d'inférence : ça donne un modèle qu'on peut faire tourner sans louer un datacenter.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic