Aller au contenu principal
LLMsVentureBeat AI2h

MiniMax-M3 surpasse GPT-5.5 et Gemini 3.1 Pro sur des benchmarks clés, pour 5 à 10 % du coût

Résumé IASource uniqueImpact UE
Source originale ↗·

La startup chinoise MiniMax a lancé dimanche soir son modèle de langage MiniMax-M3, se positionnant d'emblée comme une alternative redoutable aux modèles propriétaires américains. Disponible via l'API MiniMax à un tarif promotionnel de 0,30 dollar par million de tokens en entrée et 1,20 dollar par million en sortie, le modèle affiche des performances supérieures à GPT-5.5 d'OpenAI et à Gemini 3.1 Pro de Google sur plusieurs benchmarks clés, pour 5 à 10 % de leur coût. Même à plein tarif, 0,60 dollar l'entrée et 2,40 dollars la sortie, M3 revient à seulement 8 à 20 % du prix des grands modèles propriétaires concurrents. L'entreprise a également annoncé la mise à disposition sous licence open source avec poids ouverts dans les dix prochains jours, permettant aux entreprises de télécharger et personnaliser le modèle gratuitement. M3 intègre par ailleurs une fenêtre de contexte d'un million de tokens, une multimodalité native, et des capacités avancées en codage et en traitement de tâches agentiques, avec un abonnement mensuel à partir de 20 dollars.

Ce lancement remet en question une règle non écrite du secteur : les développeurs devaient jusqu'ici choisir entre des modèles fermés très performants mais coûteux, ou des modèles open source accessibles mais limités sur les raisonnements complexes et les longues séquences. MiniMax-M3 brouille cette frontière en combinant performance de pointe et coût marginal, ce qui pourrait redistribuer les cartes pour les équipes de développement cherchant à intégrer des capacités d'IA avancées sans exploser leurs budgets d'inférence. La possibilité de déployer les poids en local renforce encore l'intérêt pour les entreprises soucieuses de confidentialité ou cherchant à s'affranchir de dépendances API.

Cette percée s'inscrit dans un mouvement plus large de rattrapage des laboratoires chinois face aux géants américains. DeepSeek, Alibaba avec Qwen, Moonshot via Kimi et désormais MiniMax publient à un rythme soutenu des modèles compétitifs à des prix agressifs, alimentant une guerre tarifaire qui contraint OpenAI, Google et Anthropic à revoir leurs propres grilles. Sur le plan technique, M3 repose sur une architecture originale baptisée MiniMax Sparse Attention, qui rompt avec les mécanismes d'attention traditionnels dont le coût de calcul croît quadratiquement avec la longueur des séquences. En découpant les matrices clé-valeur en blocs ciblés lus une seule fois, cette approche permet d'être plus de quatre fois plus rapide que des alternatives open source comparables sur de longues séquences. La disponibilité imminente des poids ouverts pourrait transformer M3 en référence de facto pour les entreprises cherchant un modèle frontier déployable en interne.

Impact France/UE

Les développeurs et entreprises européens disposent d'une alternative frontier open source déployable localement, réduisant la dépendance aux API américaines et les coûts d'inférence de 80 à 95 %.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark
1Le Big Data 

Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark

Meta a officiellement lancé Muse Spark ce mercredi 8 avril 2026, neuf mois après la création discrète des Meta Superintelligence Labs, une structure restée secrète depuis sa fondation. Contrairement aux versions précédentes de Llama, Muse Spark est présenté comme un modèle de raisonnement multimodal natif, capable d'utiliser des outils, d'orchestrer plusieurs agents autonomes en simultané et d'analyser des contenus visuels via une chaîne de pensée visuelle. Le modèle intègre un mode baptisé "Contemplating", qui permet à l'IA de vérifier ses propres conclusions avant d'agir. Il est disponible dès aujourd'hui en aperçu privé via API sur meta.ai et dans les applications du groupe. Zuckerberg a évoqué une ouverture future du code source, sans donner de date précise. L'impact potentiel de Muse Spark touche à la fois le grand public et des secteurs sensibles comme la santé. L'IA est conçue pour exécuter des tâches concrètes à la place de l'utilisateur, par exemple identifier des pièces défectueuses sur un appareil filmé en temps réel et afficher des instructions de réparation directement à l'écran. Sur le volet médical, Meta affirme avoir entraîné le modèle avec la contribution de mille médecins experts, permettant à l'IA d'analyser des symptômes ou des habitudes alimentaires pour formuler des conseils de nutrition. Cette ambition de transformer WhatsApp en interface de conseil médical soulève des questions importantes pour les régulateurs du monde entier, notamment sur la responsabilité en cas d'erreur et la protection des données de santé. Ce lancement s'inscrit dans une course frontale à la superintelligence qui oppose désormais Meta à OpenAI et Google. Depuis plusieurs trimestres, Zuckerberg multiplie les investissements massifs en infrastructures et en recrutement de chercheurs d'élite pour combler le retard accumulé face à GPT-5 et Gemini. La création des Meta Superintelligence Labs dans la discrétion témoigne d'une volonté de structurer la recherche avancée en dehors des divisions existantes. La capacité d'orchestration multi-agents de Muse Spark place Meta directement en concurrence avec les systèmes agentiques développés par Google DeepMind et les projets d'OpenAI autour des agents autonomes. Les prochaines semaines seront déterminantes : l'accès public à l'API permettra aux développeurs d'évaluer les performances réelles du modèle, au-delà des démonstrations contrôlées, et de mesurer si Meta tient ses promesses face aux standards déjà établis par ses rivaux.

UEL'intégration de conseils médicaux via WhatsApp soulève des enjeux majeurs de protection des données de santé sous le RGPD, susceptibles d'entraîner une intervention des régulateurs européens dont la CNIL.

LLMsOpinion
1 source
L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro
2VentureBeat AI 

L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro

Z.ai, startup chinoise cotée à la Bourse de Hong Kong depuis début 2026 avec une capitalisation de 52,83 milliards de dollars, a publié le 7 avril 2026 son modèle GLM-5.1 sous licence MIT, permettant à toute entreprise de le télécharger, l'adapter et l'exploiter commercialement via Hugging Face. Ce modèle de 754 milliards de paramètres en architecture Mixture-of-Experts dispose d'une fenêtre de contexte de 202 752 tokens. Sa caractéristique principale est sa capacité à travailler de façon autonome jusqu'à huit heures consécutives sur une tâche complexe, enchaînant jusqu'à 1 700 étapes d'exécution et plusieurs milliers d'appels d'outils, contre une vingtaine d'étapes pour les meilleurs modèles fin 2024 selon le fondateur Lou. Sur le benchmark SWE-Bench Pro, il dépasse Claude Opus 4.6 et GPT-5.4, deux des références actuelles en ingénierie logicielle automatisée. Ce lancement illustre une rupture dans la façon de concevoir la performance des modèles d'IA. Là où la concurrence investit massivement dans les tokens de raisonnement pour gagner en logique à court terme, Z.ai parie sur l'endurance : la capacité d'un modèle à maintenir sa cohérence d'objectif sur des séquences d'exécution très longues. Les tests publiés dans leur rapport technique sont frappants : chargé d'optimiser une base de données vectorielle en Rust (benchmark VectorDBBench), GLM-5.1 a enchaîné 655 itérations et plus de 6 000 appels d'outils, atteignant 21 500 requêtes par seconde, contre 3 547 pour Claude Opus 4.6 dans les meilleures conditions. Le modèle a identifié et résolu six goulots d'étranglement structurels, introduisant de lui-même des techniques comme le IVF cluster probing, la compression vectorielle f16 ou un pipeline à deux étages combinant présélection u8 et reclassement f16. Ce n'est plus un assistant, c'est un département R&D autonome. Le contexte de cette publication est stratégique. Z.ai, connue pour sa famille de modèles GLM open source, avait sorti le mois précédent GLM-5 Turbo sous licence propriétaire uniquement. Le choix du MIT pour GLM-5.1 est délibéré : il s'agit de capter la communauté des développeurs et de s'imposer comme le principal acteur indépendant de LLM en Asie, à l'heure où la Chine tente de reprendre la main sur l'IA open source face aux modèles américains à accès restreint. La notion de "temps de travail autonome" que Lou décrit comme "la courbe la plus importante après les lois d'échelle" pourrait redéfinir les critères d'évaluation de l'industrie entière. Si ce cap se confirme, les prochaines versions de modèles concurrents devront répondre non plus uniquement sur la précision à court terme, mais sur leur capacité à tenir la distance sur des projets entiers.

UELes entreprises et développeurs européens peuvent télécharger et exploiter GLM-5.1 librement sous licence MIT via Hugging Face, offrant une alternative open source compétitive aux modèles propriétaires américains pour des tâches d'ingénierie logicielle autonome longue durée.

LLMsOpinion
1 source
xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime
3MarkTechPost 

xAI lance grok-voice-think-fast-1.0, en tête du benchmark τ-voice à 67,3 %, devant Gemini et GPT Realtime

xAI a lancé grok-voice-think-fast-1.0, son nouveau modèle de voix phare, disponible via l'API xAI. Ce modèle s'impose en tête du classement τ-voice Bench avec un score de 67,3 %, devançant largement ses concurrents directs : Gemini 3.1 Flash Live atteint 43,8 %, GPT Realtime 1.5 de OpenAI 35,3 %, et même la précédente version maison, Grok Voice Fast 1.0, ne dépasse pas 38,3 %. Les écarts sont encore plus marqués par secteur : en télécom, domaine couvrant les litiges de facturation et le support technique, grok-voice-think-fast-1.0 atteint 73,7 % contre 21,9 % pour Gemini et 21,1 % pour GPT Realtime 1.5, soit plus de 33 points d'avance. Dans le commerce de détail, il score 62,3 %, contre 44,7 % pour Gemini. Dans le secteur aérien, il atteint 66 %, contre 40 % pour Gemini. Le modèle est déjà déployé en production chez Starlink pour alimenter ses opérations téléphoniques en direct. Ces chiffres sont significatifs parce que le τ-voice Bench évalue les agents vocaux dans des conditions réalistes : bruit de fond, accents, interruptions et prises de parole naturelles, là où la plupart des benchmarks historiques utilisent de l'audio propre et non représentatif des usages réels. Ce qui distingue fondamentalement le modèle est sa nature full-duplex : il traite la parole entrante et génère ses réponses simultanément, comme le font les humains, sans attendre que l'interlocuteur ait fini sa phrase. Cette capacité rend la gestion des interruptions techniquement très complexe : le modèle doit décider en temps réel si une intervention à mi-phrase est une correction, une précision ou simplement un mot de remplissage. Autre avancée majeure : le raisonnement s'effectue en arrière-plan, ce qui permet au modèle de traiter des requêtes complexes sans allonger le temps de réponse perçu par l'utilisateur, un problème structurel des modèles de raisonnement classiques. La course aux agents vocaux de production s'est intensifiée depuis que Google a lancé Gemini Live et qu'OpenAI a déployé son API Realtime, deux systèmes qui avaient eux-mêmes marqué un saut par rapport aux architectures pipeline en cascade traditionnelles. xAI, fondé par Elon Musk en 2023, entre dans ce segment avec une approche explicitement orientée entreprise, ciblant le support client, la vente et les workflows en plusieurs étapes où les erreurs coûtent cher. Le déploiement chez Starlink constitue un test grandeur nature à grande échelle, ce qui renforce la crédibilité des benchmarks publiés. La disponibilité via API ouvre la voie à une intégration rapide dans des centres d'appel et des plateformes SaaS, un marché évalué à plusieurs dizaines de milliards de dollars et encore dominé par des solutions reposant sur des pipelines STT/LLM/TTS fragmentés.

UELes centres d'appel et plateformes SaaS européens peuvent intégrer ce modèle via API pour moderniser leurs pipelines vocaux fragmentés, mais aucune entreprise ou réglementation française ou européenne n'est directement impliquée.

LLMsActu
1 source
DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5
4VentureBeat AI 

DeepSeek-V4 : performances proches du meilleur niveau pour un sixième du coût d'Opus 4.7 et GPT-5.5

DeepSeek, la startup chinoise d'intelligence artificielle issue du fonds de trading quantitatif High-Flyer Capital Management, a publié DeepSeek-V4, un modèle de langage aux capacités proches des meilleurs systèmes mondiaux. Avec 1 600 milliards de paramètres organisés selon une architecture Mixture-of-Experts (MoE), ce modèle est disponible gratuitement sous licence MIT commercialement permissive, sur la plateforme Hugging Face et via l'API de DeepSeek. Son tarif d'accès : 1,74 dollar par million de tokens en entrée et 3,48 dollars par million en sortie, soit environ 5,22 dollars pour une utilisation combinée standard. Avec les entrées mises en cache, ce coût descend à 3,63 dollars. À titre de comparaison, GPT-5.5 d'OpenAI coûte 35 dollars pour la même transaction, et Claude Opus 4.7 d'Anthropic 30 dollars. Une version allégée, DeepSeek-V4-Flash, est proposée à seulement 0,42 dollar combiné, au prix d'une baisse de performance. Deli Chen, chercheur chez DeepSeek, a décrit cette sortie sur X comme "un travail d'amour", réalisé 484 jours après le lancement du V3, avec cette formule : "L'AGI appartient à tout le monde." L'impact économique est immédiat et brutal pour les acteurs américains du secteur. DeepSeek-V4-Pro coûte environ six fois moins cher que Claude Opus 4.7 et sept fois moins que GPT-5.5 en conditions normales, et jusqu'à dix fois moins avec les entrées en cache. La version Flash, elle, revient à moins de 1 % du tarif des modèles premium américains. Pour les entreprises traitant de gros volumes de requêtes, cette différence de coûts transforme radicalement le calcul de rentabilité : des tâches d'automatisation jugées trop onéreuses avec les modèles fermés américains deviennent soudainement viables. Développeurs et directions techniques sont contraints de réévaluer leurs choix d'infrastructure, et les fournisseurs positionnés sur le haut de gamme voient leur argument tarifaire sérieusement fragilisé. Ce lancement s'inscrit dans la continuité du "moment DeepSeek" de janvier 2025, quand le modèle R1 avait stupéfait la communauté internationale en rivalisant avec les meilleurs systèmes propriétaires américains à une fraction de leur coût de développement. Depuis, la startup avait publié plusieurs mises à jour de ses séries R1 et V3, mais la communauté attendait un successeur de grande envergure. Ce DeepSeek-V4 est d'ores et déjà qualifié de "deuxième moment DeepSeek", et il ravive les débats sur la pérennité commerciale des modèles fermés face aux alternatives open source chinoises. Il soulève également des questions sur la capacité de DeepSeek à maintenir cette trajectoire malgré les restrictions américaines sur l'exportation de puces haut de gamme, contraintes que l'entreprise semble contourner avec une efficacité croissante grâce à des optimisations architecturales poussées.

UEL'écart de prix, jusqu'à six fois inférieur aux modèles premium américains, permet aux entreprises européennes de rentabiliser des projets d'automatisation IA jusqu'ici jugés trop coûteux.

💬 Six fois moins cher qu'Opus 4.7, performances comparables, licence MIT. C'est exactement le scénario que les équipes produit chez OpenAI et Anthropic essayaient de ne pas avoir à gérer, et il arrive quand même. "L'AGI appartient à tout le monde", dit DeepSeek, bon, sur le papier c'est beau, mais le vrai truc c'est que des automatisations qu'on refusait de budgéter il y a six mois deviennent rentables dès ce soir.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour