Aller au contenu principal
MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides
LLMsVentureBeat AI10h

MiniMax annonce le modèle M3 : attention fragmentée et réponses longues 15,6 fois plus rapides

Résumé IASource uniqueImpact UE
Source originale ↗·

MiniMax, laboratoire chinois d'intelligence artificielle, vient de publier un rapport technique approfondi sur sa série de modèles de langage M2 (M2, M2.5 et M2.7), tout en dévoilant les premières caractéristiques de sa prochaine génération, M3. Le document révèle l'architecture interne de M2 : un Transformer de type Mixture-of-Experts (MoE) totalisant 229,9 milliards de paramètres, dont seulement 9,8 milliards sont activés à chaque token, répartis entre 256 experts spécialisés. Pour éviter les déséquilibres de charge habituels dans ce type d'architecture, MiniMax a développé un système de routage original combinant une activation sigmoïde et des biais appris par expert. Surtout, la société annonce que M3 adoptera un nouveau mécanisme d'attention sub-quadratique qui permettrait un décodage jusqu'à 15,6 fois plus rapide sur des contextes d'un million de tokens, rendant le déploiement d'agents IA sur des documents ultra-longs économiquement viable pour la première fois.

L'enjeu est considérable pour les entreprises qui travaillent avec de grands volumes de texte. Dans les LLM classiques, l'attention standard oblige chaque token à interagir mathématiquement avec tous les autres, ce qui fait exploser les besoins en mémoire et en calcul à mesure que les séquences s'allongent. Traiter un million de tokens avec ce système revient à mobiliser des ressources matérielles prohibitives. Le passage à une approche sub-quadratique, si elle préserve la qualité de compréhension, ouvrirait la voie à des agents capables d'ingérer des contrats, des bases de connaissances entières ou des historiques de conversations très longs sans coût exorbitant. Adina Yakup, chercheuse chez Hugging Face, a salué le travail sur X : "Au-delà des benchmarks, ils ont accompli un travail solide sur l'efficacité des MoE et la conception orientée agents."

MiniMax s'inscrit dans une vague de laboratoires chinois, aux côtés de DeepSeek et Xiaomi, qui challengent frontalement les modèles américains dominants en proposant des performances de premier rang sous licences open source permissives, adaptées aux usages commerciaux. La série M2 avait atteint le haut des classements open source à sa sortie avant d'être dépassée par des concurrents ; le rapport publié constitue désormais un manuel de référence pour les équipes qui cherchent à entraîner ou affiner leurs propres modèles en interne. Le vrai pari de M3 sera de résoudre le compromis historique des méthodes sub-quadratiques, comme l'attention par fenêtre glissante, qui réduisent les coûts de calcul mais font perdre au modèle la vision d'ensemble des contextes distants. Si MiniMax tient ses promesses de vitesse sans sacrifier la précision, M3 pourrait redéfinir les standards d'efficacité pour les agents IA à grande échelle.

Impact France/UE

Les équipes européennes développant des agents IA sur de longs contextes pourraient bénéficier des modèles open source de MiniMax pour réduire leurs coûts d'inférence, si M3 tient ses promesses de vitesse sans perte de précision.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code
1MarkTechPost 

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code

Google a dévoilé Gemini 3.5 Flash lors de sa conférence Google I/O en mai 2026, marquant le lancement de la première génération de modèles Gemini 3.5. Malgré son positionnement dans le tier "Flash", historiquement réservé aux modèles rapides et économiques, ce nouveau modèle surpasse Gemini 3.1 Pro sur les benchmarks exigeants. Il affiche 76,2 % sur Terminal-Bench 2.1 (performance en codage), 1 656 Elo sur GDPval-AA (tâches agentiques réelles), 83,6 % sur MCP Atlas (fiabilité dans l'utilisation d'outils) et 84,2 % sur CharXiv Reasoning (compréhension multimodale). Côté prix, Google propose 1,50 dollar par million de tokens en entrée, 9 dollars en sortie, et seulement 0,15 dollar pour les tokens mis en cache. Le modèle est quatre fois plus rapide sur les tokens de sortie que son prédécesseur, avec une fenêtre de contexte d'un million de tokens et une date de coupure de connaissance fixée à janvier 2026. Ce lancement est structurellement important parce qu'il efface la frontière entre vitesse et puissance : un modèle "Flash" bon marché dépasse désormais le modèle premium précédent. Pour les développeurs et les entreprises qui construisent des agents IA, cela réduit drastiquement le coût des workflows complexes. Google a simultanément lancé une API "Managed Agents" qui permet de déployer un agent complet en un seul appel API : l'agent raisonne, appelle des outils, exécute du code dans un conteneur Linux isolé, et maintient son état entre les appels successifs. Des partenaires comme Shopify utilisent déjà des sous-agents en parallèle pour améliorer les prévisions de croissance de leurs marchands, Macquarie Bank le teste pour analyser des documents de plus de 100 pages lors de l'embarquement client, Salesforce l'intègre dans Agentforce pour automatiser des tâches d'entreprise, et Databricks l'utilise pour la surveillance de données en temps réel avec diagnostic automatique. Ce modèle s'inscrit dans la stratégie "agent-first" de Google, matérialisée par la plateforme Antigravity. Antigravity 2.0 est une application desktop autonome capable d'orchestrer plusieurs agents en parallèle, avec des tâches planifiées et des intégrations couvrant Google AI Studio, Android et Firebase. Un CLI permet aux développeurs de créer des agents sans interface graphique, et un SDK ouvre un accès programmatique complet. La compétition sur le segment des modèles efficaces et agentiques s'intensifie : OpenAI, Anthropic et d'autres acteurs proposent des offres similaires, mais Google frappe fort en combinant performance de frontier, prix agressif et infrastructure d'exécution clé en main. Les prochains mois diront si Gemini 3.5 Flash s'impose comme la référence de facto pour les workflows agentiques en production.

UELes développeurs et entreprises européens peuvent adopter dès maintenant Gemini 3.5 Flash pour leurs workflows agentiques à des tarifs très agressifs, abaissant significativement le coût de construction d'agents IA en production en France et dans l'UE.

💬 Un modèle Flash qui surpasse le Pro précédent sur les benchmarks, ça change toute l'équation. Tu n'as plus à choisir entre vitesse et qualité, tu prends les deux pour 1,50 dollar le million de tokens en entrée. L'API Managed Agents m'intéresse autant que les perfs : déployer un agent complet en un seul appel, c'est exactement le plumbing que tout le monde réécrivait à la main depuis deux ans.

LLMsOpinion
1 source
MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros
2Le Big Data 

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

MiniCPM5-1B, développé par OpenBMB en collaboration avec des chercheurs de l'université Tsinghua, vient de décrocher la première place de l'Artificial Analysis Intelligence Index dans la catégorie des modèles open source sous les 2 milliards de paramètres, avec un score de 17,9 points. Ce résultat lui permet de devancer des concurrents pourtant plus imposants comme Qwen3.5-2B, qui plafonne à 16,3 points, malgré deux fois moins de paramètres. L'annonce a été faite le 25 mai 2026 via le compte ModelScope. Quantifié en INT4, le modèle ne pèse qu'environ 0,5 Go, ce qui lui permet de fonctionner localement sur des smartphones, dans des navigateurs web ou sur des appareils edge. Il propose une fenêtre de contexte de 128 000 tokens, deux modes de réponse (raisonnement détaillé étape par étape ou réponses rapides), et affiche de solides performances en mathématiques, génération de code et utilisation d'outils externes. Le projet est entièrement open source : poids, données d'entraînement et code de déploiement sont accessibles publiquement. OpenBMB précise également que MiniCPM5-1B a été entraîné via ForgeTrain, un framework de préentraînement développé sans programmeur humain. L'impact concret de ce type de modèle est considérable pour les usages du quotidien. Un modèle capable de fonctionner hors connexion sur un téléphone ordinaire ou un ordinateur portable bas de gamme transforme radicalement l'accès à l'IA : plus besoin d'envoyer des données vers des serveurs distants, plus de latence réseau, plus de dépendance à un abonnement cloud. Des utilisateurs rapportent déjà avoir dialogué avec le modèle pendant près d'une heure sans connexion Wi-Fi. Pour les entreprises, les développeurs indépendants ou les pays disposant d'infrastructures réseau limitées, cette autonomie représente un changement structurel. La capacité à gérer de longs documents ou conversations sans perdre le contexte, malgré un format aussi compact, élargit encore le champ d'application possible. La progression des petits modèles efficaces s'inscrit dans une tendance de fond qui remet en question la course aux paramètres qui a dominé l'industrie depuis 2020. Des laboratoires comme Google DeepMind avec Gemma, ou Meta avec les versions légères de LLaMA, explorent également cette voie, mais MiniCPM5-1B illustre que des équipes académiques chinoises peuvent désormais rivaliser directement avec les géants technologiques occidentaux sur ce terrain. Le fait qu'OpenBMB ait rendu l'ensemble du processus open source accentue la pression sur les acteurs commerciaux, qui ne peuvent plus se contenter de la taille pour justifier leurs coûts. La prochaine étape sera de vérifier si ces performances sur benchmarks se traduisent par une adoption réelle dans des applications grand public, ce qui constitue historiquement le vrai test de viabilité pour tout modèle, quel que soit son format.

UECe modèle open source deployable hors connexion pourrait intéresser des développeurs et PME européennes soucieux de souveraineté des données, mais aucun impact réglementaire ou institutionnel direct pour la France ou l'UE n'est identifié.

💬 0,5 Go pour battre Qwen deux fois plus gros, c'est le genre de chiffre qui devrait clore les débats sur la course aux paramètres. Ce qui m'intéresse c'est pas le score, c'est l'offline : dialoguer une heure depuis ton téléphone sans Wi-Fi et sans envoyer tes données nulle part, c'est un usage réel pour des millions de gens. Tout est open source, poids, données, code, donc la communauté va vite trancher si ça tient à l'usage ou non.

LLMsOpinion
1 source
NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B
3MarkTechPost 

NVIDIA AI lance Nemotron-Labs-Diffusion : modèle de langage à trois modes, 6 fois plus de tokens par inférence que Qwen3-8B

NVIDIA a publié Nemotron-Labs-Diffusion, une nouvelle famille de modèles de langage disponible en trois tailles, 3, 8 et 14 milliards de paramètres, avec des variantes de base, instruction et vision-langage. La particularité de cette architecture réside dans sa capacité à fonctionner selon trois modes de décodage distincts au sein d'un seul et même jeu de poids : le décodage autorégressif classique (AR), le décodage par diffusion parallèle, et un mode dit de "self-speculation". L'entraînement combine un objectif AR standard et un objectif de débruitage par diffusion, pondérés selon la formule L(θ) = LAR(θ) + 0,3 × Ldiff(θ). Le coefficient 0,3 a été déterminé par ablation sur une plage de 0,1 à 1,0, et s'est révélé optimal pour les deux modes simultanément. La procédure d'entraînement se déroule en deux phases : un trillion de tokens en mode purement autorégressif pour ancrer des priors linguistiques solides, suivi de 300 milliards de tokens supplémentaires avec l'objectif conjoint. Ce modèle répond à un problème fondamental des LLMs déployés en production : les modèles autorégressifs génèrent un token à la fois, ce qui sous-exploite massivement les GPU dans les scénarios à faible concurrence, typiquement les déploiements en edge ou pour un utilisateur unique. Le mode diffusion de Nemotron-Labs-Diffusion génère plusieurs tokens en parallèle par passe, grâce à une attention bidirectionnelle à l'intérieur de blocs contigus, tout en conservant une attention causale entre blocs pour réutiliser le cache KV. Le mode self-speculation est encore plus original : la voie diffusion génère un bloc de k tokens candidats, que la voie AR vérifie en une seconde passe, en validant le préfixe contigu le plus long. Chaque cycle produit entre 1 et k+1 tokens vérifiés, sans modèle auxiliaire ni tête de prédiction séparée, une différence notable par rapport aux approches comme Eagle3 ou Multi-Token Prediction. Les modèles de diffusion pour le langage souffrent depuis leur émergence d'un déficit de précision par rapport aux modèles autorégressifs : ils nécessitent davantage de données pour atteindre des performances comparables, notamment parce qu'ils ne tirent pas parti du biais gauche-droite naturel du langage. NVIDIA tente de résoudre cette tension structurelle en entraînant un modèle unique sur les deux objectifs, ce qui, selon leurs ablations, apporte un gain moyen de +7,48% via le seul ajout de la perte AR, et +5,74% grâce à l'entraînement en deux étapes. La publication de cette famille de modèles s'inscrit dans une compétition intense autour de l'efficacité inférentielle, où Qwen3-8B sert de référence explicite, NVIDIA revendiquant un ratio de 6× tokens par passe vers l'avant. La prochaine étape naturelle sera de voir si ces gains se confirment dans des benchmarks indépendants et des déploiements réels, et si l'approche tri-modale s'impose comme standard pour les futurs modèles hybrides.

LLMsOpinion
1 source
4MarkTechPost 

Phi-4-Mini de Microsoft : implémentation pour l'inférence quantifiée, le RAG et l'affinage LoRA

Microsoft a publié Phi-4-mini-instruct, un modèle de langage compact de la famille Phi-4, conçu pour fonctionner efficacement sur du matériel grand public. Des chercheurs et développeurs ont récemment publié un tutoriel complet montrant comment exploiter ce modèle dans un notebook Google Colab sur GPU T4, en couvrant l'ensemble du spectre des usages modernes : inférence en streaming, raisonnement structuré, appels d'outils, génération augmentée par récupération (RAG) et fine-tuning par LoRA. Le pipeline s'appuie sur une quantification 4 bits au format NF4 via la bibliothèque BitsAndBytes, combinée à bfloat16 et double quantification, ce qui permet de charger le modèle en moins de 2 Go de VRAM tout en conservant des performances proches du modèle en pleine précision. La stack technique repose sur des versions précises de Transformers (4.49 à 4.57), PEFT, Accelerate, Datasets, sentence-transformers et FAISS, toutes compatibles avec l'architecture native phi3 de Microsoft. Ce travail illustre une tendance de fond dans l'industrie : rendre les workflows LLM avancés accessibles sans infrastructure coûteuse. Un développeur équipé d'un simple GPU de jeu ou d'un accès gratuit à Colab peut désormais expérimenter le tool calling, le RAG ou l'adaptation par LoRA sur un modèle performant, sans dépendre d'API payantes ni de clusters H100. Pour les entreprises, cela ouvre la voie à des déploiements on-premise de petits modèles capables de gérer des tâches complexes, avec un contrôle total sur les données et des coûts d'inférence drastiquement réduits. La démocratisation de ces techniques touche directement les équipes data, les startups et les développeurs indépendants qui ne peuvent pas se permettre de faire tourner des modèles de 70 milliards de paramètres en continu. Cette publication s'inscrit dans la stratégie de Microsoft autour de la famille Phi, dont l'objectif affiché est de prouver que la taille n'est pas le seul vecteur de performance. Phi-4-mini succède à Phi-3, qui avait déjà surpris l'industrie en dépassant des modèles nettement plus grands sur plusieurs benchmarks de raisonnement. La concurrence sur ce segment des petits modèles efficaces est aujourd'hui vive : Google pousse Gemma, Meta propose Llama 3.2 en versions 1B et 3B, et Mistral entretient sa gamme Mistral-Nemo. Le fait que Phi-4-mini supporte nativement le tool calling et s'intègre facilement dans des pipelines RAG renforce son positionnement pour des cas d'usage en production, notamment les assistants embarqués, les agents autonomes légers et les systèmes d'analyse documentaire tournant en local.

UELes développeurs et startups européens peuvent déployer ce modèle en local sur du matériel grand public, réduisant leur dépendance aux API cloud payantes et facilitant la conformité RGPD par traitement on-premise.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour