Aller au contenu principal
MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2
LLMsMarkTechPost6sem

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

MiniMax a rendu public les poids de son modèle MiniMax M2.7 sur Hugging Face, officiellement annoncé le 18 mars 2026. Il s'agit du modèle open source le plus performant de l'entreprise à ce jour, construit sur une architecture Mixture-of-Experts (MoE) qui n'active qu'une fraction des paramètres à chaque inférence, rendant le modèle nettement plus rapide et moins coûteux à faire tourner qu'un modèle dense de qualité comparable. M2.7 est conçu autour de trois axes : l'ingénierie logicielle professionnelle, la productivité bureautique avancée, et ce que MiniMax appelle les "Agent Teams", une capacité native de collaboration multi-agents. Sur le benchmark SWE-Pro, qui évalue la maîtrise de plusieurs langages de programmation à travers des tâches d'analyse de logs, débogage, revue de sécurité et workflows machine learning, M2.7 atteint 56,22 %, à égalité avec GPT-5.3-Codex. Il obtient également 57,0 % sur Terminal Bench 2, 39,8 % sur NL2Repo, et 55,6 % sur VIBE-Pro, benchmark de génération de code à l'échelle d'un dépôt, plaçant le modèle au niveau de Claude Opus 4.6 sur des tâches couvrant Web, Android, iOS et simulation.

Ce qui distingue M2.7, c'est sa capacité à intervenir sur des systèmes en production réels. Face à une alerte critique, le modèle peut corréler des métriques de monitoring avec des timelines de déploiement, conduire une analyse statistique sur des traces d'échantillonnage, se connecter proactivement à des bases de données pour vérifier la cause racine, identifier des fichiers de migration d'index manquants dans un dépôt, puis appliquer une création d'index non bloquante avant de soumettre une merge request, le tout en moins de trois minutes selon les équipes MiniMax. Ce positionnement dépasse largement la génération de code : il s'agit d'un modèle capable de raisonnement causal de niveau SRE (Site Reliability Engineering), un profil rare parmi les modèles disponibles en open source.

Le détail le plus frappant de M2.7 est son architecture d'auto-évolution. Le modèle a été chargé d'optimiser lui-même ses propres performances sur un scaffold interne, sans intervention humaine. Il a conduit plus de 100 itérations autonomes selon une boucle : analyser les trajectoires d'échec, planifier des modifications, toucher au code du scaffold, relancer des évaluations, comparer les résultats, décider de conserver ou annuler les changements. Au fil de ce processus, M2.7 a découvert seul des optimisations efficaces, notamment la recherche systématique de la combinaison optimale de paramètres d'échantillonnage (température, frequency penalty, presence penalty), la conception de guidelines de workflow plus précises, et l'ajout d'une détection de boucles infinies dans l'agent loop. Résultat : une amélioration de 30 % sur les ensembles d'évaluation internes. Au sein des équipes de reinforcement learning de MiniMax, M2.7 gère désormais 30 à 50 % des workflows de bout en bout, les chercheurs humains n'intervenant que pour les décisions critiques, un signal fort que la frontière entre outil et collaborateur est en train de se déplacer.

Impact France/UE

Les développeurs et entreprises européens peuvent déployer librement les poids de ce modèle open source pour des tâches d'ingénierie logicielle avancée, réduisant leur dépendance aux API propriétaires.

💬 Le point de vue du dev

Un modèle open source qui a passé 100 itérations à modifier son propre scaffold et s'est amélioré de 30 % tout seul, c'est le truc qu'on lisait dans les papiers de recherche il y a 18 mois. Là c'est sorti sur Hugging Face, avec les poids, et des benchmarks qui le placent au niveau de Claude Opus 4.6 sur du code à l'échelle d'un dépôt réel. Reste à voir si ça tient hors du contexte lab, mais pour une fois l'architecture MoE n'est pas juste un argument marketing pour réduire les coûts d'inférence : ça donne un modèle qu'on peut faire tourner sans louer un datacenter.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval
1MarkTechPost 

OpenAI lance GPT-5.5, un modèle autonome entièrement réentraîné : 82,7 % sur Terminal-Bench 2.0 et 84,9 % sur GDPval

OpenAI a lancé GPT-5.5, son modèle le plus puissant à ce jour et le premier modèle de base entièrement réentraîné depuis GPT-4.5. Le déploiement a commencé ce jeudi pour les abonnés Plus, Pro, Business et Enterprise, aussi bien sur ChatGPT que sur Codex. Contrairement à ses prédécesseurs, GPT-5.5 est conçu dès le départ pour l'usage agentique : il ne répond pas à une simple invite, il enchaîne des actions autonomes, utilise des outils (navigation web, écriture et exécution de code, manipulation de fichiers), vérifie son propre travail et poursuit jusqu'à la fin d'une tâche sans intervention humaine à chaque étape. Les gains se concentrent sur quatre domaines : le développement logiciel, l'utilisation autonome d'un ordinateur, le travail de connaissance généraliste, et la recherche scientifique précoce. Sur SWE-Bench Pro, qui évalue la résolution de vraies issues GitHub dans quatre langages de programmation, GPT-5.5 résout 58,6 % des tâches en un seul passage. Sur Terminal-Bench 2.0, qui teste des flux de travail complexes en ligne de commande, il atteint 82,7 %, contre 69,4 % pour Claude Opus 4.7 et 68,5 % pour Gemini 3.1 Pro. Sur GDPval, un benchmark couvrant 44 métiers du travail de connaissance, il score 84,9 %. Sur OSWorld-Verified, qui mesure la capacité à opérer un vrai environnement informatique de manière autonome, il atteint 78,7 %. Une version Pro du modèle, dédiée aux tâches les plus exigeantes, score 90,1 % sur BrowseComp, devant Gemini 3.1 Pro à 85,9 %. Ces résultats signalent un changement qualitatif dans ce que les outils d'IA peuvent accomplir sans supervision humaine. Jusqu'ici, les modèles agentiques buttaient sur les points de transition entre les étapes d'une tâche, obligeant l'utilisateur à recadrer ou corriger. GPT-5.5 réduit ces interruptions de manière significative. Pour les ingénieurs logiciels, cela se traduit concrètement par un outil capable de comprendre l'architecture globale d'un projet, de diagnostiquer la cause profonde d'un bug et d'évaluer l'impact d'un correctif sur le reste du code, sans qu'on lui dicte chaque geste. OpenAI indique également que le modèle tient la parité de latence avec GPT-5.4 tout en utilisant moins de tokens pour accomplir les mêmes tâches, ce qui atténue la crainte habituelle que puissance rime avec lenteur et coût. GPT-5.5 s'inscrit dans une course à l'agentique où les trois grands labs américains, OpenAI, Anthropic et Google DeepMind, cherchent à transformer leurs modèles en collaborateurs capables de conduire des projets de plusieurs heures, voire plusieurs jours. Claude Opus 4.7 d'Anthropic devance GPT-5.5 sur SWE-Bench Pro avec 64,3 %, mais OpenAI conteste la comparaison en signalant des signes de mémorisation dans les évaluations d'Anthropic. Le benchmark interne Expert-SWE, qui mesure des tâches dont le temps médian de réalisation humaine est estimé à 20 heures, refactoring massif, construction de fonctionnalité, débogage en profondeur de codebase, positionne GPT-5.5 au-dessus de GPT-5.4. Le modèle est également classé premier sur l'Artificial Analysis Intelligence Index. L'enjeu n'est plus de savoir quel modèle répond le mieux à une question, mais lequel peut conduire un projet de bout en bout.

UELes équipes tech et entreprises européennes peuvent intégrer dès maintenant un modèle agentique capable de conduire des projets complexes sans supervision continue, avec un impact potentiel sur les pratiques de développement logiciel et les métiers du travail de connaissance dans l'UE.

LLMsOpinion
1 source
Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils
2MarkTechPost 

Arcee AI publie Trinity Large Thinking : un modèle de raisonnement open source Apache 2.0 pour les agents autonomes et l'utilisation d'outils

Arcee AI a publié Trinity Large Thinking, un modèle de raisonnement en open-weight distribué sous licence Apache 2.0. Architecturalement, il s'agit d'un modèle Mixture-of-Experts (MoE) sparse totalisant 400 milliards de paramètres, mais qui n'en active que 13 milliards par token grâce à une stratégie de routage 4-sur-256. Cette conception permet d'atteindre la densité de connaissance d'un modèle massif tout en conservant des latences comparables à des architectures bien plus légères. Le modèle a été pré-entraîné sur 17 000 milliards de tokens avec l'optimiseur Muon, plus efficace que l'AdamW standard, et intègre un mécanisme d'attention hybride local/global avec attention gating pour mieux gérer les longs contextes. Il supporte une fenêtre de contexte de 262 144 tokens sur OpenRouter. Sur le benchmark PinchBench, dédié aux agents autonomes, Trinity Large Thinking occupe actuellement la deuxième place, derrière Claude Opus 4.6. Ce lancement est significatif pour les développeurs qui construisent des agents IA autonomes : Trinity Large Thinking est conçu spécifiquement pour les tâches longues et complexes, les appels d'outils multi-tours et le suivi d'instructions précises sur des workflows étendus. Contrairement aux modèles de chat généralistes, il intègre une phase de "réflexion" interne avant chaque réponse, ce qui lui permet de planifier des tâches en plusieurs étapes et de vérifier sa logique avant de générer une sortie. Cette combinaison de raisonnement structuré, de fiabilité multi-tours et de fenêtre de contexte étendue répond directement aux exigences des environnements d'automatisation logicielle, où les erreurs cumulatives sur de longues séquences d'actions sont le principal point de défaillance. L'émergence de ce modèle s'inscrit dans une tendance de fond : le déplacement du centre de gravité de l'IA générative vers des systèmes capables de raisonnement multi-étapes, jusqu'ici dominé par des acteurs propriétaires comme OpenAI avec o3 ou Anthropic avec Claude. Arcee AI, spécialisé dans les LLM d'entreprise et les modèles compacts à haute performance, propose ici une alternative ouverte et auditables pour les organisations qui ne peuvent ou ne souhaitent pas dépendre d'API fermées. Deux innovations techniques internes méritent attention : SMEBU (Soft-clamped Momentum Expert Bias Updates), une stratégie d'équilibrage de charge qui prévient l'effondrement des experts dans les architectures MoE, et l'utilisation du Muon optimizer pour améliorer l'efficacité d'entraînement. La suite logique sera de voir si la communauté open-source s'empare du modèle pour des déploiements auto-hébergés, et si Arcee maintient ce niveau de performance dans des évaluations tierces indépendantes au-delà de PinchBench.

UELa licence Apache 2.0 permet aux organisations européennes de déployer un modèle de raisonnement compétitif en auto-hébergement, réduisant leur dépendance aux API fermées américaines et s'alignant sur les objectifs de souveraineté numérique européenne.

LLMsOpinion
1 source
Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel
3MarkTechPost 

Tencent AI publie Covo-Audio en open source : un modèle de langage vocal 7B pour la conversation audio en temps réel

Tencent AI Lab a publié Covo-Audio, un modèle de langage audio de 7 milliards de paramètres conçu pour traiter directement des entrées audio continues et générer des sorties vocales au sein d'une seule architecture unifiée. Le système repose sur quatre composants principaux : un encodeur audio basé sur Whisper-large-v3, un adaptateur qui réduit le débit de 50 Hz à 6,25 Hz, un backbone LLM fondé sur Qwen2.5-7B-Base, et un décodeur capable de reconstruire des formes d'onde haute-fidélité à 24 000 Hz. Une innovation centrale, baptisée « Hierarchical Tri-modal Speech-Text Interleaving », aligne simultanément les caractéristiques acoustiques continues, les tokens vocaux discrets et le texte en langage naturel, permettant une cohérence sémantique aussi bien au niveau des phrases que des utterances longues. L'entraînement a impliqué un pipeline en deux étapes traitant au total 2 000 milliards de tokens. Le modèle intègre également une stratégie de découplage intelligence-voix qui sépare le raisonnement dialogique du rendu vocal, minimisant ainsi le besoin de données d'entraînement spécifiques à chaque locuteur. Une variante temps-réel, Covo-Audio-Chat-FD, permet une communication en duplex intégral avec des chunks audio de 0,16 seconde et des tokens spéciaux pour gérer les interruptions et les transitions de parole. Covo-Audio représente une avancée significative vers des assistants vocaux capables de raisonner en temps réel sans passer par des pipelines séparés de reconnaissance vocale et de génération de texte. La capacité duplex intégral — où le modèle peut écouter et parler simultanément, détecter les interruptions et reprendre l'écoute instantanément — rapproche considérablement les systèmes IA d'une conversation naturelle fluide. La technique de découplage intelligence-voix est particulièrement notable sur le plan commercial : elle permet de personnaliser la voix d'un assistant avec très peu de données TTS, sans sacrifier les capacités de raisonnement, ce qui réduit drastiquement les coûts de déploiement de voix personnalisées. L'intégration du raisonnement en chaîne de pensée (Chain-of-Thought) directement dans le flux audio ouvre également la voie à des assistants vocaux capables de traiter des requêtes complexes en direct, là où les systèmes actuels se limitent souvent à des réponses factuelles simples. Ce lancement s'inscrit dans une course industrielle intense autour des modèles audio de bout en bout, avec des acteurs comme OpenAI (GPT-4o), Google (Gemini Live) et Meta qui investissent massivement dans la suppression des latences introduites par les architectures en pipeline classiques. La mise en open source de Covo-Audio par Tencent positionne le laboratoire comme un contributeur majeur à cet espace, tout en offrant à la communauté de recherche une base solide pour explorer les interactions vocales intelligentes multimodales.

UELa mise en open source de Covo-Audio offre aux développeurs et chercheurs européens un accès direct à un modèle vocal avancé sans dépendance à des API propriétaires, réduisant les coûts de déploiement d'assistants vocaux personnalisés.

LLMsOpinion
1 source
MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents
4VentureBeat AI 

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Xiaomi a mis en ligne le 27 avril 2026 deux nouveaux modèles de langage open source, MiMo-V2.5 et MiMo-V2.5-Pro, publiés sous licence MIT et téléchargeables directement depuis Hugging Face. Le premier est un modèle multimodal généraliste, tandis que le second est conçu spécifiquement pour les tâches agentiques complexes. Selon les benchmarks internes de Xiaomi, MiMo-V2.5-Pro atteint un taux de réussite de 63,8 % sur le ClawEval, l'évaluation standard pour les agents autonomes de type "claw" comme OpenClaw, NanoClaw ou Hermes Agent, tout en ne consommant qu'environ 70 000 tokens par trajectoire. Ce chiffre représente 40 à 60 % de tokens en moins par rapport à Claude Opus 4.6 d'Anthropic, Gemini 3.1 Pro de Google et GPT-5.4 d'OpenAI pour des résultats comparables. L'architecture repose sur 310 milliards de paramètres et intègre une fenêtre de contexte native d'un million de tokens, avec un score de 1 581 sur le benchmark GDPVal-AA (Elo), devançant des concurrents comme Kimi K2.6 et GLM 5.1. L'efficacité en tokens n'est pas qu'une métrique abstraite : dans un secteur où des services comme GitHub Copilot de Microsoft basculent vers une facturation à l'usage, chaque token économisé se traduit directement en dollars pour les entreprises et les développeurs indépendants qui déploient des agents en production. MiMo-V2.5-Pro peut piloter des systèmes agentiques capables de créer du contenu marketing, gérer des emails, organiser des agendas ou gérer des comptes en autonomie, le tout via des applications de messagerie tierces. Que le modèle soit exécuté localement ou sur un cloud privé virtuel, la licence MIT permet une intégration commerciale sans restriction, ce qui le place directement en concurrence avec les modèles propriétaires de Google et OpenAI sur le segment entreprise. Pour étayer ses affirmations, Xiaomi a publié plusieurs démonstrations en conditions réelles : MiMo-V2.5-Pro a implémenté un compilateur complet en Rust, incluant lexer, parser et backend RISC-V, en 4,3 heures via 672 appels d'outils, obtenant un score parfait de 233 sur 233 sur des suites de tests cachés, une tâche qui prend habituellement plusieurs semaines à un étudiant en informatique. Il a également produit un éditeur vidéo de bureau de 8 192 lignes en 11,5 heures et 1 868 appels d'outils, puis optimisé un régulateur analogique en technologie TSMC 180 nm, améliorant la régulation de ligne d'un facteur 22 par rapport à sa tentative initiale. Ces résultats illustrent ce que Xiaomi appelle la "harness awareness" du modèle, sa capacité à gérer activement sa propre mémoire pour maintenir la cohérence sur des milliers d'appels séquentiels. Cette publication s'inscrit dans la stratégie agressive de Xiaomi pour s'imposer dans l'IA, un secteur où la firme, surtout connue pour ses smartphones et véhicules électriques, entend désormais rivaliser directement avec les grands laboratoires américains.

UELa licence MIT et la disponibilité sur HuggingFace permettent aux entreprises et développeurs européens d'intégrer ces modèles en production sans restriction, réduisant potentiellement les coûts liés à la facturation à l'usage des services d'agents IA.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour