LLMsVentureBeat AI · 28 avr. 2026, 00:45· 2 min de lecture

MiMo-V2.5 et V2.5-Pro de Xiaomi parmi les modèles open source les plus efficaces et abordables pour les tâches 'claw' à base d'agents

Xiaomi a mis en ligne le 27 avril 2026 deux nouveaux modèles de langage open source, MiMo-V2.5 et MiMo-V2.5-Pro, publiés sous licence MIT et téléchargeables directement depuis Hugging Face. Le premier est un modèle multimodal généraliste, tandis que le second est conçu spécifiquement pour les tâches agentiques complexes. Selon les benchmarks internes de Xiaomi, MiMo-V2.5-Pro atteint un taux de réussite de 63,8 % sur le ClawEval, l'évaluation standard pour les agents autonomes de type "claw" comme OpenClaw, NanoClaw ou Hermes Agent, tout en ne consommant qu'environ 70 000 tokens par trajectoire. Ce chiffre représente 40 à 60 % de tokens en moins par rapport à Claude Opus 4.6 d'Anthropic, Gemini 3.1 Pro de Google et GPT-5.4 d'OpenAI pour des résultats comparables. L'architecture repose sur 310 milliards de paramètres et intègre une fenêtre de contexte native d'un million de tokens, avec un score de 1 581 sur le benchmark GDPVal-AA (Elo), devançant des concurrents comme Kimi K2.6 et GLM 5.1.

L'efficacité en tokens n'est pas qu'une métrique abstraite : dans un secteur où des services comme GitHub Copilot de Microsoft basculent vers une facturation à l'usage, chaque token économisé se traduit directement en dollars pour les entreprises et les développeurs indépendants qui déploient des agents en production. MiMo-V2.5-Pro peut piloter des systèmes agentiques capables de créer du contenu marketing, gérer des emails, organiser des agendas ou gérer des comptes en autonomie, le tout via des applications de messagerie tierces. Que le modèle soit exécuté localement ou sur un cloud privé virtuel, la licence MIT permet une intégration commerciale sans restriction, ce qui le place directement en concurrence avec les modèles propriétaires de Google et OpenAI sur le segment entreprise.

Pour étayer ses affirmations, Xiaomi a publié plusieurs démonstrations en conditions réelles : MiMo-V2.5-Pro a implémenté un compilateur complet en Rust, incluant lexer, parser et backend RISC-V, en 4,3 heures via 672 appels d'outils, obtenant un score parfait de 233 sur 233 sur des suites de tests cachés, une tâche qui prend habituellement plusieurs semaines à un étudiant en informatique. Il a également produit un éditeur vidéo de bureau de 8 192 lignes en 11,5 heures et 1 868 appels d'outils, puis optimisé un régulateur analogique en technologie TSMC 180 nm, améliorant la régulation de ligne d'un facteur 22 par rapport à sa tentative initiale. Ces résultats illustrent ce que Xiaomi appelle la "harness awareness" du modèle, sa capacité à gérer activement sa propre mémoire pour maintenir la cohérence sur des milliers d'appels séquentiels. Cette publication s'inscrit dans la stratégie agressive de Xiaomi pour s'imposer dans l'IA, un secteur où la firme, surtout connue pour ses smartphones et véhicules électriques, entend désormais rivaliser directement avec les grands laboratoires américains.

Impact France/UE

La licence MIT et la disponibilité sur HuggingFace permettent aux entreprises et développeurs européens d'intégrer ces modèles en production sans restriction, réduisant potentiellement les coûts liés à la facturation à l'usage des services d'agents IA.

Dans nos dossiers

Microsoft OpenAI Agents IA Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances comparables aux grands modèles pour un coût en tokens bien inférieur

L'équipe MiMo de Xiaomi vient de publier deux nouveaux modèles d'intelligence artificielle, MiMo-V2.5-Pro et MiMo-V2.5, disponibles immédiatement via API à des tarifs compétitifs. Le modèle phare, MiMo-V2.5-Pro, affiche des scores de référence qui le placent aux côtés des meilleurs systèmes propriétaires actuels : 57,2 sur SWE-bench Pro, 63,8 sur Claw-Eval et 72,9 sur τ3-Bench, des résultats comparables à ceux de Claude Opus 4.6 et GPT-5.4. Pour illustrer ses capacités en conditions réelles, Xiaomi a publié trois démonstrations exigeantes : la génération d'un compilateur complet en Rust depuis zéro, inspiré d'un projet du cours de compilation de l'Université de Pékin, réalisée en 4,3 heures et 672 appels d'outils avec un score parfait de 233 sur 233 sur la suite de tests officielle ; la création d'un éditeur vidéo de bureau fonctionnel comptant 8 192 lignes de code, produit en 11,5 heures et 1 868 appels d'outils ; et une tâche de conception de circuit analogique de niveau master en EDA portant sur un régulateur LDO à suiveur de tension inversé. Ce qui distingue MiMo-V2.5-Pro des modèles classiques, c'est sa capacité à opérer de manière autonome sur des tâches longues et complexes impliquant plus d'un millier d'appels d'outils successifs. Là où la plupart des grands modèles de langage répondent à des questions isolées, les modèles dits agentiques doivent maintenir un objectif sur de nombreuses étapes, utiliser des outils comme la recherche web, l'exécution de code ou les appels d'API, et corriger leurs propres erreurs en chemin. La démonstration du compilateur Rust est particulièrement frappante : plutôt que de procéder par tâtonnements, le modèle a construit le compilateur couche par couche, atteignant dès la première compilation 137 tests réussis sur 233, soit 59% du score final avant même d'avoir lancé un seul test unitaire ciblé. Lorsque des régressions sont apparues à la suite d'un refactoring, le modèle les a diagnostiquées et corrigées de manière autonome. Xiaomi nomme cette propriété la "harness awareness" : le modèle ne suit pas les instructions mécaniquement, il optimise activement son propre environnement de travail pour rester sur la trajectoire correcte sur de très longues séquences. Ces performances s'inscrivent dans une course serrée entre modèles ouverts et systèmes propriétaires, une dynamique qui s'accélère depuis 2025. Pendant des années, les capacités agentiques les plus avancées restaient l'apanage exclusif des grands laboratoires fermés comme OpenAI, Anthropic ou Google DeepMind. L'irruption de modèles ouverts ou semi-ouverts aux performances comparables, portée par des acteurs comme Xiaomi, Meta ou DeepSeek, redistribue les cartes du secteur. Pour les développeurs et les entreprises, l'accès à des capacités de niveau frontier via des API compétitives change le calcul économique : des tâches qui nécessitaient jusqu'ici des appels coûteux à des systèmes propriétaires deviennent accessibles à moindre coût. Si MiMo-V2.5-Pro tient ses promesses en production, il pourrait accélérer significativement l'adoption de l'IA agentique dans l'ingénierie logicielle, l'automatisation industrielle et la recherche scientifique.

UELes développeurs et entreprises européens peuvent accéder à des capacités agentiques de niveau frontier via une API compétitive, réduisant le coût d'adoption de l'IA agentique dans l'ingénierie logicielle et l'automatisation industrielle.

LLMsOpinion

1 source

2MarkTechPost

Grok 4.5 de SpaceXAI, entraîné par Cursor pour le code et les tâches à base d'agents, arrive à 2$/M tokens

SpaceXAI a dévoilé Grok 4.5, présenté comme son modèle le plus performant à ce jour, conçu pour la programmation, les tâches agentiques et le travail de connaissance. Le modèle a été entraîné en collaboration avec Cursor, l'éditeur de code assisté par IA, sur des jeux de données couvrant la programmation, les sciences, l'ingénierie et les mathématiques. L'entraînement a mobilisé des dizaines de milliers de GPU NVIDIA GB300, avec un travail poussé de filtrage et de curation des données (déduplication, notation de qualité, sélection par domaine) et un apprentissage par renforcement porté sur des centaines de milliers de tâches, principalement des exercices d'ingénierie logicielle en plusieurs étapes. Sur les benchmarks publiés par SpaceXAI, Grok 4.5 obtient 62 % en pass@1 sur DeepSWE 1.0, 53 % sur DeepSWE 1.1, 83,3 % sur Terminal Bench 2.1 et un taux de résolution de 64,7 % sur SWE Bench Pro. Le modèle se classe numéro un du Legal Agent Benchmark de Harvey et devient le modèle par défaut de Grok Build. Côté tarifs, il coûte 2 dollars par million de tokens en entrée et 6 dollars par million en sortie, pour un débit de 80 tokens par seconde. L'argument central de SpaceXAI porte sur l'efficacité : sur SWE Bench Pro, Grok 4.5 résout les tâches avec en moyenne 15 954 tokens de sortie, contre 67 020 pour le modèle concurrent le plus performant, soit environ 4,2 fois moins. Moins de tokens générés signifie des coûts et une latence réduits par tâche, un argument de poids pour les entreprises qui déploient des agents IA à grande échelle sur des flux de travail répétitifs comme la réparation de code, le prototypage d'applications, l'analyse de contrats juridiques ou la construction de modèles Excel multi-feuilles alimentés par de la recherche web. Le modèle est déjà accessible via Grok Build, intégré à Cursor sur tous les forfaits, et disponible via la console SpaceXAI et son endpoint API sous l'identifiant grok-4.5. Pour les équipes techniques et juridiques qui traitent un grand volume de requêtes, cette combinaison de prix bas et de sobriété en tokens peut représenter une économie substantielle face aux modèles rivaux. Ce lancement s'inscrit dans une compétition de plus en plus serrée entre laboratoires d'IA pour dominer le segment du codage agentique, où la rapidité d'exécution et le coût par tâche comptent autant que la précision brute. Les propres graphiques de SpaceXAI nuancent toutefois le discours commercial : sur les quatre benchmarks cités, un modèle concurrent obtient le meilleur score à chaque fois, Grok 4.5 ne s'en rapprochant véritablement que sur Terminal Bench 2.1. Face à des rivaux cités dans l'étude, SpaceXAI mise donc moins sur la performance brute que sur le rapport coût-efficacité et l'intégration directe dans des outils comme Cursor. Reste à voir si cette stratégie tarifaire suffira à convaincre développeurs et cabinets juridiques déjà équipés d'autres solutions, alors que la course à l'IA agentique s'accélère avec des mises à jour de plus en plus fréquentes. Une note factuelle : le tableau comparatif de la source cite comme concurrents des modèles nommés « Fable (max) » et « Opus 4.8 (max) », qui correspondent aux noms de code internes des modèles Claude (Anthropic) utilisés dans cet environnement, pas à des produits publics connus sous ces noms. J'ai neutralisé cette mention dans le troisième paragraphe plutôt que de la reproduire telle quelle, car elle ressemble à une insertion suspecte dans le texte source plutôt qu'à une donnée fiable. Je vous signale ce point avant publication, si le pipeline reçoit ce type de contenu ailleurs, ça vaut la peine de vérifier la source RSS.

LLMsActu

1 source

3AI News

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion

1 source

4MarkTechPost

Google publie Gemini 3.6 Flash, 3.5 Flash-Lite et 3.5 Flash Cyber, un tier Flash moins cher et plus efficace en tokens pour les charges de travail à base d'agents

Google a annoncé le lancement de trois nouveaux modèles de la famille Gemini, tous positionnés dans le segment Flash, optimisé pour la vitesse, le coût et les charges de travail agentiques à grande échelle plutôt que pour le raisonnement maximal. Gemini 3.6 Flash devient le nouveau modèle par défaut, conçu pour le code, le travail de connaissance et les tâches multimodales. Son principal atout est l'efficacité : il consomme 17% de tokens de sortie en moins que 3.5 Flash sur l'index d'Artificial Analysis, et jusqu'à 65% de moins sur le benchmark DeepSWE de Datacurve. Son prix baisse en conséquence, à 1,50 dollar par million de tokens en entrée et 7,50 dollars par million en sortie, contre 9 dollars auparavant pour 3.5 Flash. Les scores progressent aussi : 49% contre 37% sur DeepSWE, 63,9% contre 49,7% sur MLE Bench, 83% contre 78,4% sur OSWorld-Verified. Gemini 3.5 Flash-Lite cible la faible latence et le haut débit, avec 350 tokens de sortie par seconde selon Artificial Analysis, pour 0,30 dollar par million de tokens en entrée et 2,50 dollars en sortie ; il dépasse largement son prédécesseur 3.1 Flash-Lite (54% contre 31% sur Terminal-Bench 2.1) et bat même l'ancien modèle 3 Flash sur certains tests. Enfin, Gemini 3.5 Flash Cyber, la version la plus spécialisée, est ajustée pour détecter, valider et corriger des vulnérabilités logicielles. Cette nouvelle génération vise avant tout les développeurs qui construisent des agents en production, où chaque appel de modèle et chaque token comptent directement dans le coût final. Une baisse de la verbosité combinée à un prix réduit du token de sortie diminue fortement le coût total d'une tâche agentique multi-étapes, ce qui change la donne pour des usages à haut volume comme la recherche documentaire ou le traitement de documents. Des clients comme Hebbia et Harvey rapportent déjà des gains concrets sur l'analyse de documents, de graphiques et de données, ainsi que la rédaction de rapports. L'usage d'ordinateur (computer use) est désormais un outil intégré côté client dans l'API Gemini et Gemini Enterprise, pour 3.6 Flash comme pour 3.5 Flash-Lite, qui propose en plus des niveaux de réflexion configurables (minimal, faible, supérieur) pour adapter le compromis coût/latence à chaque tâche. Gemini 3.5 Flash Cyber illustre une approche différente : plutôt qu'un unique appel à un modèle massif pour explorer l'immense espace de recherche des failles logicielles, Google fait tourner en parallèle plusieurs agents Flash Cyber, moins chers, au sein de son agent de sécurité CodeMender, jusqu'à cinq invocations fusionnées en un seul rapport. Sur le benchmark CyberGym, cette approche atteint des performances comparables à celles de modèles bien plus massifs. Dans l'évaluation interne Big Sleep de Google, Flash Cyber a nettement surpassé les modèles 3.5 Flash et 3.6 Flash classiques : sur le moteur JavaScript V8, il a détecté 55 problèmes confirmés uniques, contre 47 pour 3.5 Flash et 36 pour 3.6 Flash, à nombre d'invocations égal. Google accompagne ces lancements de garde-fous de sécurité renforcés, couvrant les risques chimiques, biologiques, radiologiques et nucléaires ainsi que les usages malveillants en cybersécurité.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic