Aller au contenu principal
MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros
LLMsLe Big Data3h

MiniCPM5-1B : cette minuscule IA de 0,5 Go enterre déjà des modèles bien plus gros

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

MiniCPM5-1B, développé par OpenBMB en collaboration avec des chercheurs de l'université Tsinghua, vient de décrocher la première place de l'Artificial Analysis Intelligence Index dans la catégorie des modèles open source sous les 2 milliards de paramètres, avec un score de 17,9 points. Ce résultat lui permet de devancer des concurrents pourtant plus imposants comme Qwen3.5-2B, qui plafonne à 16,3 points, malgré deux fois moins de paramètres. L'annonce a été faite le 25 mai 2026 via le compte ModelScope. Quantifié en INT4, le modèle ne pèse qu'environ 0,5 Go, ce qui lui permet de fonctionner localement sur des smartphones, dans des navigateurs web ou sur des appareils edge. Il propose une fenêtre de contexte de 128 000 tokens, deux modes de réponse (raisonnement détaillé étape par étape ou réponses rapides), et affiche de solides performances en mathématiques, génération de code et utilisation d'outils externes. Le projet est entièrement open source : poids, données d'entraînement et code de déploiement sont accessibles publiquement. OpenBMB précise également que MiniCPM5-1B a été entraîné via ForgeTrain, un framework de préentraînement développé sans programmeur humain.

L'impact concret de ce type de modèle est considérable pour les usages du quotidien. Un modèle capable de fonctionner hors connexion sur un téléphone ordinaire ou un ordinateur portable bas de gamme transforme radicalement l'accès à l'IA : plus besoin d'envoyer des données vers des serveurs distants, plus de latence réseau, plus de dépendance à un abonnement cloud. Des utilisateurs rapportent déjà avoir dialogué avec le modèle pendant près d'une heure sans connexion Wi-Fi. Pour les entreprises, les développeurs indépendants ou les pays disposant d'infrastructures réseau limitées, cette autonomie représente un changement structurel. La capacité à gérer de longs documents ou conversations sans perdre le contexte, malgré un format aussi compact, élargit encore le champ d'application possible.

La progression des petits modèles efficaces s'inscrit dans une tendance de fond qui remet en question la course aux paramètres qui a dominé l'industrie depuis 2020. Des laboratoires comme Google DeepMind avec Gemma, ou Meta avec les versions légères de LLaMA, explorent également cette voie, mais MiniCPM5-1B illustre que des équipes académiques chinoises peuvent désormais rivaliser directement avec les géants technologiques occidentaux sur ce terrain. Le fait qu'OpenBMB ait rendu l'ensemble du processus open source accentue la pression sur les acteurs commerciaux, qui ne peuvent plus se contenter de la taille pour justifier leurs coûts. La prochaine étape sera de vérifier si ces performances sur benchmarks se traduisent par une adoption réelle dans des applications grand public, ce qui constitue historiquement le vrai test de viabilité pour tout modèle, quel que soit son format.

Impact France/UE

Ce modèle open source deployable hors connexion pourrait intéresser des développeurs et PME européennes soucieux de souveraineté des données, mais aucun impact réglementaire ou institutionnel direct pour la France ou l'UE n'est identifié.

💬 Le point de vue du dev

0,5 Go pour battre Qwen deux fois plus gros, c'est le genre de chiffre qui devrait clore les débats sur la course aux paramètres. Ce qui m'intéresse c'est pas le score, c'est l'offline : dialoguer une heure depuis ton téléphone sans Wi-Fi et sans envoyer tes données nulle part, c'est un usage réel pour des millions de gens. Tout est open source, poids, données, code, donc la communauté va vite trancher si ça tient à l'usage ou non.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code
1MarkTechPost 

Google présente Gemini 3.5 Flash à I/O 2026 : un modèle plus rapide et moins cher pour les agents IA et le code

Google a dévoilé Gemini 3.5 Flash lors de sa conférence Google I/O en mai 2026, marquant le lancement de la première génération de modèles Gemini 3.5. Malgré son positionnement dans le tier "Flash", historiquement réservé aux modèles rapides et économiques, ce nouveau modèle surpasse Gemini 3.1 Pro sur les benchmarks exigeants. Il affiche 76,2 % sur Terminal-Bench 2.1 (performance en codage), 1 656 Elo sur GDPval-AA (tâches agentiques réelles), 83,6 % sur MCP Atlas (fiabilité dans l'utilisation d'outils) et 84,2 % sur CharXiv Reasoning (compréhension multimodale). Côté prix, Google propose 1,50 dollar par million de tokens en entrée, 9 dollars en sortie, et seulement 0,15 dollar pour les tokens mis en cache. Le modèle est quatre fois plus rapide sur les tokens de sortie que son prédécesseur, avec une fenêtre de contexte d'un million de tokens et une date de coupure de connaissance fixée à janvier 2026. Ce lancement est structurellement important parce qu'il efface la frontière entre vitesse et puissance : un modèle "Flash" bon marché dépasse désormais le modèle premium précédent. Pour les développeurs et les entreprises qui construisent des agents IA, cela réduit drastiquement le coût des workflows complexes. Google a simultanément lancé une API "Managed Agents" qui permet de déployer un agent complet en un seul appel API : l'agent raisonne, appelle des outils, exécute du code dans un conteneur Linux isolé, et maintient son état entre les appels successifs. Des partenaires comme Shopify utilisent déjà des sous-agents en parallèle pour améliorer les prévisions de croissance de leurs marchands, Macquarie Bank le teste pour analyser des documents de plus de 100 pages lors de l'embarquement client, Salesforce l'intègre dans Agentforce pour automatiser des tâches d'entreprise, et Databricks l'utilise pour la surveillance de données en temps réel avec diagnostic automatique. Ce modèle s'inscrit dans la stratégie "agent-first" de Google, matérialisée par la plateforme Antigravity. Antigravity 2.0 est une application desktop autonome capable d'orchestrer plusieurs agents en parallèle, avec des tâches planifiées et des intégrations couvrant Google AI Studio, Android et Firebase. Un CLI permet aux développeurs de créer des agents sans interface graphique, et un SDK ouvre un accès programmatique complet. La compétition sur le segment des modèles efficaces et agentiques s'intensifie : OpenAI, Anthropic et d'autres acteurs proposent des offres similaires, mais Google frappe fort en combinant performance de frontier, prix agressif et infrastructure d'exécution clé en main. Les prochains mois diront si Gemini 3.5 Flash s'impose comme la référence de facto pour les workflows agentiques en production.

UELes développeurs et entreprises européens peuvent adopter dès maintenant Gemini 3.5 Flash pour leurs workflows agentiques à des tarifs très agressifs, abaissant significativement le coût de construction d'agents IA en production en France et dans l'UE.

💬 Un modèle Flash qui surpasse le Pro précédent sur les benchmarks, ça change toute l'équation. Tu n'as plus à choisir entre vitesse et qualité, tu prends les deux pour 1,50 dollar le million de tokens en entrée. L'API Managed Agents m'intéresse autant que les perfs : déployer un agent complet en un seul appel, c'est exactement le plumbing que tout le monde réécrivait à la main depuis deux ans.

LLMsOpinion
1 source
Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)
2Next INpact 

Gemma 4 : Google lance une famille de quatre modèles IA en open source (Apache 2.0)

Google a lancé Gemma 4, sa nouvelle famille de modèles d'intelligence artificielle en open source, quelques jours avant le week-end de Pâques 2026. La gamme comprend quatre variantes baptisées E2B, E4B, 26B A4B et 31B, offrant respectivement 2,3, 4,5, 25,2 et 30,7 milliards de paramètres. Le modèle 26B A4B adopte une architecture Mixture of Experts (MoE), ce qui signifie que seuls 3,8 milliards de paramètres sont effectivement activés lors de chaque inférence, réduisant considérablement la puissance de calcul nécessaire. Tous les modèles sont multimodaux : ils traitent du texte et des images, les deux plus petits ajoutant la reconnaissance vocale. Les fenêtres de contexte atteignent 128 000 tokens pour les modèles E2B et E4B, et 256 000 tokens pour les deux plus grands. L'ensemble de la famille intègre un mode de raisonnement pas-à-pas, une prise en charge native des outils pour les workflows d'agents, ainsi que des capacités de génération et correction de code. La licence retenue est Apache 2.0, considérée comme l'une des plus permissives : elle autorise la modification, la distribution et l'usage commercial sans contrainte majeure, à condition de conserver les mentions de copyright. Ce changement de licence est la décision la plus significative de cette annonce. Jusqu'ici, Google publiait ses modèles Gemma sous une licence maison, les "Gemma Terms of Use", qui lui permettait de restreindre l'utilisation à sa discrétion. En passant à Apache 2.0, Google offre aux développeurs, entreprises et chercheurs une garantie juridique bien plus solide pour intégrer ces modèles dans des produits commerciaux ou des recherches sensibles. La diversité des tailles proposées, notamment les variantes à 2,3 et 4,5 milliards de paramètres, permet de faire tourner Gemma 4 directement sur des ordinateurs personnels ou des smartphones, sans envoyer de données vers des serveurs tiers. Pour les entreprises soucieuses de confidentialité ou les développeurs indépendants aux ressources limitées, c'est un argument concret et immédiat. Avec cette décision, Google rejoint un camp qui compte déjà Mistral avec son modèle 7B publié en septembre 2023, OpenAI avec gpt-oss-120b et Alibaba avec sa famille Qwen, tous distribués sous Apache 2.0. Meta reste en retrait avec ses modèles LLaMA, soumis à une licence plus restrictive. Le contexte concurrentiel est intense : le marché des modèles ouverts s'est considérablement animé ces dix-huit derniers mois, et Google cherche à s'y positionner comme un acteur sérieux face à des alternatives bien établies. L'annonce intervient également au moment où Anthropic durcit ses conditions d'accès pour les applications tierces sur ses modèles payants, un contraste saisissant qui renforce l'attrait de l'approche ouverte de Google. Les suites dépendront de l'adoption par la communauté et des benchmarks indépendants, mais la combinaison licence permissive et gamme de tailles variées donne à Gemma 4 de sérieux atouts pour s'imposer dans l'écosystème open source.

UELa licence Apache 2.0 et les variantes légères (2-4 milliards de paramètres) permettent aux entreprises et développeurs européens d'intégrer Gemma 4 dans des produits commerciaux ou de le déployer en local, un atout concret pour la conformité RGPD.

💬 La vraie nouvelle, c'est pas les 31 milliards de paramètres, c'est Apache 2.0. Google arrête de jouer avec ses licences maison qui laissaient planer un doute juridique permanent sur l'usage commercial, et ça change tout pour les boîtes qui hésitaient à s'engager. Le petit E2B à 2,3 milliards avec 128k de contexte qui tourne en local, bon, sur le papier c'est exactement ce qu'on attendait pour des usages RGPD-friendly. Reste à voir ce que les benchmarks indépendants vont donner, parce que Google sait aussi soigner ses annonces de Pâques.

LLMsOpinion
1 source
Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour
3The Decoder 

Gemini 3.1 Flash Live est le modèle vocal IA le plus naturel de Google à ce jour

Google a dévoilé Gemini 3.1 Flash Live, son nouveau modèle vocal conçu pour des conversations en temps réel plus naturelles et plus fluides. Annoncé en mars 2026, ce modèle s'inscrit dans la gamme Flash, orientée vers la rapidité et l'efficacité. Les développeurs disposent d'un curseur permettant d'arbitrer entre qualité vocale et vitesse de réponse selon les besoins de leur application. La tarification reste alignée sur celle de Gemini 2.5, sans surcoût pour cette nouvelle génération. Ce lancement représente une avancée notable dans la course à la voix conversationnelle naturelle. Pour les développeurs d'assistants vocaux, d'applications de service client ou d'interfaces mains libres, disposer d'un modèle à la fois rapide et naturel à coût constant constitue un argument concret. La fluidité perçue de l'IA vocale est aujourd'hui un facteur décisif dans l'adoption par le grand public. Google intensifie ainsi la compétition face à OpenAI et ses modèles vocaux en temps réel, intégrés à ChatGPT, ainsi qu'à d'autres acteurs comme ElevenLabs. La stratégie Flash — modèles légers, rapides, peu coûteux — s'impose comme une approche clé pour démocratiser l'IA dans des usages à fort volume. Les prochaines versions pourraient continuer à affiner ce compromis vitesse/qualité, un équilibre qui deviendra central dans les interfaces conversationnelles de demain.

LLMsActu
1 source
Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an
4VentureBeat AI 

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour