Aller au contenu principal
Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks
LLMsVentureBeat AI6j· 2 min de lecture

Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks

Source originale ↗·

Dimanche dernier, neuf chercheurs de Sina Weibo, le géant chinois des réseaux sociaux surtout connu pour sa plateforme de microblogging, ont publié sur arXiv un rapport technique de 14 pages qui a immédiatement agité la communauté de recherche en intelligence artificielle. Leur modèle de langage, baptisé VibeThinker-3B, ne compte que 3 milliards de paramètres, mais affiche des performances en raisonnement mathématique qui rivalisent avec des systèmes cent fois plus grands. Sur l'AIME 2026, l'un des examens de mathématiques les plus exigeants au monde, VibeThinker-3B obtient 94,3 points, soit autant que DeepSeek V3.2, un modèle de 671 milliards de paramètres, et davantage que Gemini 3 Pro de Google, qui plafonne à 91,7. Avec une technique propriétaire appelée Claim-Level Reliability Assessment, le score grimpe à 97,1, devançant pratiquement tous les systèmes publiquement documentés. Le modèle obtient aussi 91,4 sur l'AIME 2025, 89,3 sur le Harvard-MIT Mathematics Tournament 2025, 80,2 sur LiveCodeBench v6 en génération de code, et un taux d'acceptation de 96,1 % sur les concours hebdomadaires LeetCode entre fin avril et fin mai 2026. En quelques heures, le dépôt GitHub cumulait 685 étoiles et la fiche Hugging Face 130 likes.

Ces chiffres remettent en question une hypothèse structurante de l'industrie de l'IA : celle selon laquelle les capacités de raisonnement avancé exigent des modèles toujours plus massifs et des investissements toujours plus lourds. Si un modèle de 3 milliards de paramètres, capable de tourner sur un ordinateur portable grand public, peut égaler des systèmes comme GLM-5 de Zhipu AI (744 milliards de paramètres) ou Kimi K2.5 de Moonshot AI (plus de 1 000 milliards), c'est la logique même des milliards investis dans la course à la puissance brute qui vacille. Pour les entreprises, les utilisateurs et les décideurs qui fondent leurs choix d'infrastructure sur la hiérarchie des benchmarks, la question n'est pas anodine.

Les chercheurs de Weibo théorisent ce résultat à travers ce qu'ils appellent la "Parametric Compression-Coverage Hypothesis" : le raisonnement vérifiable, comme les maths ou le code, où les réponses peuvent être contrôlées objectivement, serait une capacité compressible dans un modèle compact, alors que la connaissance encyclopédique exigerait de nombreux paramètres pour couvrir l'étendue des faits et des cas limites. Cette distinction est corroborée par le score du modèle sur GPQA-Diamond, un benchmark de connaissances scientifiques au niveau master : VibeThinker-3B n'atteint que 70,2, loin derrière les meilleurs modèles. La réaction sur X, résumée par un post ayant dépassé 161 000 vues ("Je ne sais vraiment pas si c'est une percée ou si les benchmarks sont cassés"), illustre le doute croissant sur la valeur réelle de ces classements, devenus l'enjeu central d'un secteur qui peine à distinguer le progrès scientifique de l'optimisation de tests.

Impact France/UE

Les entreprises et institutions européennes qui fondent leurs stratégies d'infrastructure IA sur la hiérarchie des benchmarks pourraient devoir réévaluer leurs investissements si des modèles compacts s'avèrent aussi performants en raisonnement que des systèmes massivement plus coûteux.

💬 L'analyse de Mathieu

La vraie info dans ce papier, c'est pas que les benchmarks sont cassés (même si un peu quand même). C'est que le raisonnement vérifiable, les maths, le code, ça se compresse bien dans un petit modèle, alors que la connaissance encyclopédique non. Un 3B qui cartonne sur l'AIME mais tombe à 70% sur GPQA-Diamond, c'est exactement ce que ça prédit, et ça devrait changer la façon dont on choisit ses modèles selon ce qu'on veut vraiment faire.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

VibeThinker-3B : modèle de raisonnement dense basé sur Qwen2.5-Coder-3B via le pipeline Spectrum-to-Signal
1MarkTechPost 

VibeThinker-3B : modèle de raisonnement dense basé sur Qwen2.5-Coder-3B via le pipeline Spectrum-to-Signal

Des chercheurs de Sina Weibo Inc, le géant chinois des réseaux sociaux, ont publié VibeThinker-3B, un modèle de raisonnement de seulement 3 milliards de paramètres qui rivalise avec des géants cent fois plus lourds. Construit sur la base Qwen2.5-Coder-3B et distribué sous licence MIT, le modèle atteint 94,3 sur le benchmark AIME26, soit un score comparable à DeepSeek V3.2 (671 milliards de paramètres) et à Kimi K2.5 (1 000 milliards de paramètres). Sur LiveCodeBench v6, il affiche 80,2 en Pass@1, et sur des concours LeetCode récents non vus lors de l'entraînement, entre avril et mai 2026, il a réussi 123 soumissions Python sur 128 en première tentative, soit un taux d'acceptation de 96,1 %. Les poids du modèle pèsent environ 6 Go en BF16, ce qui le rend utilisable sur un seul GPU grand public avec les frameworks vLLM 0.10.1 ou SGLang. Ce résultat remet en question un dogme dominant dans le domaine de l'IA : l'idée que les performances de raisonnement avancé nécessitent impérativement des dizaines ou centaines de milliards de paramètres. Un modèle de 3 milliards entraînable sur une machine accessible, capable de tenir tête à des systèmes nécessitant des clusters entiers pour l'inférence, représente un changement structurel pour les équipes qui cherchent à déployer des capacités de raisonnement à faible coût. La limite est réelle : sur GPQA-Diamond, un benchmark à dominante de connaissances encyclopédiques, l'écart reste significatif face aux grands modèles (70,2 contre 82 à 87 pour les modèles de 700B+). VibeThinker-3B est conçu comme un spécialiste des tâches vérifiables, et les auteurs le recommandent explicitement pour les mathématiques, le code et les STEM, mais pas pour les questions à large domaine ouvert. Le modèle n'est pas pré-entraîné depuis zéro : il repose entièrement sur un pipeline de post-entraînement en quatre étapes baptisé Spectrum-to-Signal (SSP), dont la version précédente avait été appliquée au modèle VibeThinker-1.5B. La première phase est un SFT en deux temps progressifs, du général vers le difficile, qui construit un large espace de trajectoires de raisonnement valides. La deuxième phase applique du renforcement multi-domaine via MGPO (MaxEnt-Guided Policy Optimization), ciblant les exemples à la frontière des capacités actuelles du modèle. Une étape Long2Short redistribue ensuite la récompense en favorisant les réponses correctes les plus courtes, forçant le modèle à ne pas verbaliser inutilement. Fait notable : les chercheurs ont abandonné l'expansion progressive du contexte, qui dégradait le raisonnement long à cette échelle, et utilisent une fenêtre fixe de 64 000 tokens tout au long du RL. L'ensemble du pipeline est publié en open source, ce qui permet à d'autres équipes de reproduire ou d'étendre l'approche.

UELes équipes européennes de développement IA peuvent déployer ce modèle open source sous licence MIT pour des tâches de raisonnement en code et mathématiques sur un simple GPU grand public, réduisant significativement les coûts d'inférence sans recourir à des clusters.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. Des chercheurs de Sina Weibo Inc. ont développé VibeThinker-3B, un modèle de raisonnement efficace avec seulement 3 milliards de paramètres, rivalisant avec des géants cent fois plus lourds. C'est une bonne nouvelle, mais faut pas rêver non plus, sur certains benchmarks, le fait reste significatif. Enfin, un modèle entrainable sur une machine accessible capable de rivaliser avec des systèmes nécessitant des clusters entiers pour l'inférence, c'est un véritable changement structurel pour les équipes cherchant à déployer des capacités de raisonnement à faible coût. Le modèle, distribué sous licence MIT et pesant environ 6 Go, est un vrai pas en avant dans la démocratisation de l'IA pour le grand public, grâce à son utilisation possible sur un seul GPU grand public. Selon Le Fil IA, cela ouvre des perspectives intéressantes pour les équipes européennes souhaitant réduire leurs coûts d'inférence sans recourir à des clusters massifs.

LLMsOpinion
1 source
Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents
2MarkTechPost 

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

L'équipe Qwen d'Alibaba a publié Qwen3.6-27B, un modèle dense en open-weight de 27 milliards de paramètres disponible sous licence Apache 2.0 sur Hugging Face, en deux variantes : BF16 et FP8. Ce modèle se distingue notamment sur les benchmarks de codage agentique, où il surpasse des modèles bien plus imposants : il atteint 1 487 points sur QwenWebBench (génération de code frontend) contre 1 068 pour son prédécesseur Qwen3.5-27B, et 36,2 sur NL2Repo (génération de code à l'échelle d'un dépôt) contre 27,3. Sur SWE-bench Verified, référence du secteur pour les agents logiciels autonomes, il atteint 77,2, se rapprochant des 80,9 de Claude 4.5 Opus. Fait notable : ces performances dépassent celles du Qwen3.5-397B-A17B, un modèle Mixture-of-Experts quatorze fois plus grand. L'intérêt de cette publication tient à deux innovations concrètes. La première concerne le codage agentique : le modèle a été spécifiquement optimisé pour naviguer dans de larges bases de code, modifier plusieurs fichiers simultanément et produire du code exécutable cohérent, couvrant sept catégories allant du design web à la 3D. La seconde innovation, baptisée Thinking Preservation, répond à une limite structurelle des LLM actuels : par défaut, le raisonnement intermédiaire (chain-of-thought) n'est conservé que pour le message en cours et disparaît au tour suivant. Qwen3.6-27B propose une option pour conserver et réutiliser ces traces de raisonnement sur l'ensemble d'une conversation, ce qui réduit les tokens redondants et améliore l'utilisation du cache KV dans les workflows d'agents itératifs. Cette sortie s'inscrit dans une stratégie accélérée d'Alibaba sur les modèles ouverts : Qwen3.6-27B est le deuxième modèle de la famille Qwen3.6, après le Qwen3.6-35B-A3B (MoE à 3B paramètres actifs) lancé quelques semaines plus tôt, lui-même héritier de la série Qwen3.5. Sur le plan architectural, le modèle adopte une structure hybride originale répartie sur 64 couches : trois sublayers sur quatre utilisent Gated DeltaNet, une attention linéaire en O(n) bien plus efficace que l'attention classique quadratique O(n²), tandis qu'une couche sur quatre conserve l'attention standard. Cette conception permet de traiter de longs contextes avec un coût mémoire réduit, tout en maintenant la précision sur les tâches complexes. Compatible avec SGLang, vLLM et Hugging Face Transformers, le modèle vise directement les développeurs qui construisent des agents de codage, dans un segment où Anthropic et OpenAI restent pour l'instant en tête.

LLMsOpinion
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
3MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source
Qwen3.7 Max : l’IA d’Alibaba écrase ses anciens scores sur les benchmarks IA
4Le Big Data 

Qwen3.7 Max : l’IA d’Alibaba écrase ses anciens scores sur les benchmarks IA

Alibaba a dévoilé le 21 mai 2026 son nouveau modèle de langage Qwen3.7 Max, qui affiche un score de 56,6 sur l'Artificial Analysis Intelligence Index, soit 4,8 points de plus que son prédécesseur Qwen3.6 Max Preview (51,8). Le bond le plus notable concerne le codage agentique et le raisonnement scientifique, avec des progressions significatives sur des benchmarks spécialisés comme Humanity's Last Exam et TerminalBench Hard. La fenêtre de contexte du modèle passe également de 256 000 à un million de tokens, ce qui lui permet de traiter des volumes d'information sans précédent dans une seule session. Alibaba met aussi en avant une réduction mesurable du taux d'hallucinations : le modèle préfère ne pas répondre plutôt que d'inventer une information incertaine, une stratégie rendue possible par un investissement massif dans les techniques de reinforcement learning. Ces avancées ont des conséquences directes pour les développeurs et les entreprises qui utilisent l'IA dans leurs workflows. Une fenêtre d'un million de tokens change concrètement ce qu'il est possible de faire : analyser des bases de code entières, traiter de longs documents juridiques ou financiers, ou enchaîner des raisonnements complexes sur plusieurs étapes sans perdre de contexte. La réduction des hallucinations est un argument commercial fort dans les secteurs où la fiabilité est critique, comme le droit, la finance ou la médecine. Sur ces critères précis, Qwen3.7 Max commence à se positionner comme une alternative sérieuse aux offres d'OpenAI, Anthropic et Google, même si le modèle reste encore derrière les meilleurs modèles américains sur les classements globaux. Longtemps perçu comme un outsider dans la course aux grands modèles de langage, Alibaba s'impose progressivement comme un acteur de premier plan. La série Qwen incarne cette stratégie de rattrapage accéléré : chaque nouvelle version réduit l'écart avec la frontière technologique définie par GPT-4o, Claude ou Gemini. Le contexte géopolitique autour des semi-conducteurs et des restrictions américaines à l'export de puces avancées rend ces progrès d'autant plus remarquables. En parallèle, d'autres laboratoires chinois comme DeepSeek et Baidu intensifient eux aussi leurs efforts, créant une dynamique de compétition interne qui pousse l'ensemble de l'écosystème vers le haut. La prochaine étape pour Alibaba sera probablement l'intégration de capacités multimodales avancées, absentes de Qwen3.7 Max, pour rivaliser pleinement avec les modèles américains qui traitent déjà texte, image et vidéo dans un même système.

UELes entreprises et développeurs européens disposent d'une nouvelle alternative compétitive aux modèles américains, notamment pour des usages exigeant de longues fenêtres de contexte ou une haute fiabilité dans des secteurs réglementés comme le droit ou la finance.

💬 Un million de tokens de contexte, c'est pas du marketing, ça change vraiment ce qu'on peut faire : analyser une base de code entière, ou garder le fil sur un raisonnement long sans tout reperdre au milieu. La réduction des hallucinations via reinforcement learning, c'est le pari technique qui mérite qu'on y regarde sérieusement, surtout dans des secteurs où inventer une réponse coûte cher. Qwen est encore derrière sur les classements globaux, mais l'écart se resserre à une vitesse qui devrait mettre un peu de pression sur les labos américains.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic