Aller au contenu principal
Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks
LLMsVentureBeat AI5h· 2 min de lecture

Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks

Source originale ↗·

Dimanche dernier, neuf chercheurs de Sina Weibo, le géant chinois des réseaux sociaux surtout connu pour sa plateforme de microblogging, ont publié sur arXiv un rapport technique de 14 pages qui a immédiatement agité la communauté de recherche en intelligence artificielle. Leur modèle de langage, baptisé VibeThinker-3B, ne compte que 3 milliards de paramètres, mais affiche des performances en raisonnement mathématique qui rivalisent avec des systèmes cent fois plus grands. Sur l'AIME 2026, l'un des examens de mathématiques les plus exigeants au monde, VibeThinker-3B obtient 94,3 points, soit autant que DeepSeek V3.2, un modèle de 671 milliards de paramètres, et davantage que Gemini 3 Pro de Google, qui plafonne à 91,7. Avec une technique propriétaire appelée Claim-Level Reliability Assessment, le score grimpe à 97,1, devançant pratiquement tous les systèmes publiquement documentés. Le modèle obtient aussi 91,4 sur l'AIME 2025, 89,3 sur le Harvard-MIT Mathematics Tournament 2025, 80,2 sur LiveCodeBench v6 en génération de code, et un taux d'acceptation de 96,1 % sur les concours hebdomadaires LeetCode entre fin avril et fin mai 2026. En quelques heures, le dépôt GitHub cumulait 685 étoiles et la fiche Hugging Face 130 likes.

Ces chiffres remettent en question une hypothèse structurante de l'industrie de l'IA : celle selon laquelle les capacités de raisonnement avancé exigent des modèles toujours plus massifs et des investissements toujours plus lourds. Si un modèle de 3 milliards de paramètres, capable de tourner sur un ordinateur portable grand public, peut égaler des systèmes comme GLM-5 de Zhipu AI (744 milliards de paramètres) ou Kimi K2.5 de Moonshot AI (plus de 1 000 milliards), c'est la logique même des milliards investis dans la course à la puissance brute qui vacille. Pour les entreprises, les utilisateurs et les décideurs qui fondent leurs choix d'infrastructure sur la hiérarchie des benchmarks, la question n'est pas anodine.

Les chercheurs de Weibo théorisent ce résultat à travers ce qu'ils appellent la "Parametric Compression-Coverage Hypothesis" : le raisonnement vérifiable, comme les maths ou le code, où les réponses peuvent être contrôlées objectivement, serait une capacité compressible dans un modèle compact, alors que la connaissance encyclopédique exigerait de nombreux paramètres pour couvrir l'étendue des faits et des cas limites. Cette distinction est corroborée par le score du modèle sur GPQA-Diamond, un benchmark de connaissances scientifiques au niveau master : VibeThinker-3B n'atteint que 70,2, loin derrière les meilleurs modèles. La réaction sur X, résumée par un post ayant dépassé 161 000 vues ("Je ne sais vraiment pas si c'est une percée ou si les benchmarks sont cassés"), illustre le doute croissant sur la valeur réelle de ces classements, devenus l'enjeu central d'un secteur qui peine à distinguer le progrès scientifique de l'optimisation de tests.

Impact France/UE

Les entreprises et institutions européennes qui fondent leurs stratégies d'infrastructure IA sur la hiérarchie des benchmarks pourraient devoir réévaluer leurs investissements si des modèles compacts s'avèrent aussi performants en raisonnement que des systèmes massivement plus coûteux.

💬 L'analyse de Mathieu

La vraie info dans ce papier, c'est pas que les benchmarks sont cassés (même si un peu quand même). C'est que le raisonnement vérifiable, les maths, le code, ça se compresse bien dans un petit modèle, alors que la connaissance encyclopédique non. Un 3B qui cartonne sur l'AIME mais tombe à 70% sur GPQA-Diamond, c'est exactement ce que ça prédit, et ça devrait changer la façon dont on choisit ses modèles selon ce qu'on veut vraiment faire.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents
1MarkTechPost 

Alibaba publie Qwen3.6-27B, un modèle dense qui surpasse le MoE 397B sur les benchmarks de codage par agents

L'équipe Qwen d'Alibaba a publié Qwen3.6-27B, un modèle dense en open-weight de 27 milliards de paramètres disponible sous licence Apache 2.0 sur Hugging Face, en deux variantes : BF16 et FP8. Ce modèle se distingue notamment sur les benchmarks de codage agentique, où il surpasse des modèles bien plus imposants : il atteint 1 487 points sur QwenWebBench (génération de code frontend) contre 1 068 pour son prédécesseur Qwen3.5-27B, et 36,2 sur NL2Repo (génération de code à l'échelle d'un dépôt) contre 27,3. Sur SWE-bench Verified, référence du secteur pour les agents logiciels autonomes, il atteint 77,2, se rapprochant des 80,9 de Claude 4.5 Opus. Fait notable : ces performances dépassent celles du Qwen3.5-397B-A17B, un modèle Mixture-of-Experts quatorze fois plus grand. L'intérêt de cette publication tient à deux innovations concrètes. La première concerne le codage agentique : le modèle a été spécifiquement optimisé pour naviguer dans de larges bases de code, modifier plusieurs fichiers simultanément et produire du code exécutable cohérent, couvrant sept catégories allant du design web à la 3D. La seconde innovation, baptisée Thinking Preservation, répond à une limite structurelle des LLM actuels : par défaut, le raisonnement intermédiaire (chain-of-thought) n'est conservé que pour le message en cours et disparaît au tour suivant. Qwen3.6-27B propose une option pour conserver et réutiliser ces traces de raisonnement sur l'ensemble d'une conversation, ce qui réduit les tokens redondants et améliore l'utilisation du cache KV dans les workflows d'agents itératifs. Cette sortie s'inscrit dans une stratégie accélérée d'Alibaba sur les modèles ouverts : Qwen3.6-27B est le deuxième modèle de la famille Qwen3.6, après le Qwen3.6-35B-A3B (MoE à 3B paramètres actifs) lancé quelques semaines plus tôt, lui-même héritier de la série Qwen3.5. Sur le plan architectural, le modèle adopte une structure hybride originale répartie sur 64 couches : trois sublayers sur quatre utilisent Gated DeltaNet, une attention linéaire en O(n) bien plus efficace que l'attention classique quadratique O(n²), tandis qu'une couche sur quatre conserve l'attention standard. Cette conception permet de traiter de longs contextes avec un coût mémoire réduit, tout en maintenant la précision sur les tâches complexes. Compatible avec SGLang, vLLM et Hugging Face Transformers, le modèle vise directement les développeurs qui construisent des agents de codage, dans un segment où Anthropic et OpenAI restent pour l'instant en tête.

LLMsOpinion
1 source
Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome
2MarkTechPost 

Z.AI lance GLM-5.1 : un modèle open-weight de 754 milliards de paramètres, leader sur SWE-Bench Pro avec 8 heures d'exécution autonome

Z.AI, la plateforme d'intelligence artificielle fondée par l'équipe derrière la famille de modèles GLM, a publié GLM-5.1, son nouveau modèle phare conçu spécifiquement pour les tâches agentiques. Avec 754 milliards de paramètres et une architecture de type Mixture of Experts combinée à une attention à structure dispersée (DSA), le modèle atteint un score de 58,4 sur SWE-Bench Pro, surpassant GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro pour établir un nouveau record sur ce benchmark de référence en ingénierie logicielle. Il affiche également 95,3 sur AIME 2026, 86,2 sur GPQA-Diamond, et 68,7 sur CyberGym, contre 48,3 pour son prédécesseur GLM-5. La capacité à maintenir une exécution autonome pendant huit heures consécutives, à travers des centaines d'itérations et des milliers d'appels d'outils, constitue l'un de ses traits distinctifs les plus marquants. Ce qui rend GLM-5.1 particulièrement significatif pour les développeurs, c'est sa réponse à un problème structurel des LLM utilisés comme agents : le plateau d'efficacité. Les modèles précédents, y compris GLM-5, épuisaient rapidement leur répertoire de stratégies et cessaient de progresser même lorsqu'on leur accordait plus de temps. GLM-5.1 est conçu pour rester productif sur des horizons bien plus longs, en décomposant les problèmes complexes, en conduisant des expériences, en lisant les résultats et en révisant sa stratégie à chaque itération. Cette capacité d'auto-correction soutenue réduit concrètement la dérive de stratégie et l'accumulation d'erreurs, rendant le modèle exploitable pour des tâches d'ingénierie autonome de bout en bout, sans supervision humaine constante. Le modèle est rendu possible par une infrastructure d'apprentissage par renforcement asynchrone inédite, qui découple la génération de l'entraînement pour en améliorer drastiquement l'efficacité. Cette approche permet au modèle d'apprendre à partir d'interactions longues et complexes, là où l'entraînement RL classique en tour unique échoue. Z.AI publie GLM-5.1 en open-weight, ce qui signifie que les équipes techniques peuvent envisager un hébergement en propre, bien que l'architecture MoE exige une infrastructure de serving adaptée. Dans un contexte où les grands labs comme OpenAI, Anthropic et Google dominent les classements des modèles fermés, la percée de Z.AI sur SWE-Bench Pro avec un modèle ouvert repositionne le paysage concurrentiel. Avec des scores solides sur MCP-Atlas et Terminal-Bench 2.0, le modèle vise directement les cas d'usage production où les agents doivent opérer des systèmes réels, une tendance qui s'accélère en 2026.

UELe modèle open-weight offre aux équipes européennes une alternative auto-hébergeable aux modèles fermés américains, réduisant la dépendance aux APIs d'OpenAI, Anthropic et Google pour les cas d'usage agentiques en production.

LLMsActu
1 source
Qwen3.7 Max : l’IA d’Alibaba écrase ses anciens scores sur les benchmarks IA
3Le Big Data 

Qwen3.7 Max : l’IA d’Alibaba écrase ses anciens scores sur les benchmarks IA

Alibaba a dévoilé le 21 mai 2026 son nouveau modèle de langage Qwen3.7 Max, qui affiche un score de 56,6 sur l'Artificial Analysis Intelligence Index, soit 4,8 points de plus que son prédécesseur Qwen3.6 Max Preview (51,8). Le bond le plus notable concerne le codage agentique et le raisonnement scientifique, avec des progressions significatives sur des benchmarks spécialisés comme Humanity's Last Exam et TerminalBench Hard. La fenêtre de contexte du modèle passe également de 256 000 à un million de tokens, ce qui lui permet de traiter des volumes d'information sans précédent dans une seule session. Alibaba met aussi en avant une réduction mesurable du taux d'hallucinations : le modèle préfère ne pas répondre plutôt que d'inventer une information incertaine, une stratégie rendue possible par un investissement massif dans les techniques de reinforcement learning. Ces avancées ont des conséquences directes pour les développeurs et les entreprises qui utilisent l'IA dans leurs workflows. Une fenêtre d'un million de tokens change concrètement ce qu'il est possible de faire : analyser des bases de code entières, traiter de longs documents juridiques ou financiers, ou enchaîner des raisonnements complexes sur plusieurs étapes sans perdre de contexte. La réduction des hallucinations est un argument commercial fort dans les secteurs où la fiabilité est critique, comme le droit, la finance ou la médecine. Sur ces critères précis, Qwen3.7 Max commence à se positionner comme une alternative sérieuse aux offres d'OpenAI, Anthropic et Google, même si le modèle reste encore derrière les meilleurs modèles américains sur les classements globaux. Longtemps perçu comme un outsider dans la course aux grands modèles de langage, Alibaba s'impose progressivement comme un acteur de premier plan. La série Qwen incarne cette stratégie de rattrapage accéléré : chaque nouvelle version réduit l'écart avec la frontière technologique définie par GPT-4o, Claude ou Gemini. Le contexte géopolitique autour des semi-conducteurs et des restrictions américaines à l'export de puces avancées rend ces progrès d'autant plus remarquables. En parallèle, d'autres laboratoires chinois comme DeepSeek et Baidu intensifient eux aussi leurs efforts, créant une dynamique de compétition interne qui pousse l'ensemble de l'écosystème vers le haut. La prochaine étape pour Alibaba sera probablement l'intégration de capacités multimodales avancées, absentes de Qwen3.7 Max, pour rivaliser pleinement avec les modèles américains qui traitent déjà texte, image et vidéo dans un même système.

UELes entreprises et développeurs européens disposent d'une nouvelle alternative compétitive aux modèles américains, notamment pour des usages exigeant de longues fenêtres de contexte ou une haute fiabilité dans des secteurs réglementés comme le droit ou la finance.

💬 Un million de tokens de contexte, c'est pas du marketing, ça change vraiment ce qu'on peut faire : analyser une base de code entière, ou garder le fil sur un raisonnement long sans tout reperdre au milieu. La réduction des hallucinations via reinforcement learning, c'est le pari technique qui mérite qu'on y regarde sérieusement, surtout dans des secteurs où inventer une réponse coûte cher. Qwen est encore derrière sur les classements globaux, mais l'écart se resserre à une vitesse qui devrait mettre un peu de pression sur les labos américains.

LLMsOpinion
1 source
Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat
4VentureBeat AI 

Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat

Un site baptisé AI IQ (aiiq.org) propose depuis la semaine dernière de noter les modèles d'intelligence artificielle selon le même barème que le quotient intellectuel humain. Créé par Ryan Shea, ingénieur et investisseur providentiel cofondateur de la plateforme blockchain Stacks ainsi que de Voterbase, le projet attribue un score IQ estimé à plus de 50 des grands modèles de langage actuels, puis les place sur une courbe en cloche standard. La méthodologie repose sur 12 benchmarks répartis en quatre dimensions : raisonnement abstrait (ARC-AGI-1 et ARC-AGI-2), mathématique (FrontierMath, AIME, ProofBench), programmatique (Terminal-Bench 2.0, SWE-Bench Verified, SciCode) et académique (Humanity's Last Exam, CritPt, GPQA Diamond). L'IQ final est la moyenne arithmétique des quatre scores dimensionnels. Au classement de mi-mai 2026, GPT-5.5 d'OpenAI trône en tête avec un IQ estimé à 136, talonné par Opus 4.7 d'Anthropic (environ 132), GPT-5.4 (131), Gemini 3.1 Pro de Google (131) et Opus 4.6 (129), un peloton de tête anormalement serré. L'initiative a immédiatement divisé. Du côté des partisans, des stratèges et technologues d'entreprise comme Brian Vellmure ou le commentateur Thibaut Mélen saluent sur X un outil qui rend lisible un marché impossible à comparer : là où les tableaux de benchmarks classiques noient l'utilisateur dans des colonnes de chiffres disparates, une seule valeur résume l'essentiel. Pour les décideurs qui doivent choisir un modèle sans être chercheurs en IA, c'est une boussole bienvenue. Mais les critiques ont été tout aussi rapides. Le compte AI Deeply, relayant l'inquiétude de nombreux chercheurs, résume le problème en une formule : « C'est du non-sens. L'IA est bien trop irrégulière. La carte n'est pas le territoire. » Le reproche central est que les capacités d'un modèle sont profondément asymétriques, excellent en code, médiocre en raisonnement spatial, brillant en langues latines, défaillant en logique formelle, et qu'un seul chiffre efface précisément cette information. Le projet s'inscrit dans une quête plus large de lisibilité du marché des LLMs, qui s'est fragmenté à une vitesse vertigineuse depuis 2024. Les benchmarks traditionnels prolifèrent, souvent incomparables entre eux, parfois contaminés par des données d'entraînement, et régulièrement accusés de ne mesurer que ce que les modèles ont déjà appris à optimiser. AI IQ tente d'y répondre en compressant les plafonds des benchmarks jugés trop faciles ou trop susceptibles de saturation, et en pénalisant les modèles dont les données sont incomplètes plutôt qu'en leur bénéficiant du doute. La convergence spectaculaire au sommet, où quatre modèles de trois laboratoires différents se retrouvent dans un écart de cinq points, illustre la compétition féroce entre OpenAI, Anthropic et Google, et pose la vraie question : si les scores sont presque identiques, sur quoi les entreprises vont-elles désormais choisir leur modèle ?

LLMsPaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic