
Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks
Dimanche dernier, neuf chercheurs de Sina Weibo, le géant chinois des réseaux sociaux surtout connu pour sa plateforme de microblogging, ont publié sur arXiv un rapport technique de 14 pages qui a immédiatement agité la communauté de recherche en intelligence artificielle. Leur modèle de langage, baptisé VibeThinker-3B, ne compte que 3 milliards de paramètres, mais affiche des performances en raisonnement mathématique qui rivalisent avec des systèmes cent fois plus grands. Sur l'AIME 2026, l'un des examens de mathématiques les plus exigeants au monde, VibeThinker-3B obtient 94,3 points, soit autant que DeepSeek V3.2, un modèle de 671 milliards de paramètres, et davantage que Gemini 3 Pro de Google, qui plafonne à 91,7. Avec une technique propriétaire appelée Claim-Level Reliability Assessment, le score grimpe à 97,1, devançant pratiquement tous les systèmes publiquement documentés. Le modèle obtient aussi 91,4 sur l'AIME 2025, 89,3 sur le Harvard-MIT Mathematics Tournament 2025, 80,2 sur LiveCodeBench v6 en génération de code, et un taux d'acceptation de 96,1 % sur les concours hebdomadaires LeetCode entre fin avril et fin mai 2026. En quelques heures, le dépôt GitHub cumulait 685 étoiles et la fiche Hugging Face 130 likes.
Ces chiffres remettent en question une hypothèse structurante de l'industrie de l'IA : celle selon laquelle les capacités de raisonnement avancé exigent des modèles toujours plus massifs et des investissements toujours plus lourds. Si un modèle de 3 milliards de paramètres, capable de tourner sur un ordinateur portable grand public, peut égaler des systèmes comme GLM-5 de Zhipu AI (744 milliards de paramètres) ou Kimi K2.5 de Moonshot AI (plus de 1 000 milliards), c'est la logique même des milliards investis dans la course à la puissance brute qui vacille. Pour les entreprises, les utilisateurs et les décideurs qui fondent leurs choix d'infrastructure sur la hiérarchie des benchmarks, la question n'est pas anodine.
Les chercheurs de Weibo théorisent ce résultat à travers ce qu'ils appellent la "Parametric Compression-Coverage Hypothesis" : le raisonnement vérifiable, comme les maths ou le code, où les réponses peuvent être contrôlées objectivement, serait une capacité compressible dans un modèle compact, alors que la connaissance encyclopédique exigerait de nombreux paramètres pour couvrir l'étendue des faits et des cas limites. Cette distinction est corroborée par le score du modèle sur GPQA-Diamond, un benchmark de connaissances scientifiques au niveau master : VibeThinker-3B n'atteint que 70,2, loin derrière les meilleurs modèles. La réaction sur X, résumée par un post ayant dépassé 161 000 vues ("Je ne sais vraiment pas si c'est une percée ou si les benchmarks sont cassés"), illustre le doute croissant sur la valeur réelle de ces classements, devenus l'enjeu central d'un secteur qui peine à distinguer le progrès scientifique de l'optimisation de tests.
Les entreprises et institutions européennes qui fondent leurs stratégies d'infrastructure IA sur la hiérarchie des benchmarks pourraient devoir réévaluer leurs investissements si des modèles compacts s'avèrent aussi performants en raisonnement que des systèmes massivement plus coûteux.
La vraie info dans ce papier, c'est pas que les benchmarks sont cassés (même si un peu quand même). C'est que le raisonnement vérifiable, les maths, le code, ça se compresse bien dans un petit modèle, alors que la connaissance encyclopédique non. Un 3B qui cartonne sur l'AIME mais tombe à 70% sur GPQA-Diamond, c'est exactement ce que ça prédit, et ça devrait changer la façon dont on choisit ses modèles selon ce qu'on veut vraiment faire.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




