VibeThinker-3B : modèle de raisonnement dense basé sur Qwen2.5-Coder-3B via le pipeline Spectrum-to-Signal
Des chercheurs de Sina Weibo Inc, le géant chinois des réseaux sociaux, ont publié VibeThinker-3B, un modèle de raisonnement de seulement 3 milliards de paramètres qui rivalise avec des géants cent fois plus lourds. Construit sur la base Qwen2.5-Coder-3B et distribué sous licence MIT, le modèle atteint 94,3 sur le benchmark AIME26, soit un score comparable à DeepSeek V3.2 (671 milliards de paramètres) et à Kimi K2.5 (1 000 milliards de paramètres). Sur LiveCodeBench v6, il affiche 80,2 en Pass@1, et sur des concours LeetCode récents non vus lors de l'entraînement, entre avril et mai 2026, il a réussi 123 soumissions Python sur 128 en première tentative, soit un taux d'acceptation de 96,1 %. Les poids du modèle pèsent environ 6 Go en BF16, ce qui le rend utilisable sur un seul GPU grand public avec les frameworks vLLM 0.10.1 ou SGLang.
Ce résultat remet en question un dogme dominant dans le domaine de l'IA : l'idée que les performances de raisonnement avancé nécessitent impérativement des dizaines ou centaines de milliards de paramètres. Un modèle de 3 milliards entraînable sur une machine accessible, capable de tenir tête à des systèmes nécessitant des clusters entiers pour l'inférence, représente un changement structurel pour les équipes qui cherchent à déployer des capacités de raisonnement à faible coût. La limite est réelle : sur GPQA-Diamond, un benchmark à dominante de connaissances encyclopédiques, l'écart reste significatif face aux grands modèles (70,2 contre 82 à 87 pour les modèles de 700B+). VibeThinker-3B est conçu comme un spécialiste des tâches vérifiables, et les auteurs le recommandent explicitement pour les mathématiques, le code et les STEM, mais pas pour les questions à large domaine ouvert.
Le modèle n'est pas pré-entraîné depuis zéro : il repose entièrement sur un pipeline de post-entraînement en quatre étapes baptisé Spectrum-to-Signal (SSP), dont la version précédente avait été appliquée au modèle VibeThinker-1.5B. La première phase est un SFT en deux temps progressifs, du général vers le difficile, qui construit un large espace de trajectoires de raisonnement valides. La deuxième phase applique du renforcement multi-domaine via MGPO (MaxEnt-Guided Policy Optimization), ciblant les exemples à la frontière des capacités actuelles du modèle. Une étape Long2Short redistribue ensuite la récompense en favorisant les réponses correctes les plus courtes, forçant le modèle à ne pas verbaliser inutilement. Fait notable : les chercheurs ont abandonné l'expansion progressive du contexte, qui dégradait le raisonnement long à cette échelle, et utilisent une fenêtre fixe de 64 000 tokens tout au long du RL. L'ensemble du pipeline est publié en open source, ce qui permet à d'autres équipes de reproduire ou d'étendre l'approche.
Les équipes européennes de développement IA peuvent déployer ce modèle open source sous licence MIT pour des tâches de raisonnement en code et mathématiques sur un simple GPU grand public, réduisant significativement les coûts d'inférence sans recourir à des clusters.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




