Aller au contenu principal
LLMsMarkTechPost6h· 2 min de lecture

VibeThinker-3B : modèle de raisonnement dense basé sur Qwen2.5-Coder-3B via le pipeline Spectrum-to-Signal

Source originale ↗·

Des chercheurs de Sina Weibo Inc, le géant chinois des réseaux sociaux, ont publié VibeThinker-3B, un modèle de raisonnement de seulement 3 milliards de paramètres qui rivalise avec des géants cent fois plus lourds. Construit sur la base Qwen2.5-Coder-3B et distribué sous licence MIT, le modèle atteint 94,3 sur le benchmark AIME26, soit un score comparable à DeepSeek V3.2 (671 milliards de paramètres) et à Kimi K2.5 (1 000 milliards de paramètres). Sur LiveCodeBench v6, il affiche 80,2 en Pass@1, et sur des concours LeetCode récents non vus lors de l'entraînement, entre avril et mai 2026, il a réussi 123 soumissions Python sur 128 en première tentative, soit un taux d'acceptation de 96,1 %. Les poids du modèle pèsent environ 6 Go en BF16, ce qui le rend utilisable sur un seul GPU grand public avec les frameworks vLLM 0.10.1 ou SGLang.

Ce résultat remet en question un dogme dominant dans le domaine de l'IA : l'idée que les performances de raisonnement avancé nécessitent impérativement des dizaines ou centaines de milliards de paramètres. Un modèle de 3 milliards entraînable sur une machine accessible, capable de tenir tête à des systèmes nécessitant des clusters entiers pour l'inférence, représente un changement structurel pour les équipes qui cherchent à déployer des capacités de raisonnement à faible coût. La limite est réelle : sur GPQA-Diamond, un benchmark à dominante de connaissances encyclopédiques, l'écart reste significatif face aux grands modèles (70,2 contre 82 à 87 pour les modèles de 700B+). VibeThinker-3B est conçu comme un spécialiste des tâches vérifiables, et les auteurs le recommandent explicitement pour les mathématiques, le code et les STEM, mais pas pour les questions à large domaine ouvert.

Le modèle n'est pas pré-entraîné depuis zéro : il repose entièrement sur un pipeline de post-entraînement en quatre étapes baptisé Spectrum-to-Signal (SSP), dont la version précédente avait été appliquée au modèle VibeThinker-1.5B. La première phase est un SFT en deux temps progressifs, du général vers le difficile, qui construit un large espace de trajectoires de raisonnement valides. La deuxième phase applique du renforcement multi-domaine via MGPO (MaxEnt-Guided Policy Optimization), ciblant les exemples à la frontière des capacités actuelles du modèle. Une étape Long2Short redistribue ensuite la récompense en favorisant les réponses correctes les plus courtes, forçant le modèle à ne pas verbaliser inutilement. Fait notable : les chercheurs ont abandonné l'expansion progressive du contexte, qui dégradait le raisonnement long à cette échelle, et utilisent une fenêtre fixe de 64 000 tokens tout au long du RL. L'ensemble du pipeline est publié en open source, ce qui permet à d'autres équipes de reproduire ou d'étendre l'approche.

Impact France/UE

Les équipes européennes de développement IA peuvent déployer ce modèle open source sous licence MIT pour des tâches de raisonnement en code et mathématiques sur un simple GPU grand public, réduisant significativement les coûts d'inférence sans recourir à des clusters.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks
1VentureBeat AI 

Le petit modèle VibeThinker-3B de Weibo relance le débat sur les benchmarks

Dimanche dernier, neuf chercheurs de Sina Weibo, le géant chinois des réseaux sociaux surtout connu pour sa plateforme de microblogging, ont publié sur arXiv un rapport technique de 14 pages qui a immédiatement agité la communauté de recherche en intelligence artificielle. Leur modèle de langage, baptisé VibeThinker-3B, ne compte que 3 milliards de paramètres, mais affiche des performances en raisonnement mathématique qui rivalisent avec des systèmes cent fois plus grands. Sur l'AIME 2026, l'un des examens de mathématiques les plus exigeants au monde, VibeThinker-3B obtient 94,3 points, soit autant que DeepSeek V3.2, un modèle de 671 milliards de paramètres, et davantage que Gemini 3 Pro de Google, qui plafonne à 91,7. Avec une technique propriétaire appelée Claim-Level Reliability Assessment, le score grimpe à 97,1, devançant pratiquement tous les systèmes publiquement documentés. Le modèle obtient aussi 91,4 sur l'AIME 2025, 89,3 sur le Harvard-MIT Mathematics Tournament 2025, 80,2 sur LiveCodeBench v6 en génération de code, et un taux d'acceptation de 96,1 % sur les concours hebdomadaires LeetCode entre fin avril et fin mai 2026. En quelques heures, le dépôt GitHub cumulait 685 étoiles et la fiche Hugging Face 130 likes. Ces chiffres remettent en question une hypothèse structurante de l'industrie de l'IA : celle selon laquelle les capacités de raisonnement avancé exigent des modèles toujours plus massifs et des investissements toujours plus lourds. Si un modèle de 3 milliards de paramètres, capable de tourner sur un ordinateur portable grand public, peut égaler des systèmes comme GLM-5 de Zhipu AI (744 milliards de paramètres) ou Kimi K2.5 de Moonshot AI (plus de 1 000 milliards), c'est la logique même des milliards investis dans la course à la puissance brute qui vacille. Pour les entreprises, les utilisateurs et les décideurs qui fondent leurs choix d'infrastructure sur la hiérarchie des benchmarks, la question n'est pas anodine. Les chercheurs de Weibo théorisent ce résultat à travers ce qu'ils appellent la "Parametric Compression-Coverage Hypothesis" : le raisonnement vérifiable, comme les maths ou le code, où les réponses peuvent être contrôlées objectivement, serait une capacité compressible dans un modèle compact, alors que la connaissance encyclopédique exigerait de nombreux paramètres pour couvrir l'étendue des faits et des cas limites. Cette distinction est corroborée par le score du modèle sur GPQA-Diamond, un benchmark de connaissances scientifiques au niveau master : VibeThinker-3B n'atteint que 70,2, loin derrière les meilleurs modèles. La réaction sur X, résumée par un post ayant dépassé 161 000 vues ("Je ne sais vraiment pas si c'est une percée ou si les benchmarks sont cassés"), illustre le doute croissant sur la valeur réelle de ces classements, devenus l'enjeu central d'un secteur qui peine à distinguer le progrès scientifique de l'optimisation de tests.

UELes entreprises et institutions européennes qui fondent leurs stratégies d'infrastructure IA sur la hiérarchie des benchmarks pourraient devoir réévaluer leurs investissements si des modèles compacts s'avèrent aussi performants en raisonnement que des systèmes massivement plus coûteux.

💬 La vraie info dans ce papier, c'est pas que les benchmarks sont cassés (même si un peu quand même). C'est que le raisonnement vérifiable, les maths, le code, ça se compresse bien dans un petit modèle, alors que la connaissance encyclopédique non. Un 3B qui cartonne sur l'AIME mais tombe à 70% sur GPQA-Diamond, c'est exactement ce que ça prédit, et ça devrait changer la façon dont on choisit ses modèles selon ce qu'on veut vraiment faire.

LLMsPaper
1 source
Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens
2MarkTechPost 

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu
1 source
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
3MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
Microsoft a désormais son propre modèle de raisonnement
4Next INpact 

Microsoft a désormais son propre modèle de raisonnement

Lors de sa conférence BUILD, Microsoft a dévoilé MAI-Thinking-1, son premier modèle de raisonnement maison, marquant une rupture significative dans la stratégie IA de l'entreprise. Ce modèle de type Mixture of Experts (MoE) embarque 35 milliards de paramètres actifs et une fenêtre de contexte de 256 000 tokens, soit l'équivalent d'environ 600 pages. Sur les benchmarks mathématiques AIME 2025 et 2026, il atteint respectivement 97 % et 94,5 %. Microsoft affirme qu'il égale Claude Opus 4.6 sur SWE-Bench Pro, un benchmark de codage, et qu'il a été préféré à Claude Sonnet 4.6 dans des évaluations indépendantes en aveugle conduites par Surge. CNBC rapporte même une démonstration affichant des résultats supérieurs à GPT-5.5 d'OpenAI, avec un coût dix fois inférieur sur des données McKinsey. Le modèle est actuellement en préversion privée via Microsoft Foundry, intégré à GitHub Copilot Enterprise, avec une version pour Azure Confidential Computing annoncée. La famille MAI s'enrichit également de six autres modèles : MAI-Image-2.5 et sa variante Flash pour la génération d'images (déployés dans PowerPoint et OneDrive), et MAI-Transcribe-1.5, présenté comme le meilleur modèle de transcription au monde. Jusqu'à présent, Microsoft occupait surtout le rôle de distributeur de modèles tiers, OpenAI via Copilot, Anthropic via ses assistants, sans disposer de sa propre capacité de raisonnement avancée. L'émergence de MAI-Thinking-1 change fondamentalement cette donne. Pour les entreprises utilisant Azure et GitHub Copilot Enterprise, cela signifie un accès à un modèle de raisonnement compétitif sans dépendre d'un fournisseur externe. Le fait que Microsoft insiste sur un entraînement "from scratch" à partir de données commercialement licenciées, sans distillation depuis d'autres modèles, est aussi un argument juridique et commercial fort pour les clients soucieux de conformité et de propriété intellectuelle. Ce pivot s'explique par une évolution du paysage des alliances. OpenAI, dans lequel Microsoft a investi plusieurs milliards de dollars, suit désormais sa propre trajectoire de manière nettement plus autonome. Anthropic, de son côté, a considérablement gagné en influence, notamment dans les usages développeurs. Pour Redmond, rester dans une position de simple relais devenait stratégiquement risqué. En développant sa propre gamme MAI, Microsoft affirme une indépendance technologique qui lui permet de négocier différemment avec ses partenaires LLM tout en proposant une offre intégrée de bout en bout. La prochaine étape sera la disponibilité générale du modèle et la publication de sa tarification complète sur les tokens de raisonnement, deux inconnues qui détermineront son adoption réelle face à des concurrents déjà bien établis.

UELes entreprises européennes utilisant Azure ou GitHub Copilot Enterprise pourront accéder à un modèle de raisonnement compétitif entraîné sur données commercialement licenciées, un argument de conformité pertinent face aux exigences de l'AI Act et du RGPD.

💬 Microsoft en simple distributeur d'OpenAI et d'Anthropic, ça ne pouvait pas durer. MAI-Thinking-1, c'est leur sortie de cette dépendance, et vu la trajectoire d'OpenAI ces derniers mois, on comprend le timing. Les benchmarks sont convaincants sur le papier (97% sur AIME, parité avec Claude Opus sur SWE-Bench), mais le vrai test, c'est la tarification complète et la sortie de preview.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic