L'ancien responsable de Qwen explique les erreurs du hybrid thinking et pourquoi il mise desormais sur les agents

Junyang Lin, qui dirigeait le projet Qwen chez Alibaba, a annoncé son départ le 3 mars 2026 et se présente désormais comme chercheur indépendant. Dans une conférence intitulée "Qwen : vers un modèle ou agent généraliste", il retrace toute la famille Qwen, de QwQ-32B à Qwen2.5-Max, en passant par Qwen3, Qwen2.5-VL et Qwen2.5-Omni, en comparant leurs performances à celles de DeepSeek-R1, Grok 3 Beta, Gemini 2.5 Pro et la série o d'OpenAI. Qwen3 occupe la place centrale de l'exposé : Lin y détaille les modes de raisonnement hybrides, avec un mode "réflexion" pour le raisonnement pas à pas et un mode "instruction" pour des réponses quasi instantanées, ainsi que des budgets de réflexion ajustables par l'utilisateur. La famille couvre désormais 119 langues et dialectes contre 29 auparavant, avec des tailles allant de 0,6 à 235 milliards de paramètres, disponibles en versions quantifiées GGUF, GPTQ, AWQ et MLX, toutes sous licence Apache 2.0. Les architectures présentées montrent que les petits modèles denses partagent leurs embeddings d'entrée et de sortie avec un contexte de 32 000 tokens, tandis que les modèles plus grands, denses ou à mélange d'experts, abandonnent ce partage et étendent le contexte à 128 000 tokens.
Ce que Lin détaille surtout, c'est la difficulté technique derrière cette fusion des modes de réflexion, un enjeu qui dépasse largement Qwen. Un modèle optimisé pour l'instruction est récompensé pour sa rapidité et sa concision, tandis qu'un modèle de raisonnement est récompensé pour le temps qu'il consacre aux problèmes complexes. Fusionner les deux sans précaution dégrade les deux comportements à la fois. Qwen3 a d'abord tenté cette fusion via un pipeline de post-entraînement en quatre étapes, avant que la lignée 2507, plus tard en 2025, ne revienne à des variantes séparées, une pour l'instruction et une pour le raisonnement. Lin y voit avant tout un problème de données plutôt que d'architecture, et cite en contrepoint la trajectoire d'Anthropic, qui a conservé une approche hybride avec Claude 3.7 Sonnet et son budget de réflexion réglable, puis avec Claude 4 qui entrelace raisonnement et usage d'outils pour le code et les tâches longues.
Cette réflexion s'inscrit dans un basculement plus large que Lin situe entre deux époques. La première, portée par o1 et DeepSeek-R1, a établi que l'apprentissage par renforcement exige des récompenses vérifiables, plaçant les mathématiques, le code et la logique au centre des efforts. La seconde, qu'il appelle la pensée agentique, consiste à raisonner pour agir : planifier, décider quand utiliser un outil, lire les retours de l'environnement et ajuster sa trajectoire. Ses pistes pour la suite incluent davantage de pré-entraînement, du renforcement fondé sur des retours d'environnement, des contextes plus longs et davantage de modalités, résumées dans sa formule finale : entraîner des agents plutôt que de simples modèles.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




