Aller au contenu principal
Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
LLMsMarkTechPost12sem· 1 min de lecture

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Source originale ↗·

Un tutoriel technique détaille comment exécuter les modèles Qwen3.5 distillés avec le raisonnement de style Claude en format GGUF avec quantification 4 bits, directement dans un pipeline Google Colab. L'approche permet de basculer d'une variante 27 milliards de paramètres en GGUF à une version allégée de 2 milliards de paramètres en 4 bits via un simple indicateur de configuration — rendant ces modèles accessibles même sur des GPU grand public.

L'intérêt de cette démarche réside dans la démocratisation des capacités de raisonnement avancé. Les modèles Qwen3.5 ont été distillés à partir du style de raisonnement de Claude Opus 4.6 d'Anthropic, ce qui leur confère des capacités de réflexion structurée en chaîne de pensée. La quantification Q4KM compresse le modèle 27B à environ 16,5 Go, le rendant utilisable sur des accélérateurs accessibles via des environnements cloud gratuits ou peu coûteux.

Sur le plan technique, le pipeline installe conditionnellement soit llama.cpp avec support CUDA pour la variante GGUF, soit transformers avec bitsandbytes pour la version allégée. Les deux branches sont unifiées derrière des interfaces communes generatefn et streamfn, garantissant une inférence cohérente quel que soit le backend. Une classe ChatSession gère les interactions multi-tours, tandis que des utilitaires parsent les balises <think> pour séparer explicitement le raisonnement intermédiaire de la réponse finale — exposant ainsi le processus de réflexion du modèle à l'utilisateur.

Cette approche illustre une tendance de fond : la distillation de raisonnement depuis des modèles frontier vers des architectures plus compactes, combinée aux techniques de quantification, repousse la frontière de ce qui est exécutable localement. Pour les développeurs et chercheurs disposant d'un GPU modeste, c'est une porte d'entrée concrète vers des capacités de raisonnement jusqu'ici réservées aux infrastructures cloud à grande échelle.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens
1MarkTechPost 

Qwen lance Qwen3.7-Max : un modèle agent de raisonnement avec une fenêtre de contexte d'un million de tokens

Alibaba a présenté officiellement Qwen3.7-Max le 20 mai 2026 lors de l'Alibaba Cloud Summit, bien que deux versions preview du modèle aient discrètement fait leur apparition sur le classement Arena AI quelques jours plus tôt, sans communiqué de presse ni accès API annoncé. Le modèle texte uniquement obtient un score de 56,6 sur l'Intelligence Index d'Artificial Analysis, le plaçant cinquième mondial, devant le Gemini 3.5 Flash de Google (55,3) mais derrière GPT-5.5 (60,2) et Claude Opus 4.7 (57,3). Les gains par rapport à son prédécesseur Qwen3.6 Max Preview (51,8) sont concentrés sur le raisonnement scientifique, les tâches agentiques et le code : le benchmark CritPt a progressé de 9,7 points, Humanity's Last Exam de 9,2 points, et Terminal-Bench Hard de 6,9 points. Le modèle dispose d'une fenêtre de contexte d'un million de tokens, quadruplant la capacité des 256 000 tokens de la version précédente, de quoi ingérer un dépôt de code complet ou une grande pile de documents en une seule requête. Ce qui distingue Qwen3.7-Max des modèles classiques, c'est son architecture orientée agent longue durée. L'équipe Qwen le positionne comme son modèle agentique le plus avancé à ce jour, capable de gérer des tâches s'étendant sur des centaines, voire des milliers d'étapes successives : refactoring de code itératif, automatisation de flux bureautiques, orchestration d'outils sur de longues périodes sans intervention humaine. Le modèle utilise un mode de raisonnement étendu où il génère une chaîne de pensée interne avant de produire une réponse, ce qui se traduit par un volume de tokens considérable : lors des tests d'Artificial Analysis, Qwen3.7-Max a produit environ 97 millions de tokens, contre une moyenne de 24 millions pour les autres modèles du même benchmark. Pour des tâches simples, cette latence supplémentaire n'apporte rien ; pour de la planification complexe ou des pipelines agentiques, c'est précisément là que réside la valeur du modèle. Alibaba s'inscrit dans une course mondiale à l'agent IA autonome, où les grands laboratoires cherchent à dépasser les assistants conversationnels pour atteindre des systèmes capables d'exécuter des projets complets en autonomie. La série Qwen3 illustre la montée en puissance des acteurs chinois dans ce domaine : Alibaba se positionne désormais sixième laboratoire mondial en capacités texte et cinquième en vision selon LM Arena. La tarification de Qwen3.7-Max n'est pas encore annoncée, la version précédente étant facturée 1,30 $/7,80 $ le million de tokens en entrée/sortie sur Alibaba Cloud. Le modèle est propriétaire et fermé, et les tests indépendants sur la fiabilité effective de la fenêtre d'un million de tokens restent à venir, la dégradation du raisonnement sur de très longs contextes étant un problème connu dans l'industrie.

LLMsActu
1 source
Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles
2The Decoder 

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion
1 source
Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming
3MarkTechPost 

Construire des systèmes à base d'agents prêts pour la production avec Z.AI GLM-5 : raisonnement, appel d'outils et streaming

Z.AI a publié un tutoriel complet présentant les capacités avancées de son modèle GLM-5, conçu pour construire des systèmes agentiques prêts pour la production. Le guide couvre l'intégralité du cycle de développement : configuration via le SDK Z.AI (compatible avec l'interface OpenAI), réponses en streaming, mode de raisonnement approfondi (dit "thinking mode"), conversations multi-tours, appels de fonctions, sorties structurées, et construction d'un agent multi-outils complet. L'installation se fait via pip avec les paquets zai-sdk et openai, et l'authentification repose sur une clé API obtenue gratuitement sur z.ai. Dès les premières lignes de code, GLM-5 répond à des questions techniques — comme expliquer l'architecture Mixture-of-Experts en trois phrases — avec une consommation de tokens détaillée et un contrôle fin via les paramètres temperature et max_tokens. Ce qui distingue GLM-5 des modèles classiques est son mode de raisonnement enchaîné (chain-of-thought), qui expose le processus interne du modèle avant de fournir une réponse finale. Sur des problèmes logiques ou mathématiques — l'exemple du fermier avec 17 moutons dont "tous sauf 9 s'enfuient" illustre le piège classique de la lecture rapide — le modèle affiche séparément son raisonnement intermédiaire et sa conclusion. Cette transparence est particulièrement précieuse pour les équipes qui déploient des agents autonomes dans des contextes critiques : débogage plus facile, auditabilité améliorée, et meilleure confiance dans les décisions du modèle. Le streaming en temps réel des tokens, géré chunk par chunk, rend l'expérience utilisateur fluide même pour des réponses longues et complexes. GLM-5 s'inscrit dans la dynamique actuelle d'ouverture des modèles chinois à l'écosystème international. Z.AI, filiale de Zhipu AI — laboratoire issu de l'Université Tsinghua — positionne GLM-5 comme un concurrent direct aux modèles d'OpenAI et Anthropic, avec une compatibilité API volontairement calquée sur le standard OpenAI pour faciliter la migration. La prise en charge native du function calling et des sorties structurées permet d'intégrer GLM-5 dans des pipelines d'automatisation complexes sans couche d'adaptation. Alors que les entreprises cherchent à diversifier leurs dépendances vis-à-vis des fournisseurs américains, ce type de modèle — accessible, documenté, et compatible avec les outils existants — représente une alternative crédible pour les développeurs européens et asiatiques construisant des applications d'IA en production.

UEGLM-5 offre aux développeurs européens une alternative compatible OpenAI pour diversifier leurs dépendances vis-à-vis des fournisseurs américains, accessible gratuitement via une clé API.

LLMsTuto
1 source
Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0
4VentureBeat AI 

Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0

Le laboratoire canadien d'intelligence artificielle Cohere a dévoilé Command A+, un modèle de langage de 218 milliards de paramètres conçu pour le raisonnement complexe, le traitement de documents multimodaux et les workflows agentiques. La particularité de cette annonce réside dans sa licence : pour la première fois de son histoire, Cohere publie ses poids sous licence Apache 2.0, une des licences open source les plus permissives, disponibles gratuitement sur Hugging Face. Le modèle repose sur une architecture Sparse Mixture-of-Experts (MoE) : seulement 25 milliards de paramètres sur les 218 sont activés lors de chaque génération. Cette efficacité architecturale est renforcée par une quantification poussée. Command A+ est disponible en format 4-bit (W4A4), ce qui lui permet de tourner sur un seul GPU NVIDIA Blackwell B200 ou deux NVIDIA H100, tout en atteignant 375 tokens par seconde avec une latence de 113 millisecondes au premier token, soit 63 % plus rapide et 17 % moins de latence que son prédécesseur Command A Reasoning. Un tokeniseur entièrement repensé assure par ailleurs un support natif de 48 langues, avec une meilleure efficacité pour les langues non européennes. Ce lancement marque une percée technique sur la quantification sans perte, un problème qui freinait jusqu'ici l'adoption des grands modèles en production. En ne quantifiant à 4 bits que les réseaux d'experts MoE tout en conservant la pleine précision sur les couches d'attention, et en appliquant une technique appelée Quantization-Aware Distillation, Cohere parvient à comprimer massivement le modèle sans dégrader ses capacités de raisonnement. Pour les entreprises, cela signifie concrètement qu'un modèle de niveau frontier peut désormais s'exécuter en interne, sur leur propre infrastructure, sans dépendre d'API tierces ni exposer leurs données sensibles à des tiers. C'est une rupture nette avec les modèles propriétaires de OpenAI ou Anthropic, estimés à plusieurs milliers de milliards de paramètres et uniquement accessibles via le cloud. Ce pari s'inscrit dans la stratégie dite d'IA souveraine défendue par Aidan Gomez, cofondateur de Cohere et ancien chercheur chez Google, l'un des auteurs du célèbre article « Attention Is All You Need » qui a posé les bases des transformers modernes. L'idée est de permettre aux gouvernements, grandes entreprises et développeurs de déployer des modèles de niveau frontier entièrement sous leur contrôle. Cette publication intervient peu après l'annonce d'une fusion entre Cohere et le laboratoire allemand Aleph Alpha, deux acteurs qui misent sur la souveraineté numérique face à la domination américaine. Avec Command A+, Cohere ne s'attaque pas seulement au marché des API cloud : il repositionne l'open source comme une réponse crédible aux géants propriétaires, au moment où les exigences réglementaires et la sensibilité aux données poussent de plus en plus d'organisations à reprendre la main sur leur infrastructure IA.

UELa fusion Cohere–Aleph Alpha et la licence Apache 2.0 de Command A+ permettent aux organisations européennes de déployer un modèle frontier en interne sur leur propre infrastructure, renforçant la souveraineté numérique face aux plateformes cloud américaines et facilitant la conformité à l'AI Act.

💬 Deux H100 pour un modèle de 218 milliards de paramètres sans perte de qualité, c'est pas rien. La technique qui quantifie uniquement les couches MoE tout en gardant la pleine précision sur l'attention, c'est une vraie trouvaille, pas juste de la compression agressive qui dégrade en douce. Et Cohere qui ouvre ses poids en Apache 2.0 pour la première fois de son histoire, ça c'est le signal fort pour toutes les orgas européennes qui voulaient du souverain sans se faire distancer techniquement.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic