Aller au contenu principal
LLMsMarkTechPost6sem

Tutoriel : faire tourner PrismML Bonsai LLM 1-bit sur CUDA avec GGUF, benchmarks, chat, JSON et RAG

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

PrismML a publié une pile de déploiement optimisée pour faire tourner Bonsai, un modèle de langage de 1,7 milliard de paramètres quantifié à 1 bit, sur GPU via accélération CUDA. Le modèle utilise le format GGUF avec une quantisation Q1\0\g128, et s'appuie sur une version personnalisée de llama.cpp distribuée par PrismML-Eng sur GitHub sous la balise de version prism-b8194-1179bfc. Un tutoriel complet détaille l'installation de l'environnement depuis Google Colab : vérification du GPU et de la version CUDA, installation des dépendances Python (huggingface\_hub, requests, tqdm, openai), téléchargement des binaires précompilés adaptés à la version CUDA détectée (12.4, 12.8 ou 13.1), puis chargement du modèle Bonsai-1.7B pour l'inférence. Le guide couvre ensuite sept cas d'usage concrets : inférence de base, benchmarking, conversation multi-tours, génération JSON structurée, génération de code, mode serveur compatible avec l'API OpenAI, et un pipeline RAG (retrieval-augmented generation) minimal.

L'intérêt principal de Bonsai réside dans son empreinte mémoire extrêmement réduite grâce à la quantisation 1 bit : là où un modèle de 1,7 milliard de paramètres en FP16 occuperait environ 3,4 Go de VRAM, la version 1 bit descend bien en dessous de 1 Go, rendant le modèle utilisable sur des GPU d'entrée de gamme ou dans des environnements cloud à ressources limitées. La compatibilité avec le serveur OpenAI permet de brancher Bonsai directement sur des applications existantes sans modifier le code client. Pour les développeurs qui construisent des agents, des chatbots ou des pipelines RAG sur du matériel modeste, c'est une alternative sérieuse aux modèles quantifiés classiques en 4 ou 8 bits.

La quantisation à 1 bit est une direction de recherche active depuis la publication de BitNet par Microsoft en 2023, qui avait montré qu'un modèle entraîné nativement en 1 bit pouvait conserver une qualité compétitive à faible coût computationnel. Bonsai s'inscrit dans cette lignée, et PrismML mise sur llama.cpp comme moteur d'inférence universel, bien implanté dans la communauté open source depuis sa création par Georgi Gerganov fin 2022. Le format GGUF, successeur de GGML, est aujourd'hui le standard de facto pour le déploiement local de LLMs quantifiés. La prochaine étape logique pour PrismML sera de proposer des modèles Bonsai dans des tailles supérieures (7B, 13B) pour mesurer si la qualité tient à plus grande échelle, et de valider les performances sur des benchmarks standardisés face à des modèles comme Phi-3 Mini ou Gemma 3.

💬 Le point de vue du dev

Moins d'1 Go de VRAM pour faire tourner un LLM complet, c'est le genre de chiffre qui change vraiment ce qu'on peut faire sur du matos lambda. La compatibilité API OpenAI en prime, ça veut dire qu'on branche ça sur un projet existant en cinq minutes. Bon, 1,7B de paramètres ça reste petit, reste à voir ce que ça vaut sur des tâches un peu exigeantes face à un Phi-3 Mini bien quantifié en 4 bits.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits
1MarkTechPost 

Faire tourner les modèles de raisonnement Qwen3.5 distillés façon Claude en GGUF avec quantification 4 bits

Des développeurs ont publié un tutoriel détaillé expliquant comment déployer les modèles Qwen3.5 distillés avec le style de raisonnement de Claude — notamment les variantes 27B en format GGUF et 2B en quantification 4 bits — directement dans Google Colab. Le pipeline proposé permet de basculer entre les deux variantes via un simple indicateur booléen, offrant ainsi une flexibilité rare entre puissance de raisonnement et contraintes matérielles. Le modèle 27B, hébergé sur Hugging Face sous l'identifiant Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF, pèse environ 16,5 Go une fois compressé en Q4KM, tandis que la version 2B s'appuie sur les librairies transformers et bitsandbytes pour une empreinte mémoire bien plus légère. Les deux chemins d'exécution sont unifiés derrière des interfaces communes generatefn et streamfn, auxquelles s'ajoute une classe ChatSession gérant les conversations multi-tours et un parseur de traces ` pour séparer explicitement le raisonnement intermédiaire de la réponse finale. Ce type d'implémentation ouvre concrètement l'accès à des modèles de raisonnement avancés à des développeurs qui ne disposent pas d'infrastructure dédiée. La quantification 4 bits permet de faire tourner un modèle de 27 milliards de paramètres sur un simple GPU T4 de Colab, ce qui était inaccessible il y a encore deux ans. La possibilité d'inspecter les traces de raisonnement — les chaînes de pensée encapsulées dans les balises ` — est particulièrement précieuse pour le débogage, l'évaluation et la recherche sur les comportements des LLM. Pour les équipes souhaitant intégrer du raisonnement structuré dans leurs applications sans dépendre d'API propriétaires, cette approche locale représente une alternative sérieuse. Ce tutoriel s'inscrit dans une tendance de fond : la distillation de comportements propres aux grands modèles commerciaux vers des modèles open source plus petits et autonomes. Qwen3.5, développé par Alibaba, fait partie des modèles open weight les plus performants du moment, et sa distillation avec le style de raisonnement de Claude 4.6 Opus illustre comment les techniques d'entraînement des laboratoires de pointe — Anthropic en tête — se diffusent rapidement dans l'écosystème ouvert. La quantification GGUF via llama.cpp, couplée aux outils Hugging Face, est désormais la voie standard pour démocratiser ces modèles. La prochaine étape naturelle sera l'intégration de ces pipelines dans des agents autonomes capables de raisonner en plusieurs étapes sur des tâches complexes, sans appel à des services cloud.

LLMsTuto
1 source
Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab
2MarkTechPost 

Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab

Liquid AI a publié LFM2, un modèle de langage conçu pour fonctionner efficacement sur des appareils à ressources limitées, et un tutoriel complet détaille désormais comment le personnaliser sur Google Colab via une chaîne d'outils entièrement open source. Le workflow s'appuie sur QLoRA (Quantized Low-Rank Adaptation), qui permet de charger le modèle en précision 4 bits via bitsandbytes, réduisant drastiquement l'empreinte mémoire GPU. On part du checkpoint de base LFM2-1.2B, disponible sur Hugging Face sous l'identifiant LiquidAI/LFM2-1.2B, pour enchaîner deux étapes d'entraînement : d'abord un ajustement supervisé (SFT) sur 500 exemples du dataset HuggingFaceTB/smoltalk en 60 étapes, puis un alignement par préférences via DPO (Direct Preference Optimization) en 40 étapes supplémentaires. Les bibliothèques utilisées sont transformers (version 4.55 minimum), TRL, PEFT, accelerate et datasets. Un adaptateur LoRA de rang 16 est entraîné puis fusionné dans le modèle, produisant un checkpoint prêt au déploiement. Ce type de pipeline démocratise concrètement la personnalisation de modèles pour des développeurs sans infrastructure dédiée : l'ensemble du processus tient sur un GPU Colab gratuit ou pro, là où un fine-tuning classique nécessiterait plusieurs GPU A100. La combinaison SFT + DPO représente aujourd'hui la méthode de référence pour obtenir un modèle à la fois instruit (qui suit des consignes) et aligné (qui préfère des réponses de qualité à des réponses médiocres). L'intérêt particulier de LFM2 réside dans son architecture optimisée pour l'inférence on-device, ce qui rend ce tutoriel utile non seulement pour le prototypage cloud, mais aussi pour préparer des modèles embarqués sur mobile ou edge hardware. Liquid AI est une startup fondée en 2023 par des chercheurs du MIT, connue pour ses modèles Liquid Foundation Models (LFM) basés sur des architectures d'équations différentielles neuronales, alternatives aux transformeurs classiques. LFM2 marque une nouvelle génération de ces modèles, avec un accent mis sur l'efficacité computationnelle. Le recours à DPO plutôt qu'au classique RLHF (Reinforcement Learning from Human Feedback) s'inscrit dans une tendance forte depuis 2023 : DPO élimine le modèle de récompense intermédiaire, simplifiant l'entraînement tout en produisant des résultats comparables. La mise à disposition de ce guide complet avec code exécutable sur Colab s'inscrit dans une dynamique plus large de démocratisation du fine-tuning, portée par Hugging Face et la communauté open source, face aux modèles propriétaires d'OpenAI ou Anthropic qui restent des boîtes noires non personnalisables.

LLMsTuto
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
3MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro
4VentureBeat AI 

L'IA passe à la journée de 8 heures : GLM lance son LLM 5.1 open source et bat Opus 4.6 et GPT 5.4 sur SWE-Bench Pro

Z.ai, startup chinoise cotée à la Bourse de Hong Kong depuis début 2026 avec une capitalisation de 52,83 milliards de dollars, a publié le 7 avril 2026 son modèle GLM-5.1 sous licence MIT, permettant à toute entreprise de le télécharger, l'adapter et l'exploiter commercialement via Hugging Face. Ce modèle de 754 milliards de paramètres en architecture Mixture-of-Experts dispose d'une fenêtre de contexte de 202 752 tokens. Sa caractéristique principale est sa capacité à travailler de façon autonome jusqu'à huit heures consécutives sur une tâche complexe, enchaînant jusqu'à 1 700 étapes d'exécution et plusieurs milliers d'appels d'outils, contre une vingtaine d'étapes pour les meilleurs modèles fin 2024 selon le fondateur Lou. Sur le benchmark SWE-Bench Pro, il dépasse Claude Opus 4.6 et GPT-5.4, deux des références actuelles en ingénierie logicielle automatisée. Ce lancement illustre une rupture dans la façon de concevoir la performance des modèles d'IA. Là où la concurrence investit massivement dans les tokens de raisonnement pour gagner en logique à court terme, Z.ai parie sur l'endurance : la capacité d'un modèle à maintenir sa cohérence d'objectif sur des séquences d'exécution très longues. Les tests publiés dans leur rapport technique sont frappants : chargé d'optimiser une base de données vectorielle en Rust (benchmark VectorDBBench), GLM-5.1 a enchaîné 655 itérations et plus de 6 000 appels d'outils, atteignant 21 500 requêtes par seconde, contre 3 547 pour Claude Opus 4.6 dans les meilleures conditions. Le modèle a identifié et résolu six goulots d'étranglement structurels, introduisant de lui-même des techniques comme le IVF cluster probing, la compression vectorielle f16 ou un pipeline à deux étages combinant présélection u8 et reclassement f16. Ce n'est plus un assistant, c'est un département R&D autonome. Le contexte de cette publication est stratégique. Z.ai, connue pour sa famille de modèles GLM open source, avait sorti le mois précédent GLM-5 Turbo sous licence propriétaire uniquement. Le choix du MIT pour GLM-5.1 est délibéré : il s'agit de capter la communauté des développeurs et de s'imposer comme le principal acteur indépendant de LLM en Asie, à l'heure où la Chine tente de reprendre la main sur l'IA open source face aux modèles américains à accès restreint. La notion de "temps de travail autonome" que Lou décrit comme "la courbe la plus importante après les lois d'échelle" pourrait redéfinir les critères d'évaluation de l'industrie entière. Si ce cap se confirme, les prochaines versions de modèles concurrents devront répondre non plus uniquement sur la précision à court terme, mais sur leur capacité à tenir la distance sur des projets entiers.

UELes entreprises et développeurs européens peuvent télécharger et exploiter GLM-5.1 librement sous licence MIT via Hugging Face, offrant une alternative open source compétitive aux modèles propriétaires américains pour des tâches d'ingénierie logicielle autonome longue durée.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour