Aller au contenu principal
Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab
LLMsMarkTechPost4h

Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab

Résumé IASource uniqueImpact UE
Source originale ↗·

Liquid AI a publié LFM2, un modèle de langage conçu pour fonctionner efficacement sur des appareils à ressources limitées, et un tutoriel complet détaille désormais comment le personnaliser sur Google Colab via une chaîne d'outils entièrement open source. Le workflow s'appuie sur QLoRA (Quantized Low-Rank Adaptation), qui permet de charger le modèle en précision 4 bits via bitsandbytes, réduisant drastiquement l'empreinte mémoire GPU. On part du checkpoint de base LFM2-1.2B, disponible sur Hugging Face sous l'identifiant LiquidAI/LFM2-1.2B, pour enchaîner deux étapes d'entraînement : d'abord un ajustement supervisé (SFT) sur 500 exemples du dataset HuggingFaceTB/smoltalk en 60 étapes, puis un alignement par préférences via DPO (Direct Preference Optimization) en 40 étapes supplémentaires. Les bibliothèques utilisées sont transformers (version 4.55 minimum), TRL, PEFT, accelerate et datasets. Un adaptateur LoRA de rang 16 est entraîné puis fusionné dans le modèle, produisant un checkpoint prêt au déploiement.

Ce type de pipeline démocratise concrètement la personnalisation de modèles pour des développeurs sans infrastructure dédiée : l'ensemble du processus tient sur un GPU Colab gratuit ou pro, là où un fine-tuning classique nécessiterait plusieurs GPU A100. La combinaison SFT + DPO représente aujourd'hui la méthode de référence pour obtenir un modèle à la fois instruit (qui suit des consignes) et aligné (qui préfère des réponses de qualité à des réponses médiocres). L'intérêt particulier de LFM2 réside dans son architecture optimisée pour l'inférence on-device, ce qui rend ce tutoriel utile non seulement pour le prototypage cloud, mais aussi pour préparer des modèles embarqués sur mobile ou edge hardware.

Liquid AI est une startup fondée en 2023 par des chercheurs du MIT, connue pour ses modèles Liquid Foundation Models (LFM) basés sur des architectures d'équations différentielles neuronales, alternatives aux transformeurs classiques. LFM2 marque une nouvelle génération de ces modèles, avec un accent mis sur l'efficacité computationnelle. Le recours à DPO plutôt qu'au classique RLHF (Reinforcement Learning from Human Feedback) s'inscrit dans une tendance forte depuis 2023 : DPO élimine le modèle de récompense intermédiaire, simplifiant l'entraînement tout en produisant des résultats comparables. La mise à disposition de ce guide complet avec code exécutable sur Colab s'inscrit dans une dynamique plus large de démocratisation du fine-tuning, portée par Hugging Face et la communauté open source, face aux modèles propriétaires d'OpenAI ou Anthropic qui restent des boîtes noires non personnalisables.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
1MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
2MarkTechPost 

Tutoriel : faire tourner PrismML Bonsai LLM 1-bit sur CUDA avec GGUF, benchmarks, chat, JSON et RAG

PrismML a publié une pile de déploiement optimisée pour faire tourner Bonsai, un modèle de langage de 1,7 milliard de paramètres quantifié à 1 bit, sur GPU via accélération CUDA. Le modèle utilise le format GGUF avec une quantisation Q1\0\g128, et s'appuie sur une version personnalisée de llama.cpp distribuée par PrismML-Eng sur GitHub sous la balise de version prism-b8194-1179bfc. Un tutoriel complet détaille l'installation de l'environnement depuis Google Colab : vérification du GPU et de la version CUDA, installation des dépendances Python (huggingface\_hub, requests, tqdm, openai), téléchargement des binaires précompilés adaptés à la version CUDA détectée (12.4, 12.8 ou 13.1), puis chargement du modèle Bonsai-1.7B pour l'inférence. Le guide couvre ensuite sept cas d'usage concrets : inférence de base, benchmarking, conversation multi-tours, génération JSON structurée, génération de code, mode serveur compatible avec l'API OpenAI, et un pipeline RAG (retrieval-augmented generation) minimal. L'intérêt principal de Bonsai réside dans son empreinte mémoire extrêmement réduite grâce à la quantisation 1 bit : là où un modèle de 1,7 milliard de paramètres en FP16 occuperait environ 3,4 Go de VRAM, la version 1 bit descend bien en dessous de 1 Go, rendant le modèle utilisable sur des GPU d'entrée de gamme ou dans des environnements cloud à ressources limitées. La compatibilité avec le serveur OpenAI permet de brancher Bonsai directement sur des applications existantes sans modifier le code client. Pour les développeurs qui construisent des agents, des chatbots ou des pipelines RAG sur du matériel modeste, c'est une alternative sérieuse aux modèles quantifiés classiques en 4 ou 8 bits. La quantisation à 1 bit est une direction de recherche active depuis la publication de BitNet par Microsoft en 2023, qui avait montré qu'un modèle entraîné nativement en 1 bit pouvait conserver une qualité compétitive à faible coût computationnel. Bonsai s'inscrit dans cette lignée, et PrismML mise sur llama.cpp comme moteur d'inférence universel, bien implanté dans la communauté open source depuis sa création par Georgi Gerganov fin 2022. Le format GGUF, successeur de GGML, est aujourd'hui le standard de facto pour le déploiement local de LLMs quantifiés. La prochaine étape logique pour PrismML sera de proposer des modèles Bonsai dans des tailles supérieures (7B, 13B) pour mesurer si la qualité tient à plus grande échelle, et de valider les performances sur des benchmarks standardisés face à des modèles comme Phi-3 Mini ou Gemma 3.

💬 Moins d'1 Go de VRAM pour faire tourner un LLM complet, c'est le genre de chiffre qui change vraiment ce qu'on peut faire sur du matos lambda. La compatibilité API OpenAI en prime, ça veut dire qu'on branche ça sur un projet existant en cinq minutes. Bon, 1,7B de paramètres ça reste petit, reste à voir ce que ça vaut sur des tâches un peu exigeantes face à un Phi-3 Mini bien quantifié en 4 bits.

LLMsTuto
1 source
Affiner un LLM avec Databricks Unity Catalog et Amazon SageMaker AI
3AWS ML Blog 

Affiner un LLM avec Databricks Unity Catalog et Amazon SageMaker AI

Amazon Web Services et Databricks ont publié un guide technique détaillant comment affiner des grands modèles de langage (LLM) en combinant Amazon SageMaker AI, Amazon EMR Serverless et Databricks Unity Catalog, le tout en maintenant une gouvernance stricte des données. L'architecture présentée repose sur un flux en quatre étapes : les données d'entraînement sont lues depuis une table gérée par Unity Catalog, prétraitées via un job EMR Serverless utilisant Apache Spark, puis utilisées pour affiner le modèle Ministral-3B-Instruct de Mistral AI via SageMaker AI Training. Les artefacts du modèle entraîné sont enfin réenregistrés dans Unity Catalog, avec traçabilité complète de la lignée des données. Les credentials OAuth sont stockés dans AWS Secrets Manager, et les données transitent exclusivement via Amazon S3 sans jamais contourner les contrôles d'autorisation d'Unity Catalog. Cette intégration répond à un problème concret qui touche les entreprises opérant dans des secteurs régulés : lorsque SageMaker accède directement aux objets S3 sans passer par Unity Catalog, la traçabilité des données disparaît. Impossible alors de savoir quelles données ont servi à entraîner quel modèle, ce qui constitue un risque de conformité majeur dans les environnements de production. En forçant tout accès à transiter par les API REST ouvertes d'Unity Catalog avec authentification OAuth, la solution préserve la visibilité complète sur la lignée des données, de la source brute jusqu'au modèle final enregistré. Cela permet aux équipes data de continuer à utiliser SageMaker AI Studio comme environnement d'orchestration et d'entraînement sans sacrifier les politiques de gouvernance centralisées imposées par les équipes de conformité. Ce guide s'inscrit dans une tendance plus large de l'industrie cloud : les hyperscalers et les éditeurs de plateformes de données cherchent à proposer des intégrations natives pour éviter que la flexibilité des services managés ne crée des angles morts réglementaires. Databricks, valorisé à 62 milliards de dollars lors de sa dernière levée de fonds en 2024, a fait de Unity Catalog le pilier central de sa stratégie de gouvernance des données et de l'IA, et multiplie les partenariats avec AWS pour que ses couches de contrôle s'appliquent même lorsque le calcul est délégué à des services tiers comme SageMaker ou EMR. Pour les entreprises qui ont standardisé sur Databricks pour la gouvernance tout en restant attachées aux services ML d'AWS, cette architecture offre un chemin viable pour affiner des LLM en production sans compromettre leurs obligations d'audit. La prochaine étape logique sera d'étendre ce patron à d'autres modèles et à des workflows d'inférence, pas seulement d'entraînement.

UELes entreprises européennes soumises au RGPD et à l'AI Act peuvent s'appuyer sur cette architecture pour garantir la traçabilité complète des données d'entraînement de leurs LLM, répondant aux exigences d'audit et de conformité imposées par les régulateurs.

LLMsTuto
1 source
Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor
4MarkTechPost 

Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor

Un tutoriel technique publié récemment propose une implémentation complète pour compresser et évaluer des modèles de langage ajustés par instruction, en comparant trois méthodes de quantification post-entraînement : FP8 dynamique, GPTQ W4A16, et SmoothQuant combiné à GPTQ W8A8. Le point de départ est le modèle Qwen2.5-0.5B-Instruct de l'entreprise chinoise Alibaba, utilisé en baseline FP16. L'ensemble du pipeline repose sur la bibliothèque open source llmcompressor, associée à compressed-tensors et à l'écosystème HuggingFace Transformers. Chaque variante compressée est évaluée selon cinq critères mesurables : taille sur disque, latence de génération, débit en tokens par seconde, perplexité sur WikiText-2, et qualité subjective des réponses générées. La valeur concrète de ce travail réside dans la mise en évidence des compromis réels entre performance et efficacité pour le déploiement en production. La quantification réduit la mémoire GPU nécessaire et accélère l'inférence, deux contraintes centrales pour toute équipe souhaitant servir un LLM à moindre coût. En passant de FP16 à FP8 ou à W4A16, on peut diviser la taille du modèle par deux ou plus, avec un impact variable sur la perplexité selon la méthode choisie. SmoothQuant, qui lisse les distributions d'activation avant de quantifier, permet d'appliquer une quantification 8 bits sur les poids et les activations simultanément, ce qui se traduit par un meilleur rapport qualité-compression que la quantification naïve. Pour les équipes qui doivent faire tourner des modèles sur du matériel contraint, comme un GPU T4 de Google Colab, ces différences ne sont pas théoriques mais directement opérationnelles. La quantification post-entraînement s'est imposée comme l'une des réponses pratiques à l'explosion de la taille des modèles de langage depuis 2022. Là où le fine-tuning quantifié (QAT) nécessite de réentraîner le modèle, le PTQ agit après coup sur les poids déjà entraînés, ce qui le rend bien plus accessible. Des outils comme llmcompressor, développé par la startup Neural Magic (rachetée par Red Hat en 2024), ou AWQ et GGUF popularisés par llama.cpp, ont démocratisé ces techniques. Le choix de Qwen2.5 comme modèle de référence est révélateur : avec 0,5 milliard de paramètres, il reste assez léger pour tourner sur un GPU grand public tout en étant représentatif des architectures modernes. Les prochaines étapes naturelles de ce type de travail incluent l'extension à des modèles plus grands, l'intégration de frameworks de serving comme vLLM ou TGI, et la comparaison avec des approches de pruning structuré ou de distillation.

UELes techniques de quantification présentées permettent aux équipes européennes de servir des LLMs sur du matériel contraint sans dépendre d'infrastructures cloud coûteuses, s'appuyant sur l'écosystème HuggingFace Transformers, dont la startup est à forte présence en France.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour