
Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab
Liquid AI a publié LFM2, un modèle de langage conçu pour fonctionner efficacement sur des appareils à ressources limitées, et un tutoriel complet détaille désormais comment le personnaliser sur Google Colab via une chaîne d'outils entièrement open source. Le workflow s'appuie sur QLoRA (Quantized Low-Rank Adaptation), qui permet de charger le modèle en précision 4 bits via bitsandbytes, réduisant drastiquement l'empreinte mémoire GPU. On part du checkpoint de base LFM2-1.2B, disponible sur Hugging Face sous l'identifiant LiquidAI/LFM2-1.2B, pour enchaîner deux étapes d'entraînement : d'abord un ajustement supervisé (SFT) sur 500 exemples du dataset HuggingFaceTB/smoltalk en 60 étapes, puis un alignement par préférences via DPO (Direct Preference Optimization) en 40 étapes supplémentaires. Les bibliothèques utilisées sont transformers (version 4.55 minimum), TRL, PEFT, accelerate et datasets. Un adaptateur LoRA de rang 16 est entraîné puis fusionné dans le modèle, produisant un checkpoint prêt au déploiement.
Ce type de pipeline démocratise concrètement la personnalisation de modèles pour des développeurs sans infrastructure dédiée : l'ensemble du processus tient sur un GPU Colab gratuit ou pro, là où un fine-tuning classique nécessiterait plusieurs GPU A100. La combinaison SFT + DPO représente aujourd'hui la méthode de référence pour obtenir un modèle à la fois instruit (qui suit des consignes) et aligné (qui préfère des réponses de qualité à des réponses médiocres). L'intérêt particulier de LFM2 réside dans son architecture optimisée pour l'inférence on-device, ce qui rend ce tutoriel utile non seulement pour le prototypage cloud, mais aussi pour préparer des modèles embarqués sur mobile ou edge hardware.
Liquid AI est une startup fondée en 2023 par des chercheurs du MIT, connue pour ses modèles Liquid Foundation Models (LFM) basés sur des architectures d'équations différentielles neuronales, alternatives aux transformeurs classiques. LFM2 marque une nouvelle génération de ces modèles, avec un accent mis sur l'efficacité computationnelle. Le recours à DPO plutôt qu'au classique RLHF (Reinforcement Learning from Human Feedback) s'inscrit dans une tendance forte depuis 2023 : DPO élimine le modèle de récompense intermédiaire, simplifiant l'entraînement tout en produisant des résultats comparables. La mise à disposition de ce guide complet avec code exécutable sur Colab s'inscrit dans une dynamique plus large de démocratisation du fine-tuning, portée par Hugging Face et la communauté open source, face aux modèles propriétaires d'OpenAI ou Anthropic qui restent des boîtes noires non personnalisables.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



