Aller au contenu principal
Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor
LLMsMarkTechPost6sem· 2 min de lecture

Compresser et évaluer des LLMs affinés par instruction avec FP8, GPTQ et SmoothQuant via llmcompressor

Source originale ↗·

Un tutoriel technique publié récemment propose une implémentation complète pour compresser et évaluer des modèles de langage ajustés par instruction, en comparant trois méthodes de quantification post-entraînement : FP8 dynamique, GPTQ W4A16, et SmoothQuant combiné à GPTQ W8A8. Le point de départ est le modèle Qwen2.5-0.5B-Instruct de l'entreprise chinoise Alibaba, utilisé en baseline FP16. L'ensemble du pipeline repose sur la bibliothèque open source llmcompressor, associée à compressed-tensors et à l'écosystème HuggingFace Transformers. Chaque variante compressée est évaluée selon cinq critères mesurables : taille sur disque, latence de génération, débit en tokens par seconde, perplexité sur WikiText-2, et qualité subjective des réponses générées.

La valeur concrète de ce travail réside dans la mise en évidence des compromis réels entre performance et efficacité pour le déploiement en production. La quantification réduit la mémoire GPU nécessaire et accélère l'inférence, deux contraintes centrales pour toute équipe souhaitant servir un LLM à moindre coût. En passant de FP16 à FP8 ou à W4A16, on peut diviser la taille du modèle par deux ou plus, avec un impact variable sur la perplexité selon la méthode choisie. SmoothQuant, qui lisse les distributions d'activation avant de quantifier, permet d'appliquer une quantification 8 bits sur les poids et les activations simultanément, ce qui se traduit par un meilleur rapport qualité-compression que la quantification naïve. Pour les équipes qui doivent faire tourner des modèles sur du matériel contraint, comme un GPU T4 de Google Colab, ces différences ne sont pas théoriques mais directement opérationnelles.

La quantification post-entraînement s'est imposée comme l'une des réponses pratiques à l'explosion de la taille des modèles de langage depuis 2022. Là où le fine-tuning quantifié (QAT) nécessite de réentraîner le modèle, le PTQ agit après coup sur les poids déjà entraînés, ce qui le rend bien plus accessible. Des outils comme llmcompressor, développé par la startup Neural Magic (rachetée par Red Hat en 2024), ou AWQ et GGUF popularisés par llama.cpp, ont démocratisé ces techniques. Le choix de Qwen2.5 comme modèle de référence est révélateur : avec 0,5 milliard de paramètres, il reste assez léger pour tourner sur un GPU grand public tout en étant représentatif des architectures modernes. Les prochaines étapes naturelles de ce type de travail incluent l'extension à des modèles plus grands, l'intégration de frameworks de serving comme vLLM ou TGI, et la comparaison avec des approches de pruning structuré ou de distillation.

Impact France/UE

Les techniques de quantification présentées permettent aux équipes européennes de servir des LLMs sur du matériel contraint sans dépendre d'infrastructures cloud coûteuses, s'appuyant sur l'écosystème HuggingFace Transformers, dont la startup est à forte présence en France.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Affinage par renforcement avec un LLM comme évaluateur
1AWS ML Blog 

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
2MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source
Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné
3The Decoder 

Qwen3.5-Omni a appris à coder à partir d'instructions vocales et vidéo sans y avoir été entraîné

Alibaba a publié Qwen3.5-Omni, un nouveau modèle d'intelligence artificielle omnimodal capable de traiter simultanément du texte, des images, de l'audio et de la vidéo. Selon l'entreprise, le modèle surpasse Gemini 2.5 Pro sur les tâches de compréhension audio. Mais c'est une capacité émergente, non prévue lors de l'entraînement, qui a le plus retenu l'attention : Qwen3.5-Omni est capable d'écrire du code à partir d'instructions orales combinées à des entrées vidéo, une compétence que personne ne lui a explicitement enseignée. Ce phénomène d'émergence spontanée illustre une tendance de fond dans les grands modèles multimodaux : en apprenant à connecter plusieurs modalités sensorielles, ces systèmes développent des compétences transversales imprévues qui dépassent leurs objectifs d'entraînement initiaux. Pour les développeurs, cela ouvre des perspectives concrètes — imaginer un assistant capable de regarder un écran, d'écouter une demande vocale et de produire directement le code correspondant, sans interaction textuelle intermédiaire. Alibaba positionne Qwen3.5-Omni dans une course multimodale qui oppose désormais directement les acteurs chinois aux laboratoires américains. La série Qwen a déjà produit plusieurs modèles qui ont surpris par leurs performances, notamment sur des benchmarks de code et de raisonnement. Face à Google avec Gemini, OpenAI avec GPT-4o et ses variantes vocales, et Meta avec ses modèles ouverts, Alibaba cherche à s'imposer comme un acteur de référence sur le segment des modèles capables de percevoir et d'agir sur l'ensemble des modalités humaines. La publication de Qwen3.5-Omni renforce cette ambition.

LLMsOpinion
1 source
Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab
4MarkTechPost 

Tutoriel : affiner LFM2 avec QLoRA et DPO sur Google Colab

Liquid AI a publié LFM2, un modèle de langage conçu pour fonctionner efficacement sur des appareils à ressources limitées, et un tutoriel complet détaille désormais comment le personnaliser sur Google Colab via une chaîne d'outils entièrement open source. Le workflow s'appuie sur QLoRA (Quantized Low-Rank Adaptation), qui permet de charger le modèle en précision 4 bits via bitsandbytes, réduisant drastiquement l'empreinte mémoire GPU. On part du checkpoint de base LFM2-1.2B, disponible sur Hugging Face sous l'identifiant LiquidAI/LFM2-1.2B, pour enchaîner deux étapes d'entraînement : d'abord un ajustement supervisé (SFT) sur 500 exemples du dataset HuggingFaceTB/smoltalk en 60 étapes, puis un alignement par préférences via DPO (Direct Preference Optimization) en 40 étapes supplémentaires. Les bibliothèques utilisées sont transformers (version 4.55 minimum), TRL, PEFT, accelerate et datasets. Un adaptateur LoRA de rang 16 est entraîné puis fusionné dans le modèle, produisant un checkpoint prêt au déploiement. Ce type de pipeline démocratise concrètement la personnalisation de modèles pour des développeurs sans infrastructure dédiée : l'ensemble du processus tient sur un GPU Colab gratuit ou pro, là où un fine-tuning classique nécessiterait plusieurs GPU A100. La combinaison SFT + DPO représente aujourd'hui la méthode de référence pour obtenir un modèle à la fois instruit (qui suit des consignes) et aligné (qui préfère des réponses de qualité à des réponses médiocres). L'intérêt particulier de LFM2 réside dans son architecture optimisée pour l'inférence on-device, ce qui rend ce tutoriel utile non seulement pour le prototypage cloud, mais aussi pour préparer des modèles embarqués sur mobile ou edge hardware. Liquid AI est une startup fondée en 2023 par des chercheurs du MIT, connue pour ses modèles Liquid Foundation Models (LFM) basés sur des architectures d'équations différentielles neuronales, alternatives aux transformeurs classiques. LFM2 marque une nouvelle génération de ces modèles, avec un accent mis sur l'efficacité computationnelle. Le recours à DPO plutôt qu'au classique RLHF (Reinforcement Learning from Human Feedback) s'inscrit dans une tendance forte depuis 2023 : DPO élimine le modèle de récompense intermédiaire, simplifiant l'entraînement tout en produisant des résultats comparables. La mise à disposition de ce guide complet avec code exécutable sur Colab s'inscrit dans une dynamique plus large de démocratisation du fine-tuning, portée par Hugging Face et la communauté open source, face aux modèles propriétaires d'OpenAI ou Anthropic qui restent des boîtes noires non personnalisables.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic