Aller au contenu principal
LLMsAWS ML Blog4sem

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow.

L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production.

Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock
1AWS ML Blog 

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
2MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
3MarkTechPost 

Guide de programmation complet pour exécuter les modèles open-weight GPT d'OpenAI avec des workflows d'inférence avancés

OpenAI a publié une version open-weight de ses modèles GPT sous l'identifiant openai/gpt-oss-20b, un modèle de 20 milliards de paramètres téléchargeable depuis HuggingFace et exécutable localement via la bibliothèque Transformers. Un guide technique détaillé, publié récemment, explique comment déployer ce modèle dans Google Colab en s'appuyant sur la quantification native MXFP4, les activations en torch.bfloat16, et le système devicemap="auto" pour l'allocation GPU automatique. Le modèle pèse environ 40 Go en téléchargement et nécessite au minimum 16 Go de VRAM, ce qui impose l'usage d'un GPU de type T4 ou A100, disponibles sur Colab Pro. Le tutoriel couvre l'installation des dépendances précises (Transformers 4.51+, accelerate, sentencepiece), le chargement du modèle avec trustremote_code=True, puis l'exécution de workflows complets : génération structurée, streaming, dialogue multi-tours, appel d'outils et inférence en batch. La mise à disposition de ce modèle en open-weight représente un changement significatif pour les développeurs et chercheurs qui souhaitent inspecter, modifier ou déployer un LLM de la famille GPT sans dépendre de l'API d'OpenAI. Contrairement aux modèles hébergés, gpt-oss-20b offre une transparence totale sur l'architecture, un contrôle complet des paramètres d'inférence (température, topp, longueur de séquence), et la possibilité d'exécution hors ligne sur infrastructure privée. Pour les entreprises soumises à des contraintes de confidentialité des données, ou pour les équipes de recherche qui ont besoin de reproductibilité, c'est une alternative concrète aux API fermées. Le guide recommande d'ailleurs les paramètres temperature=1.0 et topp=1.0 pour reproduire le comportement officiel du modèle. Ce mouvement s'inscrit dans une dynamique plus large de publication de modèles open-weight par les grands laboratoires : Meta avec Llama, Mistral AI avec ses modèles libres, ou encore Google avec Gemma. OpenAI, longtemps perçu comme le plus fermé des acteurs majeurs, adopte ici une stratégie différente en libérant un modèle intermédiaire techniquement capable. La compatibilité avec l'écosystème HuggingFace et Transformers facilite l'adoption immédiate par la communauté. Les prochaines étapes pourraient inclure des fine-tunings spécialisés par la communauté, des déploiements sur hardware grand public via des solutions comme llama.cpp ou Ollama, et une évaluation comparative approfondie face à Llama 3 ou Mistral Large, ce qui permettra de situer précisément gpt-oss-20b dans le paysage des modèles ouverts.

UELes équipes européennes soumises au RGPD peuvent désormais déployer un modèle de la famille GPT en infrastructure privée, sans transférer de données vers les serveurs d'OpenAI.

💬 OpenAI qui lâche un open-weight, ça faisait longtemps qu'on en parlait sans y croire. 20 milliards de paramètres, compatible HuggingFace, déployable sur ta propre infra, c'est exactement ce que réclamaient les équipes sous RGPD depuis des mois. Reste à voir si ça tient face à Llama 3 une fois les benchmarks sérieux posés.

LLMsTuto
1 source
IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise
4MarkTechPost 

IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise

IBM a lancé Granite 4.0 3B Vision, un modèle de langage visuel (VLM) conçu spécifiquement pour l'extraction de données documentaires en entreprise. Contrairement aux grands modèles multimodaux monolithiques, ce modèle adopte une architecture modulaire : il se présente sous forme d'adaptateur LoRA d'environ 0,5 milliard de paramètres, conçu pour se greffer sur le modèle de base Granite 4.0 Micro (3,5 milliards de paramètres). Cette configuration permet un déploiement en « double mode » — le modèle texte fonctionne de manière autonome, et le composant visuel n'est activé qu'en cas de besoin. Pour traiter les images haute résolution, le modèle découpe les documents en tuiles de 384×384 pixels via l'encodeur visuel SigLIP2 de Google, tout en conservant une vue globale réduite de l'image. Les tokens visuels sont ensuite injectés dans le modèle de langage en 8 points d'ancrage distincts grâce à l'architecture DeepStack, assurant un alignement précis entre contenu sémantique et mise en page spatiale. En matière de performances, le modèle atteint 85,5 % de correspondance exacte en extraction de paires clé-valeur sur le benchmark VAREX (zéro-shot), et se classe troisième parmi les modèles de 2 à 4 milliards de paramètres sur ce leaderboard en mars 2026. L'enjeu principal de cette sortie est de permettre aux entreprises d'automatiser l'extraction structurée de données à partir de documents complexes — tableaux financiers, graphiques analytiques, formulaires — avec un modèle compact et déployable localement. Là où les grands modèles généralistes sacrifient la précision structurelle au profit de la polyvalence, Granite 4.0 3B Vision est entraîné spécifiquement sur la conversion de graphiques en CSV ou JSON, la reconnaissance de structures de tableaux en HTML, et l'extraction de paires clé-valeur. IBM a notamment utilisé ChartNet, un dataset multimodal à l'échelle du million d'exemples, ainsi qu'une pipeline d'entraînement « guidée par le code » qui aligne le code de génération d'un graphique, son rendu visuel et la table de données sous-jacente. Cette approche permet au modèle de comprendre la relation structurelle entre une représentation visuelle et sa source, plutôt que de simplement décrire une image. Ce lancement s'inscrit dans la stratégie d'IBM de positionner sa gamme Granite comme une alternative open-source et souveraine aux solutions propriétaires de Microsoft, Google ou Anthropic pour les usages entreprise. La tendance à l'architecture modulaire — un socle texte augmenté d'adaptateurs spécialisés — reflète une évolution plus large du secteur vers des modèles efficaces en ressources, déployables sur des infrastructures maîtrisées plutôt que dans le cloud public. Avec la prolifération des obligations réglementaires autour de la traçabilité des données (RGPD, AI Act européen), des modèles capables de traiter des documents sensibles en local représentent un avantage concurrentiel significatif. La prochaine étape pour IBM sera d'intégrer ce composant dans ses pipelines documentaires Watson et de le rendre accessible via watsonx, sa plateforme d'IA d'entreprise.

UELe déploiement local de Granite 4.0 3B Vision facilite la conformité RGPD et AI Act pour les entreprises européennes traitant des documents sensibles, en évitant tout transfert vers le cloud américain.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour