Aller au contenu principal
Affinement personnalisé de n'importe quel grand modèle linguistique de la Hub Hugging Face avec Together AI
LLMsHuggingFace Blog40sem· 1 min de lecture

Affinement personnalisé de n'importe quel grand modèle linguistique de la Hub Hugging Face avec Together AI

Source originale ↗·

Titre: Ajustez n'importe quel modèle LLM du Hugging Face Hub avec Together AI

Résumé: Together AI introduit une plateforme pour affiner des modèles de langage granulaire (LLM) directement à partir du Hugging Face Hub, permettant aux utilisateurs de personnaliser les modèles existants sans avoir à les ré-entraîner à partir de zéro. Cette fonctionnalité simplifie le processus d'adaptation des modèles pour des tâches spécifiques, rendant les LLM plus accessibles et efficaces pour diverses applications.

Impact France/UE

Together AI permet aux entreprises françaises et européennes de personnaliser gratuitement des modèles linguistiques de pointe via le Hugging Face Hub, facilitant l'application de l'IA dans divers secteurs en respectant les exigences du RGPD.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM
1Ars Technica AI 

Le nouveau modèle Gemma 4 12B de Google est conçu pour tourner sur n'importe quel laptop avec 16 Go de RAM

Google a annoncé le lancement de Gemma 4 12B, un nouveau modèle de langage open source conçu pour fonctionner sur des ordinateurs portables grand public disposant de 16 Go de RAM ou de VRAM. Ce modèle vient combler un vide dans la gamme Gemma 4 lancée en avril 2026, qui comprenait deux modèles optimisés pour mobile (E2B et E4B) et deux modèles pour usages intensifs (26B Mixture of Experts et 31B Dense). Avec ses 12 milliards de paramètres, Gemma 4 12B se positionne entre ces deux extrêmes et adopte la licence Apache 2.0 ouverte introduite lors du lancement de la famille. Ce modèle représente une avancée concrète pour quiconque souhaite faire tourner un LLM performant en local sans investir dans du matériel spécialisé. Son empreinte mémoire est environ deux fois inférieure à celle du Gemma 4 26B MoE, et Google affirme que ses performances sur les benchmarks restent proches de ce modèle plus lourd. Pour les développeurs, chercheurs, ou professionnels qui veulent expérimenter avec l'IA générative en dehors du cloud, sans dépenser des dizaines de milliers d'euros en accélérateurs matériels dédiés, Gemma 4 12B ouvre une porte que les modèles précédents laissaient fermée. Le contexte est celui d'une course à la puissance de calcul qui a fait exploser les prix de la mémoire vive, une dynamique à laquelle Google contribue directement avec ses propres infrastructures cloud. Mais en parallèle, plusieurs grands acteurs de l'IA, dont Meta avec sa famille Llama, misent aussi sur des modèles locaux légers pour élargir l'adoption. Google se positionne dans cette tendance avec des modèles Gemma pensés pour tourner sans connexion et sans coût d'inférence. La prochaine étape sera d'observer comment la communauté open source s'empare de Gemma 4 12B, notamment via des plateformes comme Hugging Face ou Ollama, pour affiner, tester et intégrer ce modèle dans des applications concrètes.

UELes développeurs et chercheurs européens peuvent désormais faire tourner un LLM performant en local sur un ordinateur grand public de 16 Go de RAM, sans frais cloud ni matériel spécialisé.

LLMsActu
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
2MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source
Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock
3AWS ML Blog 

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil
1 source
Apple peut « distiller » le grand modèle Gemini de Google
4The Information AI 

Apple peut « distiller » le grand modèle Gemini de Google

Apple et Google ont conclu un accord de partenariat IA bien plus profond qu'il n'y paraissait. Au-delà du simple ajustement (fine-tuning) du modèle Gemini, Apple dispose d'un accès complet au modèle dans ses propres infrastructures de data centers. Cet accès permet à Apple de produire des modèles plus petits, optimisés pour des tâches spécifiques ou suffisamment légers pour tourner directement sur les appareils Apple — une technique appelée « distillation ». Cela change considérablement la donne pour Siri et les fonctionnalités IA promises depuis longtemps. En exécutant des modèles distillés localement, Apple gagne en vitesse de traitement et en confidentialité, deux avantages cruciaux pour sa clientèle. La dépendance aux serveurs distants diminue, ce qui réduit aussi les coûts d'infrastructure — un enjeu d'autant plus pressant que les capacités serveur sont actuellement en tension dans tout le secteur. En parallèle, OpenAI traverse sa propre restructuration : son PDG Sam Altman vient de réorganiser l'entreprise, lancé un nouveau modèle baptisé « Spud » et mis fin à l'application vidéo Sora — jugée trop gourmande en serveurs dans le cadre d'une stratégie de recentrage sur les produits prioritaires.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic