Aller au contenu principal
Llama 4 Maverick et Scout arrivent sur Hugging Face
LLMsHuggingFace Blog63sem· 1 min de lecture

Llama 4 Maverick et Scout arrivent sur Hugging Face

Source originale ↗·

Titre: Bienvenue à Llama 4 Maverick & Scout sur Hugging Face

Résumé: Hugging Face présente Llama 4 Maverick et Scout, deux nouvelles versions de modèles de langage de pointe, offrant des capacités avancées en compréhension et génération de texte, avec une meilleure performance sur divers benchmarks.

Impact France/UE

Aucun impact direct — cet article se concentre sur la présentation de deux nouveaux modèles de langage, Llama 4 Maverick et Scout, par Hugging Face, sans spécifier de conséquences spécifiques pour des entreprises françaises ou européennes, des lois telles que l'AI Act ou le RGPD, des secteurs particuliers ou des opportunités/menaces concrètes.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les modèles Gemma 4 arrivent sur Amazon Bedrock
1AWS ML Blog 

Les modèles Gemma 4 arrivent sur Amazon Bedrock

Amazon Web Services vient d'annoncer la disponibilité de la famille Gemma 4 sur Amazon Bedrock, le service managé de modèles d'intelligence artificielle du géant du cloud. Développés par Google DeepMind et publiés sous licence Apache 2.0, ces modèles open-weight sont déclinés en trois variantes : Gemma 4 31B, un modèle dense de 30,7 milliards de paramètres ; Gemma 4 26B-A4B, une architecture de type mixture-of-experts (MoE) avec seulement 3,8 milliards de paramètres actifs par requête sur 25,2 milliards au total ; et Gemma 4 E2B, un modèle compact de 2,3 milliards de paramètres effectifs. Tous supportent une fenêtre de contexte de 256 000 tokens (128 000 pour le modèle compact), un mode de raisonnement intégré, l'appel natif de fonctions pour les workflows agentiques, et des entrées multimodales combinant texte et image. Selon Artificial Analysis, le modèle Gemma 4 31B affiche un Intelligence Index de 39, soit bien au-dessus de la médiane de 15 pour la catégorie des modèles open-weight entre 4 et 40 milliards de paramètres. L'intégration de Gemma 4 dans Bedrock répond à une tension bien connue des entreprises adoptant des modèles open-weight en production : accéder aux meilleurs modèles disponibles tout en maintenant un contrôle total sur leurs données, leur conformité réglementaire et leur infrastructure. Disponibles via trois niveaux de service (Standard, Priority et Flex), ces modèles s'exécutent entièrement sur l'infrastructure AWS, sans que les prompts ou les réponses ne soient utilisés pour entraîner d'autres modèles ni partagés avec des tiers. Les équipes peuvent ainsi construire des agents multimodaux, des pipelines de traitement documentaire ou des assistants au développement logiciel, avec une prise en charge native de plus de 35 langues et un pré-entraînement sur plus de 140 langues. Cette annonce s'inscrit dans la compétition croissante entre les fournisseurs cloud pour proposer les meilleurs modèles open-weight sur leurs plateformes managées, en rivalité directe avec Microsoft Azure et Google Cloud. Google DeepMind continue de déployer la gamme Gemma comme levier stratégique pour étendre son influence dans l'écosystème IA sans passer uniquement par son propre cloud. Pour AWS, distribuer Gemma 4 sur Bedrock renforce son catalogue de modèles fondateurs sans investissement en R&D propre, tout en captant les entreprises qui préfèrent la flexibilité open-weight à des modèles propriétaires comme Claude ou Titan. La nature open-weight de la famille Gemma permet en outre aux organisations d'auditer l'architecture, de benchmarker sur leurs propres données et de fine-tuner les modèles selon leurs besoins, une capacité que les modèles fermés n'offrent pas.

UELes entreprises européennes sur AWS peuvent désormais déployer Gemma 4 avec des garanties de conformité RGPD, les prompts n'étant ni utilisés pour l'entraînement ni partagés avec des tiers.

LLMsOpinion
1 source
Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)
2MarkTechPost 

Hugging Face publie TRL v1.0 : une suite unifiée pour l'entraînement post-initial (SFT, DPO, GRPO)

Hugging Face a officiellement publié TRL (Transformer Reinforcement Learning) v1.0, marquant le passage de cette bibliothèque d'un outil de recherche expérimental à un framework stable et prêt pour la production. Cette version unifie l'ensemble du pipeline de post-entraînement — la séquence Supervised Fine-Tuning (SFT), Reward Modeling et alignement — sous une API standardisée et cohérente. Concrètement, les développeurs disposent désormais d'une interface en ligne de commande dédiée, d'un système de configuration unifié basé sur des fichiers YAML, et d'une suite élargie d'algorithmes d'alignement incluant DPO, GRPO, KTO et ORPO. Une simple commande comme trl sft --modelnameor_path meta-llama/Llama-3.1-8B suffit désormais à lancer un entraînement complet, là où il fallait auparavant écrire des centaines de lignes de code personnalisé. Cette standardisation change concrètement la donne pour les équipes d'ingénierie qui travaillent sur des modèles de langage. Le post-entraînement — cette phase où l'on affine un modèle de base pour qu'il suive des instructions, adopte un ton particulier ou développe des capacités de raisonnement — était jusqu'ici souvent traité comme un art obscur, réservé aux équipes de recherche disposant de ressources importantes. TRL v1.0 démocratise ce processus : les classes de configuration comme SFTConfig ou GRPOConfig héritent directement de transformers.TrainingArguments, assurant une compatibilité totale avec l'écosystème Hugging Face. L'intégration native avec Accelerate permet de passer d'un GPU local à un cluster multi-nœuds en FSDP ou DeepSpeed sans modifier le code. Le support natif de LoRA et QLoRA via PEFT rend le fine-tuning de modèles à plusieurs milliards de paramètres accessible sur du matériel grand public ou d'entreprise de gamme intermédiaire. TRL existe depuis plusieurs années comme référence dans la communauté de recherche sur l'alignement des LLMs, mais son API fragmentée et son manque de stabilité en freinaient l'adoption industrielle. La version 1.0 intervient dans un contexte où le post-entraînement est devenu un avantage compétitif central : des modèles comme DeepSeek-R1 ou les versions récentes de LLaMA ont démontré que la phase d'alignement — notamment via GRPO, qui élimine le modèle critique pour réduire l'empreinte mémoire — peut transformer radicalement les capacités d'un modèle de base. En unifiant PPO, DPO, GRPO, KTO et ORPO dans un seul framework documenté, Hugging Face positionne TRL comme l'infrastructure standard du fine-tuning open source, face aux solutions propriétaires des grands laboratoires. Les prochaines étapes devraient inclure une intégration plus poussée avec le Hub Hugging Face pour la gestion des expériences et des artefacts d'entraînement.

UETRL v1.0, publié par Hugging Face — entreprise d'origine française — renforce la capacité des équipes européennes à développer et aligner des LLMs en open source, sans dépendre des pipelines propriétaires des grands laboratoires américains.

LLMsOutil
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
3MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source
Le nouveau modèle d'image Uni-1 de Luma AI surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique
4The Decoder 

Le nouveau modèle d'image Uni-1 de Luma AI surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique

Luma AI lance Uni-1, un nouveau modèle qui unifie compréhension et génération d'images dans une seule architecture, capable de raisonner pendant la création. Il surpasse Nano Banana 2 et GPT Image 1.5 sur des benchmarks de raisonnement logique, positionnant directement Luma AI face à OpenAI et Google.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic