Aller au contenu principal
Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins
OutilsMarkTechPost6sem

Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins

Résumé IASource uniqueImpact UE
Source originale ↗·

Unsloth AI vient de franchir un cap décisif dans la démocratisation de l'affinage de modèles de langage avec le lancement d'Unsloth Studio, une interface locale sans code entièrement open-source. Conçue pour les ingénieurs et professionnels de l'IA, cette solution intègre l'ensemble du cycle d'affinage — préparation des données, entraînement, déploiement — dans un environnement Web unifié, sans nécessiter de configuration CUDA complexe ni de cluster multi-GPU.

L'enjeu est considérable pour le secteur : l'affinage de grands modèles reste aujourd'hui l'apanage d'équipes disposant d'infrastructures coûteuses. En rendant cette opération accessible sur du matériel grand public, Unsloth Studio ouvre la porte à une nouvelle génération de développeurs indépendants, de chercheurs et de PME qui souhaitent personnaliser des modèles sans dépendre de services cloud facturés à l'usage.

Au cœur de la solution se trouvent des kernels de rétropropagation écrits à la main en Triton, le langage de compilation GPU d'OpenAI, permettant un entraînement 2x plus rapide et une réduction de 70 % de l'utilisation de VRAM par rapport aux frameworks standards. Concrètement, des modèles de 8 à 70 milliards de paramètres — comme Llama 3.1, Llama 3.3 ou DeepSeek-R1 — peuvent désormais être affinés sur un unique GPU de type RTX 4090 ou 5090, grâce aux techniques LoRA et QLoRA en quantification 4 ou 8 bits. La préparation des données est elle aussi automatisée via les Data Recipes, un workflow visuel à nœuds s'appuyant sur NVIDIA DataDesigner pour générer des jeux de données structurés depuis des fichiers bruts (PDF, DOCX, CSV). L'outil supporte également GRPO (Group Relative Policy Optimization), la technique de reinforcement learning popularisée par DeepSeek-R1, sans nécessiter de modèle Critic séparé.

Le Studio prend en charge les architectures les plus récentes de début 2026, dont la série Llama 4 et Qwen 2.5/3.5, et propose un export en un clic vers les formats GGUF (inférence locale) et vLLM (serving haute performance), supprimant ainsi le dernier verrou entre l'entraînement et la mise en production.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Cursor 3 abandonne l'IDE classique pour une interface centrée sur des flottes d'agents IA en parallèle
1The Decoder 

Cursor 3 abandonne l'IDE classique pour une interface centrée sur des flottes d'agents IA en parallèle

Cursor, l'éditeur de code dopé à l'intelligence artificielle développé par Anysphere, franchit une étape majeure avec sa version 3 en abandonnant l'interface traditionnelle des IDE au profit d'un environnement conçu dès le départ pour piloter des agents IA en parallèle. Cette refonte complète de l'interface marque un virage conceptuel : le développeur n'est plus celui qui écrit le code ligne par ligne, mais celui qui supervise des flottes d'agents autonomes travaillant simultanément sur plusieurs tâches. Ce changement de paradigme a des implications concrètes pour les équipes de développement. En permettant de lancer plusieurs agents en parallèle, Cursor 3 vise à démultiplier la productivité des ingénieurs logiciels, qui peuvent déléguer des pans entiers de l'implémentation tout en conservant le contrôle de la direction technique. L'interface n'est plus organisée autour du fichier et du curseur, mais autour des tâches en cours et des agents qui les exécutent, un renversement complet de la logique de travail habituelle. Cursor s'est imposé en quelques années comme l'un des outils les plus populaires parmi les développeurs professionnels, face à des concurrents comme GitHub Copilot ou Windsurf. Le passage à une interface "agent-first" suit la tendance générale de l'industrie, où les modèles de langage deviennent suffisamment fiables pour gérer des workflows complexes de manière autonome. Cette version 3 positionne Cursor non plus comme un assistant à la frappe, mais comme un véritable orchestrateur de développement logiciel.

UELes développeurs français et européens utilisant Cursor peuvent adopter ce nouveau paradigme agent-first pour transformer leur workflow de développement logiciel.

OutilsOutil
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
2MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
3MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
4AWS ML Blog 

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Amazon Web Services a annoncé une intégration entre Amazon SageMaker Unified Studio et les buckets Amazon S3 grand public, permettant d'exploiter des données non structurées directement dans les workflows de machine learning. Le cas d'usage présenté illustre l'affinage du modèle Llama 3.2 11B Vision Instruct — développé par Meta — pour des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou documents scannés. Le modèle de base atteint un score ANLS de 85,3 % sur le benchmark DocVQA, une métrique mesurant la similarité entre réponse prédite et réponse attendue. Pour l'affinage, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 exemples d'entraînement associant image, question et réponse. Trois versions affinées sont produites avec des volumes de données variables : 1 000, 5 000 et 10 000 images, orchestrées entièrement via SageMaker Unified Studio et évaluées avec Amazon SageMaker MLflow en mode serverless. Cet affinement ciblé permet aux équipes data de dépasser les limites d'un modèle généraliste sans reconstruire une infrastructure complexe de bout en bout. Pour les entreprises traitant des documents à haute valeur — contrats, factures, rapports médicaux — gagner quelques points de précision au-delà de 85 % peut représenter une différence opérationnelle significative. L'intégration native entre S3 et le catalogue SageMaker supprime une friction majeure : les données non structurées (images, PDF, textes bruts) deviennent des actifs directement exploitables par les équipes ML sans pipeline d'ingestion personnalisé. Le suivi des expériences via MLflow serverless permet en outre de comparer objectivement les trois variantes affinées et de documenter les gains de performance, une exigence croissante dans les déploiements enterprise. Cette annonce s'inscrit dans la stratégie d'AWS pour faire de SageMaker Unified Studio une plateforme unifiée couvrant l'ensemble du cycle MLOps, depuis l'ingestion des données brutes jusqu'au déploiement en production. La montée en puissance des modèles multimodaux — capables de traiter simultanément texte et image — crée une demande forte pour des outils d'affinage accessibles, sans que chaque équipe doive maîtriser les subtilités de l'entraînement distribué. AWS positionne ici SageMaker JumpStart comme point d'accès aux modèles fondamentaux, tandis que l'infrastructure d'entraînement repose sur des instances p4de.24xlarge, des GPU haute performance nécessitant une demande d'augmentation de quota. La prochaine étape logique pour AWS sera d'élargir cette intégration à d'autres formats de données non structurées et à davantage de modèles fondamentaux, dans un contexte où Google, Microsoft Azure et les plateformes spécialisées comme Modal ou Together AI se disputent le même terrain des équipes ML entreprise.

OutilsOutil
1 source