Aller au contenu principal
Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins
OutilsMarkTechPost12sem· 1 min de lecture

Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins

Source originale ↗·

Unsloth AI vient de franchir un cap décisif dans la démocratisation de l'affinage de modèles de langage avec le lancement d'Unsloth Studio, une interface locale sans code entièrement open-source. Conçue pour les ingénieurs et professionnels de l'IA, cette solution intègre l'ensemble du cycle d'affinage — préparation des données, entraînement, déploiement — dans un environnement Web unifié, sans nécessiter de configuration CUDA complexe ni de cluster multi-GPU.

L'enjeu est considérable pour le secteur : l'affinage de grands modèles reste aujourd'hui l'apanage d'équipes disposant d'infrastructures coûteuses. En rendant cette opération accessible sur du matériel grand public, Unsloth Studio ouvre la porte à une nouvelle génération de développeurs indépendants, de chercheurs et de PME qui souhaitent personnaliser des modèles sans dépendre de services cloud facturés à l'usage.

Au cœur de la solution se trouvent des kernels de rétropropagation écrits à la main en Triton, le langage de compilation GPU d'OpenAI, permettant un entraînement 2x plus rapide et une réduction de 70 % de l'utilisation de VRAM par rapport aux frameworks standards. Concrètement, des modèles de 8 à 70 milliards de paramètres — comme Llama 3.1, Llama 3.3 ou DeepSeek-R1 — peuvent désormais être affinés sur un unique GPU de type RTX 4090 ou 5090, grâce aux techniques LoRA et QLoRA en quantification 4 ou 8 bits. La préparation des données est elle aussi automatisée via les Data Recipes, un workflow visuel à nœuds s'appuyant sur NVIDIA DataDesigner pour générer des jeux de données structurés depuis des fichiers bruts (PDF, DOCX, CSV). L'outil supporte également GRPO (Group Relative Policy Optimization), la technique de reinforcement learning popularisée par DeepSeek-R1, sans nécessiter de modèle Critic séparé.

Le Studio prend en charge les architectures les plus récentes de début 2026, dont la série Llama 4 et Qwen 2.5/3.5, et propose un export en un clic vers les formats GGUF (inférence locale) et vLLM (serving haute performance), supprimant ainsi le dernier verrou entre l'entraînement et la mise en production.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming
1MarkTechPost 

Nous Research publie Hermes Desktop : une interface native multiplateforme pour Hermes Agent v0.15.2 avec sortie en streaming

Nous Research a lancé en prévisualisation publique Hermes Desktop, une application native disponible sur macOS, Windows et Linux, qui offre pour la première fois une interface graphique à son agent IA open source Hermes. Jusqu'ici limité à une interface en ligne de commande et à des passerelles de messagerie, Hermes Agent v0.15.2 dispose désormais d'une fenêtre native avec affichage en streaming des réponses, prévisualisation en temps réel des pages web, fichiers et sorties d'outils, un navigateur de fichiers, ainsi que des entrées et sorties vocales. L'application partage entièrement son cœur avec le CLI existant : configuration, clés API, sessions, compétences et mémoire sont communs à toutes les surfaces. Une conversation démarrée dans le bureau peut reprendre dans le terminal, et inversement, sans duplication d'état. Hermes Desktop a été démontré pour la première fois lors du keynote GTC de Jensen Huang avant d'être rendu disponible le 2 juin 2026. Ce lancement marque une étape importante dans l'accessibilité des agents IA autonomes pour le grand public. Hermes n'est pas un simple assistant de chat : c'est un agent qui planifie, exécute des actions et maintient un état persistant entre les sessions. La boucle d'apprentissage fermée le distingue des outils classiques : après une tâche complexe, l'agent génère des compétences réutilisables qui s'améliorent d'elles-mêmes lors des usages ultérieurs. La mémoire est gérée par l'agent lui-même, avec rappel inter-sessions via recherche FTS5 et résumé par LLM. En supprimant le prérequis du terminal, Nous Research ouvre Hermes à une population bien plus large d'utilisateurs non techniques, ce qui pourrait accélérer l'adoption des agents IA dans des flux de travail professionnels quotidiens. Nous Research s'inscrit dans une compétition croissante autour des agents IA autonomes et multiplateformes, face à des acteurs comme Anthropic avec Claude Code ou OpenAI avec ses capacités agentiques. Hermes se connecte à Telegram, Discord, Slack, WhatsApp, Signal, Email et CLI depuis une seule passerelle, avec un planificateur cron intégré et une délégation à des sous-agents isolés. L'exécution est sandboxée via cinq backends : local, Docker, SSH, Singularity et Modal. L'interopérabilité avec le Model Context Protocol (MCP) permet d'intégrer des outils externes. Pour les API, Nous Portal propose quatre niveaux d'abonnement (Free, Plus, Super, Ultra) donnant accès à plus de 300 modèles et à un Tool Gateway unifié qui route la recherche web via Firecrawl, la génération d'images via FAL et la synthèse vocale via OpenAI. Les prochaines questions porteront sur la stabilité hors prévisualisation et sur la capacité de la startup à tenir face aux ressources des géants du secteur.

OutilsOutil
1 source
Cursor 3 abandonne l'IDE classique pour une interface centrée sur des flottes d'agents IA en parallèle
2The Decoder 

Cursor 3 abandonne l'IDE classique pour une interface centrée sur des flottes d'agents IA en parallèle

Cursor, l'éditeur de code dopé à l'intelligence artificielle développé par Anysphere, franchit une étape majeure avec sa version 3 en abandonnant l'interface traditionnelle des IDE au profit d'un environnement conçu dès le départ pour piloter des agents IA en parallèle. Cette refonte complète de l'interface marque un virage conceptuel : le développeur n'est plus celui qui écrit le code ligne par ligne, mais celui qui supervise des flottes d'agents autonomes travaillant simultanément sur plusieurs tâches. Ce changement de paradigme a des implications concrètes pour les équipes de développement. En permettant de lancer plusieurs agents en parallèle, Cursor 3 vise à démultiplier la productivité des ingénieurs logiciels, qui peuvent déléguer des pans entiers de l'implémentation tout en conservant le contrôle de la direction technique. L'interface n'est plus organisée autour du fichier et du curseur, mais autour des tâches en cours et des agents qui les exécutent, un renversement complet de la logique de travail habituelle. Cursor s'est imposé en quelques années comme l'un des outils les plus populaires parmi les développeurs professionnels, face à des concurrents comme GitHub Copilot ou Windsurf. Le passage à une interface "agent-first" suit la tendance générale de l'industrie, où les modèles de langage deviennent suffisamment fiables pour gérer des workflows complexes de manière autonome. Cette version 3 positionne Cursor non plus comme un assistant à la frappe, mais comme un véritable orchestrateur de développement logiciel.

UELes développeurs français et européens utilisant Cursor peuvent adopter ce nouveau paradigme agent-first pour transformer leur workflow de développement logiciel.

OutilsOutil
1 source
Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises
3MarkTechPost 

Cohere lance Cohere Transcribe, un modèle de reconnaissance vocale automatique de pointe pour les entreprises

Cohere, l'entreprise canadienne spécialisée dans les grands modèles de langage pour les entreprises, a lancé le 26 mars 2026 son premier modèle de reconnaissance automatique de la parole, baptisé Cohere Transcribe. Dès sa sortie, le modèle s'est classé premier sur le classement Open ASR Leaderboard de Hugging Face, avec un taux d'erreur moyen de 5,42 % (WER) sur sept ensembles de benchmark — AMI, Earnings22, GigaSpeech, LibriSpeech, SPGISpeech, TED-LIUM et VoxPopuli. Il surpasse ainsi les références du marché : Whisper Large v3 d'OpenAI (7,44 % WER), ElevenLabs Scribe v2 (5,83 %) et Qwen3-ASR-1.7B (5,76 %). Dans des évaluations humaines en anglais, les annotateurs ont préféré Transcribe dans 78 % des cas face à IBM Granite 4.0, 67 % face à NVIDIA Canary, et 64 % face à Whisper Large v3. Le modèle prend en charge 14 langues — dont le français, l'anglais, l'arabe, le chinois et le japonais — en misant sur la qualité plutôt que sur l'exhaustivité. Ce lancement marque une entrée stratégique de Cohere sur un segment jusqu'ici dominé par OpenAI, Google et Meta. Pour les entreprises, la transcription automatique fiable est un prérequis pour exploiter des données audio massives : appels de centres de contact, réunions, audiences juridiques, transcriptions médicales. Un WER inférieur à 6 % représente un seuil de qualité utilisable en production sans correction humaine systématique, ce qui change concrètement l'économie du traitement audio à grande échelle. La capacité du modèle à traiter des fichiers longs — jusqu'à des enregistrements de plus d'une heure — via un système de découpage automatique en segments de 35 secondes avec réassemblage intelligent répond directement aux usages entreprise les plus exigeants, comme les earnings calls ou les procédures légales. Sur le plan technique, Cohere a opté pour une architecture hybride Conformer-Transformer : un encodeur Conformer de grande taille, qui combine réseaux convolutifs (efficaces pour les détails acoustiques locaux) et mécanismes d'attention (pour les dépendances linguistiques longue portée), couplé à un décodeur Transformer allégé. Ce choix architectural, entraîné par supervision classique (cross-entropy), contraste avec les approches purement Transformer comme Whisper. Cohere, qui avait jusqu'ici concentré son offre sur les modèles de texte et d'embedding, se positionne désormais sur une stack multimodale complète à destination des entreprises. Dans un contexte où les grandes plateformes — Microsoft, Zoom, Google — intègrent déjà de la transcription native dans leurs outils, Cohere parie sur une offre souveraine et personnalisable pour les équipes qui ne veulent pas dépendre des APIs propriétaires des géants américains.

UECohere Transcribe supporte le français parmi ses 14 langues et se positionne comme alternative souveraine aux APIs américaines pour les entreprises européennes souhaitant traiter des données audio sensibles en interne.

OutilsOpinion
1 source
Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM
4MarkTechPost 

Hugging Face lance ml-intern, un agent IA open source qui automatise l'après-entraînement des LLM

Hugging Face a publié ml-intern, un agent d'intelligence artificielle open-source conçu pour automatiser de bout en bout le post-entraînement des grands modèles de langage (LLM). Construit sur le framework smolagents de la société, l'outil est capable de réaliser de manière autonome des revues de littérature scientifique sur arXiv, de découvrir des jeux de données sur le Hub Hugging Face, d'exécuter des scripts d'entraînement et d'évaluer itérativement les résultats, le tout sans intervention humaine. Lors d'une démonstration officielle, l'agent a pris le modèle de base Qwen3-1.7B, qui obtenait initialement environ 10 % sur le benchmark GPQA de raisonnement scientifique, et l'a porté à 32 % en moins de 10 heures sur un seul GPU H100, franchissant la barre des 27,5 % en seulement trois heures. Ce résultat dépasse celui de Claude Code d'Anthropic, actuellement à 22,99 % sur cette même tâche, et se rapproche du record actuel de 33 % obtenu avec le modèle Gemma-3-4B, deux fois plus grand. L'impact de ml-intern est direct pour les équipes de recherche en machine learning : il automatise un cycle de travail qui mobilise habituellement plusieurs ingénieurs pendant plusieurs jours. L'agent gère la génération de données synthétiques lorsque les jeux de données existants sont insuffisants, comme dans un test médical où il a produit des exemples d'entraînement ciblant des cas limites en langage médical et en réponse d'urgence multilingue. Il implémente également des techniques avancées comme le Group Relative Policy Optimization (GRPO), une variante du RLHF moins gourmande en mémoire que le PPO standard, en surveillant les courbes de récompense et en lançant des ablations pour identifier les composants efficaces. L'ensemble du suivi expérimental repose sur Trackio, un outil natif au Hub présenté comme alternative open-source à Weights & Biases. Cette publication s'inscrit dans une tendance de fond : l'automatisation du travail des chercheurs en IA par des agents eux-mêmes entraînés à raisonner sur des pipelines ML. Le benchmark PostTrainBench, développé par l'université de Tübingen et le Max Planck Institute, a servi de cadre d'évaluation standardisé, contraignant les agents à post-entraîner un modèle de base en moins de 10 heures. En positionnant ml-intern comme supérieur à Claude Code sur cette tâche précise, Hugging Face signale une ambition claire : faire de son écosystème, du Hub aux outils d'entraînement, une plateforme autonome et intégrée capable de rivaliser avec les solutions propriétaires d'Anthropic ou de Google. La disponibilité en open-source de l'agent ouvre la voie à des adaptations communautaires rapides, et le benchmark PostTrainBench devrait s'imposer comme référence pour évaluer les prochaines générations de ces outils.

UEHugging Face, entreprise française cofondatrice de l'écosystème open-source IA européen, renforce son positionnement face aux solutions propriétaires américaines en offrant aux équipes de recherche françaises et européennes un agent gratuit capable d'automatiser le post-entraînement de LLMs sans dépendance cloud.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic