Tutoriel NVIDIA cuTile en Python : noyaux GPU…

Fine-tuning de Qwen3 avec LoRA via NVIDIA NeMo AutoModel : tutoriel complet sur Google Colab (GPU unique)

40

1MarkTechPost

Fine-tuning de Qwen3 avec LoRA via NVIDIA NeMo AutoModel : tutoriel complet sur Google Colab (GPU unique)

NVIDIA a publié via son équipe NeMo un tutoriel complet permettant d'entraîner le modèle Qwen3-0.6B avec la technique LoRA (Low-Rank Adaptation) sur un seul GPU, directement dans Google Colab. Le workflow s'appuie sur NeMo AutoModel, une bibliothèque installée depuis son dépôt source sur GitHub, qui reprend une recette officielle de fine-tuning par PEFT (Parameter-Efficient Fine-Tuning) prévue pour Qwen3-0.6B. Le processus commence par une vérification du matériel disponible, à savoir la présence d'un GPU compatible CUDA, sa mémoire vive et son support du format bfloat16, avant de cloner le dépôt Automodel et d'installer les dépendances nécessaires comme PyYAML et PEFT. Le script identifie ensuite automatiquement le fichier de configuration YAML correspondant à la recette Qwen3, puis modifie par programmation ses paramètres de précision, de taille de batch, de points de contrôle et de planification pour l'adapter aux ressources limitées d'un environnement Colab gratuit. L'entraînement est ensuite lancé via l'interface en ligne de commande d'AutoModel, avant de recharger le checkpoint LoRA généré et de comparer les réponses du modèle original avec celles du modèle affiné. Cette démonstration illustre concrètement l'intérêt de l'architecture pilotée par configuration de NeMo AutoModel, capable de fonctionner aussi bien sur un unique GPU grand public que sur des clusters multi-GPU en production, sans changer de logique d'entraînement. Pour les développeurs et chercheurs, cela signifie qu'il devient possible de prototyper un fine-tuning sur un environnement gratuit comme Colab avant de faire évoluer exactement le même pipeline vers une infrastructure distribuée à plus grande échelle, sans réécrire le code. L'utilisation de LoRA permet en outre de réduire drastiquement les besoins en mémoire et en calcul par rapport à un fine-tuning complet, un point crucial quand on ne dispose que d'un seul GPU aux ressources contraintes. Le fait que NeMo AutoModel conserve une interface compatible avec Hugging Face, via la classe NeMoAutoModelForCausalLM, facilite également l'adoption pour les équipes déjà habituées à cet écosystème. Cette publication s'inscrit dans la stratégie plus large de NVIDIA visant à rendre ses outils d'entraînement de modèles de langage accessibles au-delà des seuls environnements d'entreprise dotés de clusters GPU coûteux. En misant sur des recettes préconfigurées et open source pour des modèles compacts comme Qwen3-0.6B, développé par Alibaba, NVIDIA cherche à démocratiser les techniques de fine-tuning efficace en paramètres, alors que la demande pour des modèles spécialisés et peu coûteux à personnaliser continue de croître. Le choix de Google Colab comme terrain de démonstration renforce cette logique d'accessibilité, en montrant que des architectures pensées pour le calcul distribué restent utilisables sur du matériel limité, ce qui pourrait encourager davantage de chercheurs indépendants et de petites équipes à expérimenter avec l'écosystème NeMo.

💬 Le vrai truc ici, c'est que NVIDIA rend le fine-tuning LoRA jouable sur un Colab gratuit, et que le même pipeline scale ensuite vers du multi-GPU sans réécrire une ligne. C'est ça, la promesse qui compte : plus besoin d'un cluster pour prototyper, tu passes direct à la prod si ça marche. Reste à voir combien de temps ça tient avant qu'un vrai projet dépasse les limites de mémoire du Colab gratuit, parce que là on parle d'un modèle 0.6B, pas d'un truc qu'on va déployer tel quel en entreprise.

OutilsTuto

1 source

Le nouveau Colab CLI de Google permet aux développeurs et agents IA d'exécuter Python sur des GPU et TPU distants depuis le terminal

45

2MarkTechPost

Le nouveau Colab CLI de Google permet aux développeurs et agents IA d'exécuter Python sur des GPU et TPU distants depuis le terminal

L'équipe Google AI a publié cette semaine le Colab CLI, un outil en ligne de commande qui connecte le terminal local d'un développeur aux runtimes distants de Google Colab. Disponible en open source sous licence Apache 2.0 et installable en une seule commande via uv tool install, l'outil permet d'allouer des sessions de calcul cloud depuis le terminal avec des options matérielles allant du CPU classique aux GPU T4, L4, A100 et H100, ainsi qu'aux puces TPU v5e1 et v6e1. L'interface repose sur un petit ensemble de commandes : colab new pour provisionner une session, colab exec pour exécuter du code Python depuis un fichier local ou l'entrée standard, colab stop pour libérer la machine virtuelle, et colab download ou colab log pour récupérer les résultats sous forme de notebooks .ipynb, fichiers Markdown ou JSONL. Google fournit également un fichier COLAB_SKILL.md qui donne aux agents IA un contexte intégré sur l'utilisation du CLI. Ce qui rend ce lancement significatif, c'est moins la fonctionnalité elle-même que la cible visée : les agents IA. Le Colab CLI est explicitement conçu pour que des outils comme Claude Code, Codex ou l'agent maison Antigravity puissent piloter des pipelines de machine learning de bout en bout sans intervention humaine. Google en fait la démonstration avec un exemple concret : le fine-tuning du modèle Gemma 3 1B via QLoRA sur un jeu de données Text-to-SQL, réalisé par l'agent Antigravity en cinq commandes, sans qu'un seul paramètre de provisionnement cloud ne soit saisi manuellement. Le modèle affiné est ensuite téléchargé localement et prêt à être servi. Pour les développeurs travaillant sur des machines sans GPU, le CLI permet aussi d'externaliser l'entraînement vers le cloud sans quitter leur environnement de travail habituel. Google Colab existe depuis 2017 comme environnement de notebooks Python basé sur le navigateur, largement utilisé dans la communauté recherche et éducation pour son accès gratuit ou peu coûteux aux accélérateurs. Le CLI ne remplace pas cette interface web, il cible un usage radicalement différent : les workflows scriptés, automatisés et pilotés par des agents. Cette distinction reflète une tendance plus large dans l'outillage IA : les agents de codage comme Claude Code ou Codex ont besoin d'accéder à des ressources de calcul sans passer par des interfaces graphiques pensées pour des humains. En positionnant Colab comme une infrastructure compatible avec ces agents, Google s'inscrit dans la course aux plateformes d'exécution pour l'IA agentique, un espace où AWS, Modal et RunPod cherchent aussi à capter les développeurs qui automatisent leurs pipelines ML.

💬 Ce qui m'intéresse, c'est pas le CLI en lui-même : c'est le COLAB_SKILL.md livré avec, un fichier d'instructions taillé pour que des agents comme Claude Code sachent louer un H100 et lancer un fine-tuning sans intervention humaine. Google ne fait pas un outil pour les développeurs, il fait un outil pour que les agents des développeurs aient accès à du calcul cloud sans passer par une interface pensée pour des humains. Reste à voir ce que ça coûte en crédits Colab quand un agent part en vrille à 3h du mat.

OutilsOutil

1 source

Utiliser NVIDIA Canary-1B-v2 pour la reconnaissance vocale, la traduction et l'export de sous-titres SRT en Python

40

3MarkTechPost

Utiliser NVIDIA Canary-1B-v2 pour la reconnaissance vocale, la traduction et l'export de sous-titres SRT en Python

NVIDIA a mis à disposition Canary-1B-v2, un modèle de reconnaissance automatique de la parole (ASR) open source d'un milliard de paramètres, accessible via la bibliothèque NeMo et la plateforme Hugging Face. Ce tutoriel publié en 2025 détaille comment construire un pipeline complet de transcription et de traduction multilingue en Python : installation des dépendances (NeMo, librosa, soundfile, NumPy 2.2+, SciPy 1.15+), chargement du modèle sur GPU via CUDA, préparation de l'audio en mono 16 kHz, transcription en anglais, traduction vers 25 langues européennes dont le français, l'espagnol, l'allemand et le russe, génération de timestamps au mot et au segment, export de sous-titres au format SRT, transcription longue durée et traitement par lots avec mesure de performance. Canary-1B-v2 intéresse les développeurs et les équipes de production audiovisuelle parce qu'il combine en un seul modèle ce qui nécessitait auparavant plusieurs outils distincts : reconnaissance vocale, traduction et synchronisation temporelle pour les sous-titres. La prise en charge native du format SRT permet d'automatiser la création de sous-titres traduits pour des vidéos ou des podcasts sans passer par des services tiers payants. Le pipeline tourne localement sur GPU, ce qui élimine les coûts d'API et les contraintes de confidentialité associées aux solutions cloud comme Whisper via OpenAI ou les services Google Speech-to-Text. La gestion du traitement par lots rend le système viable pour des transcriptions à grande échelle. Canary-1B-v2 s'inscrit dans la stratégie de NVIDIA de positionner son écosystème NeMo comme référence pour les modèles de parole en entreprise, face à Whisper d'OpenAI, aujourd'hui le standard de facto dans ce domaine, et aux solutions de Meta et Google. Le modèle supporte 25 langues, un périmètre volontairement limité aux langues européennes pour cette version, ce qui laisse entendre qu'une extension est probable. L'accent mis sur la performance GPU s'adresse directement aux utilisateurs disposant déjà d'infrastructure NVIDIA, notamment dans les studios de post-production, les plateformes de e-learning et les médias en ligne. L'export SRT automatisé représente un cas d'usage immédiat et à forte valeur commerciale, à un moment où la demande de sous-titrage multilingue explose sous l'effet des obligations légales d'accessibilité et de la croissance des plateformes vidéo internationales.

UELe support natif du français parmi 25 langues européennes et les obligations légales d'accessibilité au sous-titrage en vigueur dans l'UE rendent cet outil directement exploitable par les producteurs audiovisuels, plateformes e-learning et médias français souhaitant automatiser le sous-titrage multilingue sans dépendance à des services cloud payants.

OutilsOutil

1 source

Le titre traduit : « Tutoriel RAG-Anything : créer un pipeline de récupération multimodal pour texte, tableaux, équations et images dans Colab »

32

4MarkTechPost

Le titre traduit : « Tutoriel RAG-Anything : créer un pipeline de récupération multimodal pour texte, tableaux, équations et images dans Colab »

Un tutoriel publié sur MarkTechPost détaille la construction d'un pipeline de récupération multimodale baptisé RAG-Anything, conçu pour traiter simultanément du texte, des tableaux, des équations et des images au sein d'un notebook Google Colab. Le processus démarre par l'installation des dépendances nécessaires, notamment les bibliothèques raganything avec les extensions image et texte, le SDK OpenAI en version 1.0.0 ou supérieure, ainsi que reportlab, pandas, matplotlib et tabulate. Une attention particulière est portée à la bibliothèque Pillow, réinstallée en version 11.3.0 pour éviter les conflits de dépendances, avec un nettoyage systématique du cache des modules Python avant et après cette opération. Le tutoriel configure ensuite un environnement de travail structuré avec des répertoires dédiés aux ressources, aux sorties, au stockage et aux journaux, tout en définissant des paramètres d'exécution comme une taille de chunk de 900 caractères, un chevauchement de 120 caractères et un délai d'expiration de 240 secondes pour les appels aux modèles. La clé API OpenAI est saisie de façon sécurisée au moment de l'exécution plutôt que stockée en dur, une pratique destinée à garder le notebook sûr à partager et à réutiliser. Ce type de démonstration importe car il illustre une tendance de fond dans le développement d'applications basées sur les grands modèles de langage : le passage de systèmes de récupération d'information limités au texte brut vers des architectures capables d'ingérer des documents complexes mêlant graphiques, tableaux de données et formules mathématiques. Pour les équipes techniques qui construisent des assistants documentaires, des outils de recherche interne ou des chatbots d'entreprise, la capacité à interroger un rapport contenant à la fois du texte narratif et des visualisations sans perte d'information représente un gain concret de fidélité et de pertinence des réponses. Le tutoriel montre également comment configurer des fonctions distinctes pour le chat, la vision et les embeddings via l'API OpenAI, une architecture modulaire qui permet d'adapter chaque composant du pipeline à un modèle spécifique selon les besoins de coût ou de performance. Le contexte plus large de ce tutoriel s'inscrit dans l'essor rapide des architectures RAG, ou génération augmentée par récupération, qui combinent des bases de connaissances externes avec la puissance générative des modèles de langage pour produire des réponses ancrées dans des données réelles et vérifiables. Alors que la première génération d'outils RAG se concentrait presque exclusivement sur des corpus textuels, la demande croissante pour des systèmes capables de traiter des rapports financiers, des articles scientifiques ou des documents techniques riches en tableaux et en schémas a poussé des projets comme RAG-Anything à émerger. Le tutoriel teste plusieurs modes de récupération, naïf, local, global et hybride, chacun offrant un compromis différent entre rapidité, précision et compréhension contextuelle. Cette diversité de modes reflète les choix auxquels sont confrontées les équipes qui déploient ces systèmes en production, où le bon équilibre dépend souvent de la nature des documents traités et du volume de requêtes à traiter.

OutilsTuto

1 source

Tutoriel NVIDIA cuTile en Python : noyaux GPU tuilés pour vecteurs et matrices dans Colab

À lire aussi

Fine-tuning de Qwen3 avec LoRA via NVIDIA NeMo AutoModel : tutoriel complet sur Google Colab (GPU unique)

Le nouveau Colab CLI de Google permet aux développeurs et agents IA d'exécuter Python sur des GPU et TPU distants depuis le terminal

Utiliser NVIDIA Canary-1B-v2 pour la reconnaissance vocale, la traduction et l'export de sous-titres SRT en Python

Le titre traduit : « Tutoriel RAG-Anything : créer un pipeline de récupération multimodal pour texte, tableaux, équations et images dans Colab »