RechercheHuggingFace Blog47sem· 1 min de lecture

Découvrez Trackio, une bibliothèque d'expérimentation de suivi léger de Hugging Face

Introduisant Trackio, une bibliothèque de suivi d'expériences légère développée par Hugging Face, facilitant la gestion et la visualisation des expériences de machine learning. Cette bibliothèque permet de suivre des métriques, des hyperparamètres et des métadonnées, tout en intégrant facilement avec les pipelines d'ML existants.

Impact France/UE

Trackio, une bibliothèque de suivi d'expériences léger développée par Hugging Face, peut aider les entreprises françaises et européennes à respecter la future AI Act en simplifiant la gestion et la visualisation des métriques, hyperparamètres et métadonnées des modèles de machine learning, contribuant ainsi à la conformité et à l'amélioration de la transparence dans l'utilisation de l'IA.

Dans nos dossiers

Hugging Face

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1HuggingFace Blog

Entraînez des modèles d'IA gratuitement avec Unsloth et Hugging Face Jobs

"Apprenez à entraîner des modèles d'IA gratuitement avec Unsloth et Hugging Face Jobs. Utilisez ces outils pour exploiter le pouvoir de l'apprentissage automatique sans dépenser un centime." Résumé: Exploitez gratuitement le potentiel de l'apprentissage automatique via Unsloth et Hugging Face Jobs pour entraîner des modèles d'IA sans coûts financiers.

UEOffre gratuite d'entraînement de modèles d'IA via Unsloth et Hugging Face Jobs, permettant aux entreprises européennes, y compris en France, de déployer l'apprentissage automatique sans dépenser, en conformité potentielle avec la future AI Act et RGPD.

RechercheOutil

1 source

2MarkTechPost

Comment construire une boucle de recherche autonome en machine learning dans Google Colab avec le framework AutoResearch d'Andrej Karpathy pour la découverte d'hyperparamètres et le suivi d'expériences

Ce tutoriel implémente une version du framework AutoResearch d'Andrej Karpathy dans Google Colab, créant un pipeline d'expérimentation automatisé qui modifie programmatiquement les hyperparamètres de train.py, lance des itérations d'entraînement et évalue les modèles via la métrique bits-per-byte. La boucle de recherche autonome clone le dépôt AutoResearch, ajuste des paramètres comme MAXSEQLEN, DEPTH ou DEVICEBATCHSIZE, puis enregistre chaque expérience dans un tableau structuré. L'objectif est de reproduire le concept de recherche ML autonome — tester, évaluer, conserver les meilleures configurations — sans infrastructure spécialisée ni GPU dédié.

RechercheTuto

1 source

3MarkTechPost

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Des chercheurs de l'Université de Californie à Berkeley, dans le cadre du projet UCCL, ont publié mKernel, une bibliothèque de noyaux CUDA persistants conçue pour fusionner les communications inter-GPU et le calcul en un seul et même noyau. Le problème qu'ils adressent est chiffré avec précision : dans les charges de travail d'IA en production, les communications peuvent absorber jusqu'à 43,6 % du temps de passe avant (forward pass) et 32 % du temps d'entraînement de bout en bout. Sur les modèles Mixture-of-Experts (MoE), cette proportion grimpe à 47 % du temps d'exécution total. mKernel propose cinq noyaux fusionnés couvrant les opérations les plus courantes : AllGather + GEMM, GEMM + AllReduce, dispatch MoE + GEMM, Ring Attention et GEMM + ReduceScatter. Chaque noyau fusionne simultanément les communications NVLink intra-nœud, le RDMA inter-nœud et le calcul dense, le tout orchestré directement par le GPU sans passer par le processeur central. Le gain fondamental de cette approche réside dans l'élimination du goulet d'étranglement lié au pilotage par le CPU. Dans le modèle classique, le processeur central contrôle les flux d'exécution et appelle des bibliothèques comme NCCL ou NVSHMEM pour déclencher les opérations collectives. Or, à l'échelle des infrastructures modernes, un rack GB300 NVL72 intègre 72 GPU Blackwell Ultra, livrant 720 PFLOPS en FP8 et 130 To/s de bande passante NVLink, les latences microsecondes introduites par chaque appel CPU créent des bulles visibles dans le pipeline. mKernel supprime ce niveau d'indirection : le GPU lui-même initie les transferts RDMA via libibverbs, sans dépendance à NCCL ou NVSHMEM. À l'intérieur du noyau, les blocs de threads (CTAs) se spécialisent automatiquement en rôles distincts, calcul, communication intra-nœud, envoi et réduction inter-nœud, avec un nombre de SMs alloués à chaque rôle ajustable selon la forme des tenseurs. Ce travail s'inscrit dans une tendance de fond qui voit la communauté de recherche en systèmes distribués chercher à repousser les limites du parallélisme à très grande échelle. Les architectures MoE, popularisées notamment par les modèles de DeepSeek et Mixtral, amplifient les besoins de communication car chaque token doit être routé dynamiquement vers des experts potentiellement situés sur des nœuds différents. Les bibliothèques existantes comme Flux ou DeepEP avaient déjà exploré la fusion de noyaux, mais restaient généralement confinées à un seul nœud ou un seul GPU. mKernel, évalué sur deux clusters de 2 nœuds à 8 GPU H200 chacun, étend ce paradigme au cas multi-nœud, ouvrant la voie à des entraînements et inférences distribués où la communication cesse d'être un frein structurel à la scalabilité.

UELes laboratoires et entreprises européens entraînant des modèles distribués à grande échelle (notamment MoE) pourraient bénéficier indirectement de cette bibliothèque open-source pour réduire leur overhead de communication inter-GPU.

RecherchePaper

1 source

4MarkTechPost

Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO

Mamba-3, développé par des chercheurs de CMU, Princeton, Together AI et Cartesia AI, est un modèle innovant qui aborde les contraintes liées à l'efficacité inference dans les Grandes Modèles de Langage (LLM). Il s'appuie sur le cadre des Modèles d'État Espace (SSM) et introduit trois mises à jour méthodologiques clés : la discrétisation exponentielle-trapézoidale, les mises à jour d'état complexes-valeurs et une formulation Multi-Input Multi-Output (MIMO). Ces améliorations permettent à Mamba-3 de fonctionner efficacement avec une taille d'état réduite de moitié par rapport aux précédents modèles, tout en optimisant l'efficacité matérielle pour le décodage.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic