Aller au contenu principal
Aucune GPU ne sera oubliée : Débloquer l'efficacité avec des vLLM co-localisés dans TRL
RechercheHuggingFace Blog48sem

Aucune GPU ne sera oubliée : Débloquer l'efficacité avec des vLLM co-localisés dans TRL

Résumé IASource uniqueImpact UE
Source originale ↗·

Titre: Personne n'est laissé pour compte : Débloquer l'efficacité avec des vLLM co-localisés dans TRL

Résumé: L'article explore l'utilisation de modèles linguistiques généraux de grande taille (vLLM) co-localisés dans le contexte de TRL (environnement de test en laboratoire) pour améliorer l'efficacité et la collaboration entre les GPU (unités de traitement graphique). Les expériences montrent une amélioration significative des performances, réduisant ainsi les déchets de ressources et augmentant l'utilisation des GPU. Des résultats prometteurs pour l'optimisation des systèmes de calcul.

Impact France/UE

Dans le contexte de l'Union Européenne, cette approche de co-localisation des vLLM dans les TRL pourrait améliorer l'efficacité des centres de données européens, réduisant ainsi la consommation énergétique et les coûts pour les entreprises technologiques européennes, comme OVHcloud ou Bull, impliquées dans les infrastructures de calcul à grande échelle, tout en respectuant les exigences de l'AI Act et du RGPD.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Amazon Science 

Optimiser la sélection des modules cibles LoRA pour un affinage efficace

Une étude d'ablation menée par des chercheurs d'Amazon sur le modèle Nova 2.0 Lite identifie le module oproj comme le point d'insertion optimal pour les adaptateurs LoRA, offrant le meilleur compromis entre efficacité et précision lors du fine-tuning. LoRA permet d'affiner des LLMs en gelant les poids du modèle de base et en ajoutant de légères matrices dans des sous-couches spécifiques, réduisant ainsi les coûts GPU, la mémoire et la latence d'inférence. Plutôt que de cibler tous les modules (coûteux), cibler uniquement oproj — une transformation linéaire qui fusionne les représentations des têtes d'attention — préserve l'essentiel des gains de performance avec une efficacité significativement améliorée.

RecherchePaper
1 source
2MarkTechPost 

Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO

Mamba-3, développé par des chercheurs de CMU, Princeton, Together AI et Cartesia AI, est un modèle innovant qui aborde les contraintes liées à l'efficacité inference dans les Grandes Modèles de Langage (LLM). Il s'appuie sur le cadre des Modèles d'État Espace (SSM) et introduit trois mises à jour méthodologiques clés : la discrétisation exponentielle-trapézoidale, les mises à jour d'état complexes-valeurs et une formulation Multi-Input Multi-Output (MIMO). Ces améliorations permettent à Mamba-3 de fonctionner efficacement avec une taille d'état réduite de moitié par rapport aux précédents modèles, tout en optimisant l'efficacité matérielle pour le décodage.

RecherchePaper
1 source
L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états
3Apple Machine Learning 

L'utilisation d'outils débloque la généralisation en longueur dans les modèles à espace d'états

Des chercheurs ont publié une étude démontrant une limite fondamentale des State Space Models (SSMs), la famille d'architectures neuronales considérée comme la principale alternative aux Transformers pour le traitement de séquences longues. Leur résultat théorique, formellement prouvé, établit qu'aucun SSM ne peut résoudre avec précision ce qu'ils appellent un problème de "génération véritablement longue" — c'est-à-dire des tâches nécessitant de maintenir et manipuler de l'information sur des contextes dépassant la capacité effective de leur mémoire fixe. Cette conclusion s'applique aux architectures SSM dans leur forme standard, indépendamment de leur taille ou de leur entraînement. Cette découverte fragilise l'argument central qui faisait la réputation des SSMs : leur efficacité sur les longues séquences. Contrairement aux Transformers, dont la complexité computationnelle croît quadratiquement avec la longueur du contexte, les SSMs fonctionnent en mémoire fixe avec une complexité linéaire — ce qui les rendait théoriquement supérieurs pour les tâches longue portée. Si cette limite est confirmée, elle remet en question l'usage des SSMs dans des applications critiques comme la synthèse de documents longs, le raisonnement multi-étapes ou la génération de code étendu. Les chercheurs proposent néanmoins une solution : doter les SSMs d'un accès interactif à des outils externes. Cette approche, qui s'inscrit dans la tendance plus large du "tool use" en IA, permettrait aux modèles de contourner leur contrainte mémoire en déléguant certaines opérations à des systèmes externes. Les SSMs rejoignent ainsi les Transformers dans une convergence vers des architectures hybrides augmentées d'outils, suggérant que la prochaine génération de modèles efficaces ne sera pas définie par l'architecture seule, mais par sa capacité à s'interfacer avec son environnement.

RecherchePaper
1 source
Le Standard d'Évaluation Ouverte : Évaluation de NVIDIA Nemotron 3 Nano avec NeMo Evaluator
4HuggingFace Blog 

Le Standard d'Évaluation Ouverte : Évaluation de NVIDIA Nemotron 3 Nano avec NeMo Evaluator

Le Standard d'Évaluation Ouverte : Comparaison de NVIDIA Nemotron 3 Nano avec NeMo Evaluator Ce texte présente l'utilisation du NeMo Evaluator pour tester les performances du NVIDIA Nemotron 3 Nano, un modèle de processeur AI, en se basant sur le Standard d'Évaluation Ouverte. Les résultats mettent en évidence des améliorations significatives en termes de vitesse et d'efficacité énergétique par rapport aux versions précédentes.

UELe NeMo Evaluator a évalué le NVIDIA Nemotron 3 Nano, un processeur AI, selon le Standard d'Évaluation Ouverte, révélant des améliorations notables en vitesse et en efficacité énergétique, bénéfique pour les entreprises européennes comme NVIDIA, et aligné avec les objectifs de l'AI Act sur l'efficacité énergétique, tout en respectant le RGPD dans la gestion des données.

RechercheOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour