Aller au contenu principal

Dossier Blackwell — page 2

68 articles · page 2 sur 2

Suivi de l'architecture GPU Blackwell de Nvidia : puces, performances, disponibilité et adoption pour l'entraînement et l'inférence des modèles d'IA.

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes
51MarkTechPost InfrastructureActu

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

La LightSeek Foundation a publié TokenSpeed, un moteur d'inférence pour grands modèles de langage distribué en open source sous licence MIT. Encore en phase de préversion, TokenSpeed est conçu spécifiquement pour les charges de travail dites "agentiques", c'est-à-dire les systèmes d'IA qui enchaînent de multiples appels au modèle pour accomplir des tâches complexes, comme l'écriture ou la révision de code. L'objectif déclaré est d'atteindre des performances comparables à TensorRT-LLM de NVIDIA, tout en restant accessible à l'ensemble de l'écosystème. Le moteur vise à maintenir un débit minimum de 70 tokens par seconde par utilisateur, un seuil qui monte parfois à 200 TPS ou plus, tout en maximisant le nombre de tokens traités par GPU et par minute. L'enjeu dépasse la performance brute. Des outils comme Claude Code d'Anthropic, Codex d'OpenAI ou Cursor fonctionnent sur des contextes qui dépassent régulièrement 50 000 tokens et s'étalent sur des dizaines de tours de conversation, un profil très différent d'un simple chatbot. Or la plupart des benchmarks publics ne rendent pas compte de cette réalité. Lorsqu'un agent de développement logiciel analyse un dépôt entier, génère du code, exécute des tests et itère, chaque milliseconde de latence ajoutée se multiplie à chaque étape. Un moteur d'inférence mal adapté devient rapidement un goulot d'étranglement qui ralentit l'ensemble de la chaîne de production logicielle, et donc, à terme, les équipes d'ingénierie qui en dépendent. L'architecture de TokenSpeed repose sur cinq sous-systèmes complémentaires. Le premier est un mécanisme de parallélisme assisté par compilateur, basé sur le modèle SPMD (Single Program, Multiple Data), qui génère automatiquement les communications entre processus sans que le développeur n'ait à les écrire manuellement. Le planificateur de requêtes sépare strictement le plan de contrôle, implémenté en C++ sous forme de machine à états finis, du plan d'exécution écrit en Python, ce qui permet de détecter les erreurs de gestion du cache KV à la compilation plutôt qu'à l'exécution. Le troisième pilier est une couche de noyaux GPU modulaire et extensible, compatible avec des accélérateurs autres que ceux de NVIDIA, s'appuyant notamment sur l'un des noyaux MLA (Multi-head Latent Attention) les plus rapides disponibles pour les GPU Blackwell. Ce noyau MLA a d'ailleurs déjà été intégré dans vLLM, l'un des moteurs d'inférence open source les plus utilisés dans l'industrie. La fondation LightSeek positionne ainsi TokenSpeed comme une infrastructure commune pour l'ère où les agents IA deviennent le principal vecteur de production de code.

UELa disponibilité d'un moteur d'inférence open source compatible avec des accélérateurs non-NVIDIA pourrait réduire la dépendance des équipes européennes aux solutions propriétaires de NVIDIA.

1 source
HP et l'art de l'IA et des données pour les entreprises
52AI News 

HP et l'art de l'IA et des données pour les entreprises

À quelques jours du salon AI & Big Data Expo, prévu les 18 et 19 mai au McEnery Convention Center de San Jose, Jérôme Gabryszewski, responsable du développement commercial IA et Data Science chez HP, a accordé une interview à Artificial Intelligence News pour évoquer les défis concrets que rencontrent les grandes entreprises dans leur adoption de l'intelligence artificielle. Le constat est sans appel : malgré un accès abondant à leurs propres données, la plupart des organisations peinent à en tirer parti. La première embûche n'est pas technique : c'est la dette organisationnelle et architecturale. Avant d'automatiser quoi que ce soit, les entreprises doivent réconcilier des données éparpillées entre départements, des schémas incohérents et des systèmes legacy jamais conçus pour l'interopérabilité. Le travail de gouvernance précède toujours le déploiement technique. Sur la question des modèles en apprentissage continu, Gabryszewski recommande d'appliquer les mêmes exigences qu'un déploiement logiciel classique : aucune mise à jour en production sans validation formelle. La dérive conceptuelle est surveillée via des pipelines MLOps avec détection automatique, et la contamination des données d'entraînement est traitée comme un problème de traçabilité autant que de sécurité. Les entreprises qui maîtrisent ces risques ne sont pas forcément les plus avancées techniquement, mais celles qui ont intégré la gouvernance IA dans leur cadre de gestion des risques avant de passer à l'échelle. Ce positionnement a des implications concrètes pour des milliers d'équipes data qui cherchent à réduire leur dépendance au cloud sans sacrifier la puissance de calcul. La question du local versus cloud est au cœur des arbitrages actuels : chaque inférence envoyée dans le cloud représente un coût, une latence et une exposition potentielle de données sensibles. Disposer d'une infrastructure locale capable de faire tourner des modèles de grande taille change fondamentalement l'équation économique et réglementaire, notamment pour les secteurs soumis à des contraintes strictes comme la finance, la santé ou la défense. HP s'appuie sur quinze ans de développement de sa gamme professionnelle Z pour positionner son matériel comme épine dorsale de ce cycle IA autonome. Le ZBook Ultra et le Z2 Mini couvrent les usages mobiles et compacts, mais c'est le ZGX Nano qui attire l'attention : un supercalculateur IA de 15x15 cm, équipé du superpuce NVIDIA GB10 Grace Blackwell, 128 Go de mémoire unifiée et 1 000 TOPS de performance FP4, capable de faire tourner localement des modèles jusqu'à 200 milliards de paramètres. En interconnectant deux unités, on atteint 405 milliards de paramètres, sans cloud, sans datacenter, sans file d'attente. L'appareil est livré préconfiguré avec la pile logicielle NVIDIA DGX et le HP ZGX Toolkit, permettant aux équipes d'être opérationnelles en quelques minutes. HP vise ainsi le segment des équipes IA qui ont besoin de puissance souveraine et immédiate, à l'heure où la course aux modèles toujours plus grands redistribue les cartes du marché des workstations professionnelles.

InfrastructureActu
1 source