Dossier NVIDIA — page 6

296 articles · page 6 sur 6

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

251AWS ML Blog InfrastructureActu

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Amazon a annoncé que SageMaker AI prend désormais en charge les recommandations optimisées pour le déploiement de modèles d'IA générative en production. Cette nouvelle fonctionnalité s'appuie sur NVIDIA AIPerf, un composant modulaire du framework open source NVIDIA Dynamo, pour fournir automatiquement des configurations de déploiement validées accompagnées de métriques de performance précises. Concrètement, SageMaker AI évalue les combinaisons d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, puis restitue aux équipes les configurations les plus adaptées à leurs exigences de latence, de débit ou de coût. Eliuth Triana, Developer Relations Manager chez NVIDIA, a salué l'intégration, soulignant qu'elle permet aux entreprises de déployer des modèles d'IA générative avec confiance, en remplaçant des semaines de tests manuels par des configurations prêtes à l'emploi. L'enjeu est considérable pour les équipes d'ingénierie. Aujourd'hui, passer d'un modèle entraîné à un endpoint de production opérationnel prend entre deux et trois semaines par modèle, une durée imposée par la nécessité de tester manuellement des dizaines de configurations possibles : plus d'une douzaine de types d'instances GPU, plusieurs conteneurs de service, différents degrés de parallélisme, et des techniques comme le décodage spéculatif. Sans guidance validée, les équipes provisionnent des instances, déploient le modèle, exécutent des tests de charge, analysent les résultats, puis recommencent. Ce cycle mobilise une expertise en infrastructure GPU et en frameworks de service que la plupart des équipes ne possèdent pas en interne, conduisant systématiquement à du sur-provisionnement coûteux. AWS élimine ce goulot d'étranglement en automatisant l'ensemble du processus d'exploration et de validation des configurations. Cette évolution s'inscrit dans une course à la mise en production de l'IA générative que se livrent les entreprises pour alimenter leurs assistants intelligents, outils de génération de code et moteurs de contenu. Le coût du sur-provisionnement GPU, qui s'accumule à chaque modèle déployé et à chaque mois d'exploitation, représente un problème structurel pour l'industrie. AWS s'appuie sur sa collaboration technique approfondie avec NVIDIA, formalisée ici par l'intégration directe des composants de Dynamo dans SageMaker, pour s'imposer comme la plateforme cloud de référence pour les déploiements d'IA en production. En standardisant le benchmarking via AIPerf, dont les contrôles de concurrence et les options de jeux de données permettent d'itérer rapidement sur des scénarios variés, Amazon réduit la barrière technique pour les organisations qui cherchent à industrialiser leurs modèles sans constituer une équipe d'experts en infrastructure dédiée.

UELes entreprises européennes utilisant AWS SageMaker peuvent réduire leurs délais de mise en production de modèles IA de plusieurs semaines, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

Dossier NVIDIA — page 6

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

La réalité virtuelle pour faciliter la collecte de données dans les tâches d'IA incarnée

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

Inférence LLM accélérée par décodage spéculatif sur AWS Trainium et vLLM

Repenser le coût total de l'IA : pourquoi le coût par token est la seule métrique qui compte

OpenAI affirme à ses investisseurs que son infrastructure lui donne un avantage sur Anthropic

CPUs, GPUs, TPUs, NPUs et LPUs : cinq architectures de calcul IA que tout ingénieur doit connaître

Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi

Gemma 4 : le nouveau modèle d’IA de Google s’invite sur Nintendo Switch

Départs, réorganisation, portrait de Sam Altman, entrée en bourse : ça patine chez OpenAI

Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?

L'entrainement decentralise peut aider a resoudre les problemes energetiques de l'IA

Comment Intel compte utiliser l’IA pour diviser le poids de vos jeux PC par 18

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch

MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter

Semaine nationale de la robotique : dernières avancées en IA physique et ressources

Cognichip lève 60 M$ pour confier la conception des puces à l’IA

AWS met à l'échelle des modèles de fondation sismiques : entraînement distribué avec Amazon SageMaker HyperPod et extension des fenêtres de contexte

Comment installer NemoClaw en 5 minutes : guide pas-à-pas

L'IA peut appuyer sur les boutons de votre Stream Deck à votre place

En plein doute sur l’IA, Trump crée un « Conseil des Sages » avec Mark Zuckerberg et Jensen Huang

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Meta recrute une équipe star de l’IA pour créer les assistants du futur

Une visite exclusive du laboratoire Trainium d'Amazon, la puce qui a conquis Anthropic, OpenAI et même Apple

Vidéo du vendredi : un robot humanoïde apprend à jouer au tennis face à des humains

Voici Giga, un développeur de centres de données IA qui a levé très peu de capital

IA dans l’espace : Starcloud veut placer 80 000 satellites datacenters en orbite

Unsloth AI lance Unsloth Studio : une interface locale sans code pour l'affinage haute performance des LLM avec 70 % de VRAM en moins

Alibaba lance une plateforme d'agents IA pour les entreprises

DLSS 5 ressemble à un filtre IA génératif en temps réel pour les jeux vidéo

Les avantages de l'IA physique deviennent l'arme secrète de la fabrication

Meta dévoile quatre générations de puces IA maison pour réduire les coûts d'inférence pour des milliards d'utilisateurs

Ai2 : développer une IA physique grâce aux données de simulation virtuelle

Meta développe 4 nouvelles puces pour alimenter ses systèmes d'IA et de recommandation

Nouvel alliance pour offrir des robots intelligents dans des environnements à haut risque

Une IA qui « voit » le monde : le pari à 1 milliard de dollars de Yann LeCun

Le Téléchargement : Le rôle de l'IA dans la guerre en Iran et un conflit juridique en escalade

OpenAI et Oracle abandonnent l'extension du campus Stargate au Texas

Sandberg et Clegg rejoignent le conseil d'administration de Nscale alors que cette start-up norvégienne « Stargate Norway » atteint une valorisation de 14,6 milliards de dollars

Andrej Karpathy publie « Autorecherche », un outil Python de 630 lignes permettant aux agents IA de mener des expériences de ML en autonomie sur un seul GPU

L'IA physique fait son entrée triomphale et tout le monde veut en profiter

Présentation de Stargate UK

Critiques de règles: Un modèle d'apprentissage automatique sous la loupe