Aller au contenu principal
Avec sa puce Napier, Tensordyne veut faire 13x à 17x mieux que les GPU NVIDIA
InfrastructureNext INpact2h· 2 min de lecture

Avec sa puce Napier, Tensordyne veut faire 13x à 17x mieux que les GPU NVIDIA

Source originale ↗·

Tensordyne, une start-up germano-américaine, a présenté sa puce Napier avec des promesses qui font tourner les têtes dans l'industrie des semi-conducteurs dédiés à l'IA : jusqu'à 13 fois plus de tokens par seconde que les GPU NVIDIA, avec une efficacité pouvant atteindre 17 fois supérieure selon les configurations testées. Le coeur de cette performance repose sur une idée mathématique ancienne mais rarement appliquée au silicium à cette échelle : remplacer les multiplications en virgule flottante par des additions en espace logarithmique. Concrètement, lorsqu'on travaille avec des logarithmes, multiplier deux nombres revient à additionner leurs logarithmes, une opération nettement moins gourmande en transistors et en énergie sur un circuit intégré. C'est ce que Tensordyne appelle sa "sauce secrète", formalisée dans l'architecture de la puce Napier.

L'enjeu est considérable car les modèles de langage modernes sont des machines à calcul d'une intensité rare. GPT-3, avec ses 175 milliards de paramètres, mobilise environ 350 milliards d'opérations par token généré, principalement des multiplications matricielles. Si Tensordyne tient ses promesses, la réduction du coût énergétique et matériel par inférence pourrait transformer l'économie du déploiement de l'IA en production : moins de serveurs pour le même débit, ou un débit bien plus élevé pour le même budget infrastructure. Pour les data centers, les fournisseurs cloud et les entreprises qui font tourner des modèles en continu, ce ratio performance/watt est directement traduit en dollars sur les factures électriques et en capacité de montée en charge.

NVIDIA domine aujourd'hui le marché des accélérateurs IA grâce à ses GPU et surtout à son écosystème logiciel CUDA, devenu un standard de facto que les concurrents peinent à contourner. Des alternatives existent, notamment les TPU de Google ou les puces d'Intel et AMD, mais aucune n'a réussi à briser l'inertie de la base installée CUDA. Tensordyne arrive donc sur un terrain très défendu, avec une approche architecturale radicalement différente qui suppose de reconstruire une chaîne logicielle compatible. L'arithmétique logarithmique n'est pas nouvelle en informatique, mais son application systématique aux réseaux de neurones à très grande échelle est encore largement expérimentale. Les prochains mois diront si Napier tient ses benchmarks en conditions réelles et si la start-up parvient à convaincre suffisamment d'acteurs pour constituer un écosystème viable face au titan de Santa Clara.

Impact France/UE

La dimension germanique de cette start-up germano-américaine ouvre une piste pour l'écosystème semi-conducteur européen, mais les performances annoncées restent non vérifiées de manière indépendante.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant
1AI News 

La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant

Nvidia a publié mercredi ses résultats du premier trimestre fiscal avec un chiffre d'affaires de 81,62 milliards de dollars, dépassant les 78,86 milliards attendus par les analystes. La guidance pour le deuxième trimestre est fixée à 91 milliards, là encore au-dessus des 86,84 milliards anticipés par Wall Street. Mais lors de la conférence avec les analystes, le PDG Jensen Huang a mis en avant un élément stratégique souvent éclipsé par les chiffres trimestriels : le processeur Vera. Huang estime que cette puce CPU ouvre un marché adressable de 200 milliards de dollars, entièrement distinct du marché d'un billion de dollars déjà projeté pour les GPU Blackwell et Rubin entre 2025 et 2027. Il prévoit que les revenus issus de Vera atteindront 20 milliards de dollars d'ici la fin de l'exercice fiscal en cours, ce qui en ferait le deuxième poste de revenus de l'entreprise. La plateforme complète Vera Rubin, combinant le CPU Vera avec les GPU Rubin, doit être lancée plus tard cette année. La mise sur Vera répond à une menace structurelle sur le segment de l'inférence. Google, Amazon et Microsoft devraient investir collectivement plus de 700 milliards de dollars dans l'infrastructure IA cette année, contre environ 400 milliards en 2025, mais développent simultanément leurs propres puces maison pour faire tourner les modèles d'IA à grande échelle. Les TPU de Google, Trainium d'Amazon, ainsi que les offres d'Intel et AMD positionnent désormais sérieusement leurs processeurs sur l'inférence, le maillon où la domination GPU de Nvidia est la plus exposée. Entraîner de grands modèles reste le terrain de chasse exclusif de Nvidia, mais générer des réponses en temps réel et à l'échelle, c'est là que la concurrence fait son chemin. La puce Vera a été développée en partie grâce à une technologie issue de Groq, une startup spécialisée dans l'inférence, dans le cadre d'un accord de licence estimé à environ 17 milliards de dollars. L'enjeu immédiat reste l'approvisionnement. Huang a reconnu sans détour que Nvidia sera probablement en tension sur les stocks durant toute la durée de vie de la plateforme Vera Rubin. Pour anticiper, les engagements d'approvisionnement de l'entreprise ont bondi à 119 milliards de dollars au premier trimestre, contre 95,2 milliards le trimestre précédent. Nvidia a également annoncé un programme de rachat d'actions de 80 milliards de dollars et relevé son dividende trimestriel de 1 centime à 25 cents par action. Malgré ces signaux de confiance, le titre a reculé de 1,6 % en after-hours : les analystes estiment que les performances record sont désormais intégrées dans le cours. La vraie question est de savoir si Nvidia peut convaincre que la dynamique de dépenses en IA restera solide jusqu'en 2027 et 2028, dans un contexte où les géants du cloud bâtissent activement des alternatives à ses GPU.

UELes entreprises européennes et data centers qui dépendent des GPU Nvidia pour leurs infrastructures IA pourraient être confrontés à des tensions d'approvisionnement prolongées sur la plateforme Vera Rubin, avec un impact potentiel sur les coûts et délais de déploiement.

💬 Le chiffre qui compte vraiment, c'est pas les 81 milliards de revenus. C'est que Google, Amazon et Microsoft vont dépenser 700 milliards en infra IA cette année, en bonne partie pour construire leurs propres puces et sortir de la dépendance Nvidia sur l'inférence. Vera, c'est Jensen qui joue défensif avant que les dégâts arrivent, et c'est ça que les résultats record font oublier.

InfrastructureOpinion
1 source
Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia
2The Information AI 

Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia

Les puces Trainium d'Amazon commencent à séduire les développeurs d'intelligence artificielle, marquant une étape importante dans la stratégie du géant du cloud pour concurrencer Nvidia. Anthropic et OpenAI, qui ont conclu des accords d'investissement et d'infrastructure de plusieurs milliards de dollars avec Amazon, se sont déjà engagés à louer de grandes quantités de capacité Trainium, aussi bien les générations actuelles que futures. Des améliorations logicielles récentes ont en outre convaincu une demi-douzaine de développeurs plus modestes, selon des personnes qui utilisent ou travaillent avec ces puces, d'envisager de transférer davantage de leurs charges de travail vers cette architecture propriétaire d'AWS. Ce changement de perception est significatif pour l'industrie. Nvidia contrôle aujourd'hui plus de 80 % du marché des puces d'entraînement d'IA, ce qui lui confère un pouvoir de fixation des prix considérable. Si Amazon parvient à convaincre même une fraction des développeurs de basculer vers Trainium, cela pourrait réduire la dépendance structurelle de l'écosystème IA envers un seul fournisseur et faire pression sur les marges exceptionnelles de Nvidia. Amazon développe ses propres siliciums depuis plusieurs années, après le rachat d'Annapurna Labs en 2015. La stratégie repose sur l'intégration verticale : proposer des puces optimisées pour les services AWS, avec des prix potentiellement inférieurs à ceux des GPU H100 et H200 de Nvidia. L'adhésion d'acteurs aussi stratégiques qu'Anthropic, dans lequel Amazon a investi plus de 4 milliards de dollars, constitue à la fois une validation technique et un levier commercial pour attirer d'autres clients vers l'écosystème Trainium.

UELes développeurs et entreprises européennes hébergés sur AWS pourraient bénéficier d'une alternative moins coûteuse aux GPU Nvidia si l'adoption de Trainium se généralise, réduisant la dépendance structurelle de l'écosystème IA à un unique fournisseur de silicium.

💬 Quand Anthropic et OpenAI "adoptent" Trainium, faut garder en tête qu'Amazon leur a mis des milliards sur la table, donc c'est une validation arrangée autant que technique. Ce qui compte vraiment, c'est la demi-douzaine de développeurs indépendants qui commencent à y basculer des workloads pour des raisons de coût, sans deal en arrière-plan. C'est ce signal-là qui a du poids.

InfrastructureOpinion
1 source
NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions
3NVIDIA AI Blog 

NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions

Au festival Cannes Lions, qui se tient du 22 au 26 juin en France, plusieurs entreprises partenaires de NVIDIA présentent leurs solutions d'intelligence artificielle pour transformer la publicité et le marketing à grande échelle. Parmi elles : Alembic, Amazon Web Services (AWS), Criteo, Higgsfield, KERV.ai et Taboola. Alembic, spécialisée dans l'IA causale, sera la première entreprise du secteur à utiliser les systèmes NVIDIA DGX Vera Rubin SuperPODs pour modéliser les véritables moteurs de croissance marketing, non plus de simples corrélations, mais des relations de causalité réelles entre canaux, marchés et audiences. Criteo, qui gère l'un des plus grands réseaux de recommandation publicitaire au monde, a quant à elle atteint une accélération d'environ deux fois plus rapide dans l'entraînement de ses modèles grâce aux GPU NVIDIA Blackwell et à la bibliothèque open source cuEmbed, libérant ainsi près de 17 000 heures de GPU par an. AWS propose de son côté une pile d'infrastructure clé en main pour les acteurs de l'adtech, permettant de faire tourner des modèles d'IA directement dans les fenêtres d'enchères en temps réel via NVIDIA Triton Inference Server. Taboola utilise ces mêmes GPU pour alimenter DeeperDive, son moteur de réponses conversationnelles. Ces annonces illustrent un basculement profond dans l'industrie publicitaire : là où le numérique avait apporté la vitesse, l'IA apporte désormais l'autonomie opérationnelle. Pour les régies et plateformes publicitaires, l'enjeu n'est plus de savoir si elles adopteront l'IA, mais si leur infrastructure pourra suivre le rythme. La capacité à enchérir, recommander et optimiser en quelques millisecondes sur des milliards de transactions quotidiennes nécessite une puissance de calcul que seuls les GPU spécialisés peuvent fournir aujourd'hui. Pour Criteo, gagner 17 000 heures GPU par an, c'est concrètement réduire les coûts de calcul tout en améliorant la pertinence des recommandations produit pour des centaines de millions d'acheteurs. Pour les annonceurs utilisant AWS, passer de règles manuelles à des modèles d'IA pour l'optimisation des prix d'enchère représente un avantage concurrentiel direct sur les marchés programmatiques. Cette convergence entre NVIDIA et l'écosystème publicitaire s'inscrit dans une dynamique plus large d'industrialisation de l'IA à l'échelle des entreprises. NVIDIA, dont les GPU dominent le marché de l'entraînement des modèles d'IA, cherche désormais à s'imposer aussi dans l'inférence à la milliseconde, le moment où l'IA doit prendre une décision en production. Cannes Lions, rendez-vous annuel de l'industrie créative et publicitaire mondiale, devient ainsi une vitrine technologique où les fournisseurs d'infrastructure rivalisent pour convaincre les grandes marques et agences que l'IA agentique, des systèmes capables de planifier, exécuter et optimiser des campagnes de manière autonome, est désormais prête pour le déploiement en entreprise.

UECriteo, acteur français majeur de l'adtech, économise 17 000 heures GPU par an grâce aux puces NVIDIA Blackwell, renforçant directement sa compétitivité sur les marchés programmatiques européens.

💬 Le festival le plus glamour de la pub qui se transforme en vitrine GPU, ça dit quelque chose sur où en est vraiment l'IA. Ce qui change ici, c'est le pivot de NVIDIA vers l'inférence temps réel : dominer l'entraînement c'était bien, mais dominer la décision à la milliseconde dans les enchères programmatiques, c'est là où se jouent les vraies marges. Criteo qui gagne 17 000 heures GPU par an sur ses modèles, c'est pas du marketing.

InfrastructureActu
1 source
NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents
4NVIDIA AI Blog 

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

NVIDIA et Google Cloud ont annoncé cette semaine, lors de la conférence Google Cloud Next à Las Vegas, une nouvelle étape majeure dans leur partenariat vieux de plus de dix ans. Au cœur de l'annonce : le lancement des instances bare-metal A5X, alimentées par les systèmes rack NVIDIA Vera Rubin NVL72, qui promettent un coût d'inférence jusqu'à dix fois inférieur et un débit de tokens dix fois plus élevé par mégawatt par rapport à la génération précédente. Ces infrastructures s'appuient sur les interconnexions NVIDIA ConnectX-9 SuperNICs couplées au réseau Google Virgo de nouvelle génération, permettant de déployer des clusters allant jusqu'à 80 000 GPU Rubin sur un site unique, et jusqu'à 960 000 GPU dans une configuration multisite. Par ailleurs, Google Cloud met en préversion les modèles Gemini sur Google Distributed Cloud avec les GPU NVIDIA Blackwell et Blackwell Ultra, ainsi que des machines virtuelles confidentielles garantissant le chiffrement des données en cours d'utilisation. Des acteurs comme OpenAI et Thinking Machines Lab utilisent déjà ces infrastructures pour des charges d'inférence massives, notamment pour faire tourner ChatGPT. Ces annonces représentent un saut qualitatif significatif pour les entreprises qui cherchent à industrialiser l'IA agentique et l'IA physique, c'est-à-dire les systèmes capables d'agir de manière autonome dans des environnements réels, comme les robots ou les jumeaux numériques en usine. La réduction drastique des coûts d'inférence change concrètement l'équation économique pour les développeurs d'applications IA à grande échelle. La possibilité de déployer les modèles Gemini en environnement souverain, sur des données sensibles restant chiffrées y compris pendant leur traitement, répond à une exigence croissante des entreprises et des gouvernements en matière de conformité et de confidentialité. L'intégration de modèles ouverts NVIDIA Nemotron dans la plateforme Gemini Enterprise Agent Platform élargit également les options des équipes techniques qui souhaitent combiner modèles propriétaires et open source. Ce partenariat s'inscrit dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets d'infrastructure IA, qui se chiffrent désormais en dizaines de milliards de dollars annuellement. Google Cloud cherche à rattraper son retard sur AWS et Microsoft Azure, qui ont pris de l'avance sur l'hébergement des charges d'entraînement et d'inférence des grands modèles de langage. En s'associant étroitement à NVIDIA, dont les GPU dominent encore largement le marché de l'accélération IA, Google se positionne comme une plateforme de référence pour la prochaine vague, celle des agents autonomes et de la robotique industrielle. La feuille de route annoncée, avec la transition de Blackwell vers Vera Rubin, suggère que la cadence d'innovation s'accélère et que les entreprises devront adapter leur infrastructure régulièrement pour rester compétitives.

UELe déploiement souverain de Gemini sur Google Distributed Cloud avec chiffrement des données en cours d'utilisation répond aux exigences RGPD des entreprises européennes traitant des données sensibles.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic