Aller au contenu principal
☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0
InfrastructureNext INpact6sem· 1 min de lecture

☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0

Source originale ↗·

AMD a officiellement présenté l'Instinct MI350P, un nouveau GPU d'intelligence artificielle destiné aux serveurs standards. Cette carte se distingue de ses aînées MI350X et MI355X par son format PCIe 5.0, qui lui permet d'être installée directement dans un serveur ou un ordinateur classique, sans infrastructure spécialisée. Elle repose sur la même architecture CDNA4 que le reste de la famille MI350, mais avec des caractéristiques exactement divisées par deux : 144 Go de mémoire HBM3E contre 288 Go pour la MI350X, une bande passante mémoire de 4 To/s contre 8 To/s, et 8 192 processeurs de flux pour 4,6 PFLOPS en précision MXFP4, là où la MI350X atteint 9,2 PFLOPS avec ses 16 384 processeurs. Le TDP est plafonné à 600 watts, la fréquence reste à 2,2 GHz, et la carte occupe deux emplacements. Le prix n'a pas encore été communiqué.

Cette MI350P cible en priorité les charges d'inférence, c'est-à-dire l'exécution de modèles d'IA déjà entraînés, plutôt que leur apprentissage. Son format PCIe standard ouvre le marché des IA aux opérateurs disposant de parcs de serveurs classiques, qui n'ont pas les moyens ou la nécessité d'investir dans des infrastructures haute densité avec refroidissement liquide. Pour les entreprises cherchant à déployer des modèles de taille intermédiaire à moindre coût d'intégration, la MI350P représente une alternative sérieuse face aux offres concurrentes de NVIDIA sur ce segment.

Cette annonce s'inscrit dans une stratégie AMD clairement articulée : couvrir l'ensemble du spectre de performance avec des variantes adaptées à chaque usage. Après avoir lancé la MI350X pour les supercalculateurs et la MI355X avec refroidissement liquide pour les déploiements à très haute densité, AMD comble le segment des serveurs polyvalents avec la MI350P. La pression de NVIDIA reste intense, notamment avec la famille Blackwell, mais AMD cherche à convaincre les grands hyperscalers et les entreprises cloud de diversifier leurs approvisionnements. La prochaine étape sera la communication des tarifs, un signal décisif pour évaluer la compétitivité réelle de cette carte sur le marché de l'inférence IA.

Impact France/UE

Les entreprises européennes exploitant des parcs de serveurs classiques pourraient déployer de l'inférence IA à moindre coût d'intégration grâce au format PCIe 5.0, sans investissement en infrastructure haute densité.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V
1Pandaily 

Yixing Intelligence lève 1,5 milliard de yuans en série B pour ses puces IA RISC-V

La startup chinoise de puces IA Yixing Intelligence a annoncé le 22 avril 2026 la clôture d'un tour de série B de 1,5 milliard de yuans, soit environ 210 millions de dollars. Le tour a été co-piloté par plusieurs fonds d'investissement industriels basés à Pékin, avec la participation de multiples investisseurs institutionnels. Fondée en 2022, l'entreprise se spécialise dans les puces IA basées sur l'architecture RISC-V. Sa gamme phare, la série Epoch, cible les grands modèles de langage et les charges de travail en apprentissage profond, avec un support de la précision FP8 et une compatibilité avec des formats de précision inférieure pour améliorer l'efficacité et la flexibilité du déploiement. Yixing propose une solution complète couvrant les puces, les cartes accélératrices PCIe et les clusters de serveurs, accompagnée d'un écosystème logiciel intégrant compilateurs et systèmes d'exécution. Ce financement intervient à un moment où la Chine cherche activement à développer une industrie des semi-conducteurs indépendante face aux restrictions américaines à l'exportation. Pour les acteurs de l'IA qui déploient des infrastructures de calcul intensif, une solution comme celle de Yixing représente une alternative crédible aux GPU d'Nvidia, dont l'accès est de plus en plus limité pour les entreprises chinoises. La technologie d'interconnexion haute vitesse propriétaire de la société, qui permet des déploiements multi-noeuds à grande échelle, répond directement aux besoins des centres de données entraînant des modèles de plusieurs milliards de paramètres. L'essor de Yixing Intelligence s'inscrit dans une dynamique plus large de montée en puissance des champions nationaux de semi-conducteurs en Chine, portée à la fois par les politiques industrielles de Pékin et par l'urgence stratégique créée par les contrôles à l'exportation américains sur les puces avancées. L'architecture RISC-V, ouverte et libre de droits, est au coeur de cette stratégie : elle permet aux entreprises chinoises de concevoir des puces sans dépendre de la propriété intellectuelle d'ARM ou d'x86, majoritairement détenue par des sociétés occidentales. Les fonds levés seront utilisés pour accélérer la mise en production de masse, développer la prochaine génération de produits et élargir l'écosystème partenaire, ce qui laisse anticiper une montée en puissance commerciale significative dans les prochains mois.

InfrastructureActu
1 source
Micron dépasse les 1 000 milliards de dollars grâce à la demande en IA
2Le Big Data 

Micron dépasse les 1 000 milliards de dollars grâce à la demande en IA

Micron Technology a franchi pour la première fois le seuil symbolique des 1 000 milliards de dollars de capitalisation boursière le 26 mai 2026, après une séance boursière historique où son action a bondi de 19 %. Ce bond spectaculaire a été déclenché par une révision radicale des prévisions de la banque UBS, qui a quasiment triplé son objectif de cours pour Micron, passant de 535 à 1 625 dollars par action. Pour replacer l'ampleur de ce mouvement : il y a seulement quelques semaines, la valorisation du groupe dépassait à peine les 700 milliards de dollars, et il y a moins de 14 mois, elle s'établissait autour de 60 milliards. Depuis le début de l'année, l'action a plus que triplé, enregistrant une progression de l'ordre de 1 350 % en 413 jours. UBS justifie cette revalorisation par un changement structurel du marché de la mémoire, avec des contrats de long terme et des modèles de prix désormais plus stables. Ce franchissement du trillion illustre une bascule profonde dans la façon dont les investisseurs lisent le marché des semi-conducteurs. Le secteur de la mémoire vive (DRAM) et de la mémoire à haute bande passante (HBM) était historiquement considéré comme cyclique et volatil, soumis à des effondrements de prix réguliers. L'IA générative est en train de modifier cette équation : entraîner des modèles de grande taille, les stocker et les faire tourner en temps réel exige des quantités massives de mémoire haute performance. La demande mondiale dépasse désormais les capacités de production disponibles, ce qui permet aux fabricants d'augmenter leurs prix et de sécuriser des contrats pluriannuels. Pour les hyperscalers, les opérateurs de centres de données et les éditeurs de logiciels IA, cela signifie une pression accrue sur les coûts d'infrastructure et la nécessité de sécuriser leurs approvisionnements bien à l'avance. Pendant des années, NVIDIA et ses GPU ont capté l'essentiel de l'attention et des capitaux dans la chaîne de valeur IA. Micron incarne désormais un deuxième front : celui des infrastructures mémoire sans lesquelles les modèles ne peuvent tout simplement pas fonctionner. Le groupe américain n'est pas seul à en profiter, SK Hynix et Samsung Electronics se trouvent dans une position similaire, mais sa montée en puissance illustre une recomposition plus large de l'écosystème. Des entreprises comme AMD, Marvell Technology et Qualcomm atteignent également de nouveaux sommets, tandis qu'Intel tente de rattraper son retard. Si la dynamique se confirme, la mémoire avancée pourrait devenir un facteur aussi déterminant que les GPU dans la compétition mondiale autour de l'IA, transformant durablement les rapports de force entre fabricants de puces, fournisseurs cloud et développeurs de modèles.

UELa hausse structurelle des prix de la mémoire HBM et la sécurisation de contrats pluriannuels par les hyperscalers risquent d'alourdir les coûts d'infrastructure IA pour les opérateurs cloud et entreprises tech européens.

💬 La mémoire a toujours été le secteur ingrat des semis, cyclique, peu valorisé, qu'on regardait à peine. Là, 1 350 % en 413 jours, et c'est pas que de la spéculation : les pénuries structurelles de HBM et les contrats long terme changent vraiment le régime. C'est le genre de truc qui va rendre les budgets infra cloud bien plus douloureux à négocier.

InfrastructureOpinion
1 source
72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave
3Le Big Data 

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave

Dell a livré à CoreWeave le premier système NVIDIA Vera Rubin NVL72 opérationnel, un rack unique intégrant 72 GPU Rubin et 36 processeurs Vera personnalisés. Cette machine atteint une puissance de calcul de 3,6 exaFLOPS, soit une capacité suffisante pour entraîner et faire tourner des modèles d'intelligence artificielle comptant des milliers de milliards de paramètres. Le système adopte un refroidissement liquide intégral, désormais indispensable pour absorber la chaleur et la consommation énergétique générées par une telle densité de composants. CoreWeave, spécialiste américain du cloud GPU qui alimente déjà de nombreux acteurs de l'IA générative, devient ainsi l'un des premiers opérateurs au monde à déployer cette génération d'infrastructure dans un environnement de production réel. Ce déploiement illustre une tendance de fond qui redessine l'économie du calcul pour l'IA : la densification. Regrouper 72 GPU dans un seul rack ne relève pas de l'exploit pour la galerie, mais répond à une contrainte très concrète. Plus les modèles grossissent, plus les échanges de données entre composants deviennent un goulot d'étranglement. En rapprochant physiquement les GPU, on réduit les latences de communication et on améliore le débit global du système, ce qui se traduit directement par des temps d'inférence plus courts et une capacité d'entraînement plus élevée. Pour les opérateurs cloud qui facturent leurs clients à l'heure de GPU, cette efficacité accrue est un avantage compétitif direct. Pour les laboratoires qui entraînent les prochaines générations de modèles, c'est la condition nécessaire pour rester dans la course. Cette livraison s'inscrit dans un cycle d'escalade technologique qui s'accélère depuis le lancement de ChatGPT fin 2022. NVIDIA enchaîne les générations de puces à un rythme inédit : après les H100, les H200 et les Blackwell, la famille Vera Rubin représente la prochaine marche. Dell, longtemps perçu comme un constructeur de serveurs classiques, a clairement choisi de se repositionner comme intégrateur de référence pour les infrastructures d'IA à très grande échelle. CoreWeave, de son côté, a levé plusieurs milliards de dollars ces dernières années pour construire une alternative aux clouds hyperscalers comme AWS ou Google Cloud, spécifiquement taillée pour les charges de travail GPU intensives. La combinaison des deux acteurs sur ce premier déploiement Vera Rubin n'est pas anodine : elle signale que l'infrastructure d'IA de prochaine génération est prête à sortir des laboratoires pour entrer dans les centres de données commerciaux. À ce rythme, les 72 GPU d'aujourd'hui pourraient paraître modestes dès 2027.

UELa disponibilité commerciale de cette infrastructure GPU de prochaine génération conditionnera indirectement la compétitivité des acteurs européens de l'IA dans la course à l'entraînement de très grands modèles.

InfrastructureOpinion
1 source
AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement
4Le Big Data 

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

Lors de la conférence Computex 2026, Lisa Su, PDG d'AMD, a pris la scène avec un mini PC pas plus grand qu'un livre épais pour y faire tourner en direct un modèle d'intelligence artificielle de 235 milliards de paramètres, sans datacenter, sans cloud, sans carte graphique dédiée externe. La machine utilisée est équipée du processeur Ryzen AI Max+ 395 (nom de code Strix Halo), intégré notamment dans le GMKtec EVO-X2. Sa particularité tient à son architecture de mémoire unifiée : jusqu'à 128 Go de RAM partagée, dont 96 Go peuvent être alloués au GPU intégré en guise de VRAM. C'est précisément ce volume qui permet de charger des modèles d'une taille normalement réservée aux serveurs professionnels. Le tout s'exécute via des outils open source gratuits comme Ollama, sans abonnement ni limite d'usage imposée par un tiers. Ce qui change concrètement, c'est la barrière d'accès à l'inférence locale de très grands modèles. Jusqu'ici, faire tourner un LLM de plusieurs dizaines de milliards de paramètres exigeait soit une carte graphique haut de gamme à plusieurs milliers d'euros avec ses limitations de VRAM, soit la location de GPU dans le cloud, une facture récurrente qui peut vite peser sur les marges d'un indépendant ou d'une petite structure. AMD montre ici qu'un mini PC compact peut absorber ces charges de travail localement. Pour les entreprises manipulant des données sensibles, cabinets juridiques, services de santé, bureaux d'études, la promesse est double : confidentialité totale des documents traités et réduction significative des coûts d'infrastructure IA. Un consultant cité dans la démonstration affirme avoir remplacé ses locations de GPU par cette configuration, avec un impact positif sur la rentabilité de son activité. AMD ne part pas de zéro dans cette course, mais accuse encore du retard sur Nvidia. Son écosystème logiciel ROCm, équivalent maison du CUDA de Nvidia, progresse rapidement en compatibilité mais n'a pas encore atteint la maturité de son concurrent, ce qui peut freiner certains workflows spécialisés. Face à une RTX 5090, les performances de ce Ryzen AI Max+ 395 restent inférieures sur les modèles les plus exigeants. La démonstration d'AMD s'inscrit néanmoins dans une tendance de fond : la décentralisation de l'IA vers le matériel personnel, portée aussi bien par Apple Silicon que par les puces NPU embarquées dans les PC Copilot+. Le marché de l'IA embarquée représente un enjeu stratégique majeur pour les prochaines années, et cette annonce positionne AMD comme un acteur sérieux de l'inférence locale, aux côtés d'un Nvidia dont la domination sur le segment serveur reste, pour l'instant, intacte.

UELes entreprises européennes soumises au RGPD, cabinets juridiques, services de santé, bureaux d'études, disposent d'une option d'inférence IA locale à coût réduit, garantissant la confidentialité des données sans dépendance à des services cloud tiers.

💬 235 milliards de paramètres dans un boîtier format livre, c'est le genre de démo Computex qu'on met de côté... sauf que là, ça repose sur quelque chose de réel : la mémoire unifiée qui résout enfin le problème de VRAM qui nous bloquait depuis des années. Pour les cabinets, les services de santé, toutes les structures qui ne peuvent pas balancer leurs données sur le cloud, c'est une vraie porte qui s'ouvre. ROCm n'est pas encore CUDA, attention, mais pour de l'inférence locale avec Ollama, ça passe.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic