InfrastructureMIT Technology Review6sem

Mustafa Suleyman : le développement de l'IA ne va pas stagner de sitôt, voici pourquoi

Résumé IASource uniqueImpact UE

Mustafa Suleyman, PDG de Microsoft AI et cofondateur de DeepMind, affirme que le développement de l'intelligence artificielle n'est pas près de plafonner. Depuis ses débuts dans le domaine en 2010, la puissance de calcul consacrée à l'entraînement des grands modèles a été multipliée par mille milliards : on est passé d'environ 10¹⁴ opérations en virgule flottante pour les premiers systèmes à plus de 10²⁶ aujourd'hui. Les puces Nvidia ont vu leurs performances brutes multipliées par huit en six ans, passant de 312 téraflops en 2020 à 2 500 téraflops aujourd'hui. La mémoire à haute bande passante HBM3 triple le débit de données par rapport à sa génération précédente. Des interconnexions comme NVLink et InfiniBand permettent désormais de relier des centaines de milliers de GPU en supercalculateurs de la taille d'un entrepôt. Ce qui prenait 167 minutes sur huit GPU en 2020 prend aujourd'hui moins de quatre minutes sur du matériel moderne, soit une amélioration de 50x là où la loi de Moore n'en prédisait que 5x. Les dépenses des grands laboratoires en infrastructure de calcul croissent à un rythme d'environ 4x par an, et le parc mondial de calcul dédié à l'IA devrait atteindre l'équivalent de 100 millions de puces H100 d'ici 2027.

Ces chiffres ont des implications concrètes pour l'industrie : Suleyman estime qu'on pourrait voir encore 1 000x de puissance de calcul effective d'ici fin 2028. Parallèlement, les coûts d'inférence, c'est-à-dire d'utilisation des modèles, se sont effondrés d'un facteur allant jusqu'à 900 sur une base annualisée. L'IA devient donc radicalement moins chère à déployer, ce qui ouvre l'accès à des entreprises et des usages jusqu'ici inaccessibles économiquement. Selon les recherches d'Epoch AI, la quantité de calcul nécessaire pour atteindre un niveau de performance donné est divisée par deux environ tous les huit mois, un rythme bien supérieur aux 18 à 24 mois du cycle classique de Moore.

Les sceptiques prédisent régulièrement un essoufflement de la progression, invoquant le ralentissement de la loi de Moore, la raréfaction des données d'entraînement ou les contraintes énergétiques. Suleyman balaie ces arguments en montrant que la dynamique repose sur trois leviers simultanés et indépendants : des puces plus rapides, une mémoire plus efficace, et une mise en réseau massive des GPU. Son propre laboratoire chez Microsoft a lancé en janvier 2026 la puce Maia 200, qui offre selon lui 30 % de meilleures performances par dollar que tout autre matériel de leur flotte. Le tableau qu'il dresse est celui d'une révolution encore en pleine accélération, où les avancées matérielles et logicielles se renforcent mutuellement, une perspective qui tranche avec le pessimisme ambiant sur les limites supposées de l'IA générative.

Dans nos dossiers

NVIDIA

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1NVIDIA AI Blog

Repenser le coût total de l'IA : pourquoi le coût par token est la seule métrique qui compte

Les centres de données d'entreprise sont en train de vivre une mutation profonde : autrefois dédiés au stockage et au traitement de données, ils deviennent des usines à tokens, dont la production principale est l'intelligence artificielle générée à la demande. Cette transformation oblige les entreprises à repenser entièrement leur manière d'évaluer le coût total de possession (TCO) de leur infrastructure IA. Or, selon NVIDIA, la majorité des décideurs continuent de se focaliser sur des métriques obsolètes : le coût par GPU par heure ou les FLOPS par dollar, c'est-à-dire la puissance brute de calcul obtenue pour chaque dollar investi. Ces indicateurs mesurent des intrants, alors que les entreprises, elles, font tourner leur activité sur des extrants. La seule métrique qui compte réellement est le coût par million de tokens produits, soit le coût tout compris pour générer chaque unité d'intelligence délivrée à l'utilisateur final. Optimiser ce coût par token change fondamentalement l'équation économique de l'IA. Le numérateur de cette équation, le coût horaire du GPU, est visible et facile à comparer entre fournisseurs cloud ou solutions on-premise. Mais c'est le dénominateur, soit le volume de tokens effectivement délivrés par seconde, qui détermine la rentabilité réelle. Augmenter ce débit produit deux effets simultanés : il réduit le coût unitaire de chaque interaction servie, améliorant ainsi les marges, et il augmente le nombre de tokens par mégawatt consommé, ce qui permet de générer davantage de revenus à partir du même investissement infrastructurel. NVIDIA affirme proposer le coût par token le plus bas du secteur, notamment sur les modèles de raisonnement de type mixture-of-experts (MoE), qui représentent aujourd'hui la catégorie de modèles la plus largement déployée en production. Cette réévaluation des critères de choix s'inscrit dans un contexte de montée en puissance de l'IA agentique, où les systèmes autonomes enchaînent des séquences longues d'inférences, rendant le débit et la latence encore plus critiques. Des technologies comme le décodage spéculatif, la prédiction multi-token, le routage KV-aware ou encore le déchargement du cache KV permettent d'augmenter substantiellement le débit réel sans changer le matériel. La prise en charge de la précision FP4, la capacité de l'interconnexion à gérer le trafic all-to-all des modèles MoE, ou encore les optimisations de la couche de serving deviennent des critères de sélection déterminants. Pour les déploiements on-premise notamment, où l'engagement en capital sur le foncier, l'énergie et l'infrastructure est massif, maximiser l'intelligence produite par mégawatt n'est plus une option technique mais un impératif économique.

InfrastructureActu

1 source

2Le Big Data

Nvidia mise sur l’IA physique : pourquoi les marchés d’Asie s’emballent déjà ?

L'Asie représente désormais 90 % des coûts de production de Nvidia, contre 65 % il y a tout juste un an. Ce basculement, documenté par Bloomberg, illustre une réorientation stratégique majeure du géant américain des puces graphiques. Nvidia ne se concentre plus uniquement sur les processeurs pour data centers : sous l'impulsion de son PDG Jensen Huang, l'entreprise accélère dans ce qu'elle appelle l'IA physique, un ensemble de technologies englobant la robotique, les systèmes autonomes et la production industrielle augmentée. Dans ce cadre, des partenariats se nouent à grande vitesse avec des acteurs asiatiques majeurs comme SK Hynix et Samsung Electronics pour la mémoire et les composants avancés, mais aussi avec des entreprises moins connues à l'international : LG Electronics sur un projet de robot domestique, Nanya Technology à Taïwan, et des fabricants chinois comme Huizhou Desay et Pateo Connect. Les marchés boursiers ont immédiatement réagi : LG Electronics a bondi jusqu'à 15 % après l'annonce de discussions avec Nvidia, Nanya Technology a progressé de 10 %, tandis que les titres chinois concernés enregistraient également des hausses marquées. L'impact de cette dynamique dépasse largement les seuls partenaires directs de Nvidia. Chaque annonce de collaboration est désormais perçue par les investisseurs comme un signal de croissance future, transformant des entreprises industrielles régionales en acteurs stratégiques mondiaux du jour au lendemain. Pour Ling Vey-Sern, analyste chez Union Bancaire Privée, cette dépendance croissante à l'égard des chaînes d'approvisionnement asiatiques est structurelle et inévitable : les géants technologiques n'ont d'autre choix que de s'appuyer sur des écosystèmes de fabrication très spécialisés. L'IA physique, contrairement à l'IA générative qui reposait essentiellement sur des infrastructures cloud pilotées par Microsoft, Amazon ou Alphabet, exige une base industrielle dense : capteurs, actionneurs, systèmes embarqués, assemblage de précision. C'est précisément là où l'Asie concentre ses compétences depuis des décennies. Ce virage s'inscrit dans un contexte d'investissements colossaux de la part des géants américains, certains annonçant jusqu'à 200 milliards de dollars de dépenses en infrastructures IA. Nvidia capte une part significative de ces budgets et entraîne dans son sillage l'ensemble de sa chaîne de fournisseurs. Samsung en a déjà tiré les bénéfices, ayant récemment multiplié ses résultats trimestriels. La part asiatique dans les coûts de production de Nvidia n'est pas une simple métrique de dépendance : c'est le reflet d'un cycle d'investissement qui se déplace vers le prochain goulot d'étranglement, après le calcul et la mémoire, désormais vers les composants et systèmes nécessaires à l'IA qui agit dans le monde réel. Les prochaines étapes dépendront de la vitesse à laquelle les robots, véhicules autonomes et usines intelligentes passeront du stade expérimental au déploiement industriel à grande échelle.

UELe basculement des chaînes d'approvisionnement vers l'Asie pour l'IA physique accentue la dépendance technologique de l'Europe vis-à-vis de fournisseurs non-européens, renforçant les enjeux de souveraineté industrielle déjà au cœur des débats sur l'autonomie stratégique de l'UE.

InfrastructureOpinion

1 source

3Frandroid

Comment Intel compte utiliser l’IA pour diviser le poids de vos jeux PC par 18

Intel a dévoilé une nouvelle technologie de compression neuronale baptisée TSNC (Texture Space Neural Compression), capable de réduire la taille des textures de jeux vidéo jusqu'à un facteur 18. Concrètement, un jeu qui occupe aujourd'hui 100 Go sur votre SSD pourrait n'en réclamer que quelques gigaoctets de données textures, tandis que la mémoire vidéo nécessaire au rendu en temps réel serait drastiquement allégée. La technologie repose sur des réseaux de neurones entraînés à compresser puis reconstruire les textures à la volée, à la manière d'un codec vidéo mais appliqué aux surfaces 3D. L'enjeu est considérable pour les joueurs PC, confrontés à une inflation galopante des tailles de jeux : certains titres récents dépassent les 150 à 200 Go, et les cartes graphiques milieu de gamme peinent à suivre avec leurs 8 à 12 Go de VRAM. Une compression neuronale efficace permettrait de démocratiser l'accès aux jeux les plus exigeants sans forcer les utilisateurs à investir dans du matériel haut de gamme, et soulagerait les SSD qui atteignent souvent leurs limites de capacité. Cette annonce s'inscrit dans une course technologique plus large entre les fabricants de GPU : Nvidia propose déjà des solutions similaires avec ses technologies de compression basées sur l'IA, et AMD travaille sur des approches comparables. Intel, dont l'arc GPU cherche encore à s'imposer sur le marché, mise sur le TSNC comme argument différenciant. La prochaine étape sera l'adoption par les studios de développement, qui devront intégrer ces outils dans leurs pipelines de création pour que la technologie tienne réellement ses promesses en conditions réelles.

InfrastructureActu

1 source

4Le Big Data

Pourquoi les infrastructures cloud dédiées à l’IA deviennent un enjeu stratégique en Europe ?

Le groupe SWI (Stoneweg Icona Group) a annoncé l'acquisition d'une participation majoritaire dans Polarise, une société allemande spécialisée dans les infrastructures cloud pour l'intelligence artificielle, valorisant cette dernière à 500 millions d'euros. En parallèle, SWI s'engage à injecter un milliard d'euros supplémentaires pour accélérer le développement de ce qui se veut le premier opérateur d'infrastructures numériques souveraines à l'échelle européenne. Polarise dispose déjà de 14 centres de données opérationnels à travers l'Europe, d'une capacité totale de 2,3 GW via sa plateforme AiOnX, et d'un partenariat privilégié avec Nvidia lui donnant accès direct aux GPU les plus puissants du marché. La société a également lancé la première "AI Factory" d'Allemagne en collaboration avec Deutsche Telekom, positionnant d'emblée ce rapprochement comme une initiative industrielle de premier plan. Max-Hervé George, fondateur et PDG de SWI Group, pilote cette stratégie d'intégration verticale, couvrant la chaîne complète du foncier aux logiciels cloud. L'enjeu est considérable : les entreprises et gouvernements européens cherchent à réduire leur dépendance aux hyperscalers américains, AWS, Azure, Google Cloud, pour les charges de travail les plus sensibles. L'acquisition permet à SWI de proposer un modèle "GPU-as-a-Service" permettant aux organisations de louer de la puissance de calcul GPU à la demande, sans investissement lourd en matériel, via une infrastructure localisée en Europe et soumise au droit européen. Pour les industries de pointe en Allemagne, en France ou en Norvège, cela représente un accès à des capacités de calcul haute performance sans compromis sur la souveraineté des données. Ce modèle favorise également une innovation plus rapide pour les startups et PME qui n'ont pas les moyens de construire leur propre infrastructure. Cette opération s'inscrit dans un mouvement plus large de structuration de la filière IA européenne face à la domination des géants américains et à la montée en puissance des acteurs chinois. L'Union européenne multiplie depuis plusieurs années les appels à bâtir une capacité numérique autonome, notamment à travers le règlement sur l'IA et les investissements du programme Horizon. La rareté des GPU Nvidia, dont Polarise est revendeur agréé, confère à cette alliance un avantage concurrentiel structurel dans un marché sous tension. Les prochaines étapes visent l'extension géographique vers l'Allemagne et la Norvège, deux pays disposant d'une énergie abondante et bon marché indispensable pour alimenter ces infrastructures énergivores. Si SWI tient ses engagements d'investissement, le groupe pourrait devenir un acteur de référence pour les contrats publics et les grandes entreprises cherchant une alternative crédible aux solutions extraeuropéennes.

UEL'acquisition crée un opérateur cloud souverain européen offrant aux entreprises et gouvernements de l'UE une alternative concrète aux hyperscalers américains pour leurs charges de travail sensibles, avec accès aux GPU Nvidia via une infrastructure soumise au droit européen.

InfrastructureOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour