Aller au contenu principal
IA : cette avancée de Google qui fait trembler les fabricants de puces sur les marchés
InfrastructureLa Tribune12sem· 1 min de lecture

IA : cette avancée de Google qui fait trembler les fabricants de puces sur les marchés

Source originale ↗·

Google a annoncé TurboQuant, un algorithme de compression capable de réduire drastiquement les besoins en mémoire vive des grands modèles de langage (LLM). L'annonce, faite en mars 2026, a provoqué une réaction immédiate sur les marchés financiers : les actions des fabricants de mémoires et de puces, dont Micron et SK Hynix, ont fortement chuté en Bourse dès la publication de la nouvelle.

L'impact potentiel est considérable pour toute l'industrie des semi-conducteurs. Si TurboQuant tient ses promesses, les data centers et les développeurs d'IA auront besoin de beaucoup moins de RAM pour faire tourner des modèles de grande taille — ce qui représente une menace directe sur les volumes de vente de mémoire HBM (High Bandwidth Memory), un segment très lucratif dominé par Samsung, SK Hynix et Micron. Pour les utilisateurs et les entreprises qui déploient des LLM, cela pourrait en revanche signifier des coûts d'infrastructure nettement réduits et une accessibilité accrue à des modèles puissants.

Cette avancée s'inscrit dans une course plus large à l'efficacité des modèles d'IA, où la quantisation et la compression sont devenues des axes majeurs de recherche depuis 2023. Des techniques comme GPTQ ou AWQ avaient déjà tracé la voie, mais Google, fort de ses ressources et de sa maîtrise de l'infrastructure, entend ici passer à une nouvelle échelle. La question qui agite désormais le secteur est de savoir si TurboQuant sera intégré à Gemini et aux offres cloud de Google, ce qui accélérerait considérablement son adoption industrielle.

Impact France/UE

Les entreprises et développeurs européens déployant des LLM pourraient bénéficier d'une réduction sensible des coûts d'infrastructure mémoire si TurboQuant est intégré aux offres cloud grand public.

💬 L'analyse de Mathieu

TurboQuant ne change pas ce qu'on peut faire tourner sur nos GPU quant à la taille des modèles eux-mêmes — mais il transforme des modèles "techniquement possibles" en modèles réellement utilisables avec un vrai contexte long.

Pour illustrer : avec une RTX 5080, les modèles 12-14B passent de ~10K à ~60-100K tokens de contexte, soit une fenêtre quasi illimitée pour ces tailles. De quoi faire trembler les fabricants de puces, effectivement.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Intel pourrait fabriquer les futures puces IA d’Apple
1Le Big Data 

Intel pourrait fabriquer les futures puces IA d’Apple

Apple et Intel auraient conclu un accord préliminaire permettant au géant des semi-conducteurs américain de fabriquer une partie des futures puces IA d'Apple, selon le Wall Street Journal. Les deux groupes auraient négocié pendant plus d'un an avant d'aboutir à ce rapprochement, révélé début mai 2026. La réaction des marchés a été immédiate : l'action Intel a bondi de près de 14 % à l'annonce, tandis qu'Apple gagnait environ 2 %. Le partenariat débuterait par les futures puces de la série M destinées aux Mac et aux iPad, les puces iPhone pouvant suivre dans un second temps. Côté production, l'usine d'Intel à Chandler, en Arizona, fabrique déjà des puces basées sur son procédé 18A, la technologie la plus avancée du groupe. Apple pourrait toutefois attendre la génération suivante, baptisée 18A-P, dont la mise en production de masse est attendue dès l'année prochaine selon l'analyste Ben Bajarin de Creative Strategies. Cet accord représenterait bien plus qu'un simple contrat de sous-traitance. Pour Apple, il s'agit de réduire une dépendance quasi totale à TSMC, le fondeur taïwanais qui produit aujourd'hui l'essentiel de ses puces les plus avancées. La montée en puissance de l'IA générative a fait exploser la demande mondiale de capacités de fabrication : Nvidia, Microsoft, Amazon, Google et Meta mobilisent déjà une part croissante des lignes de production les plus avancées, rendant la diversification stratégique urgente pour Apple. Bajarin qualifie Intel de "seule alternative crédible" capable de devenir une seconde source industrielle à grande échelle pour Cupertino. Cette diversification permettrait également de limiter l'exposition aux risques géopolitiques liés aux tensions autour de Taïwan, qui font peser une menace structurelle sur l'approvisionnement en puces. Pour Intel, la portée symbolique d'un tel contrat serait considérable. L'entreprise a longtemps peiné à convaincre des clients externes de lui confier des puces critiques, après des années de retards technologiques et de problèmes de rendement dans son activité de fonderie. Accrocher Apple à son carnet de commandes équivaudrait à valider publiquement que cette division est désormais compétitive face aux leaders asiatiques. Intel accélère ses investissements industriels aux États-Unis dans ce but. Cette alliance potentielle s'inscrit dans une bataille plus large : aujourd'hui, seules trois entreprises disposent des technologies nécessaires pour produire les semi-conducteurs les plus avancés, TSMC, Intel et Samsung. Apple aurait d'ailleurs également visité l'usine texane de Samsung pour évaluer ses capacités, signe que la guerre mondiale des usines IA s'intensifie et que les géants de la tech cherchent activement à multiplier leurs options industrielles.

UECe rapprochement Apple-Intel accélère la consolidation des capacités de fabrication de semi-conducteurs avancés aux États-Unis, rendant plus urgente la question de la souveraineté industrielle européenne face à une dépendance structurelle aux fondeurs extra-européens que l'European Chips Act cherche précisément à réduire.

💬 Apple qui diversifie ses fondeurs, c'est pas une surprise, mais que ce soit Intel qui décroche le contrat, là par contre je l'aurais pas parié il y a deux ans. Les retards, les problèmes de rendement, le fiasco de leur division fonderie... et pourtant le 18A semble enfin tenir la route, assez pour qu'Apple prenne le risque. Reste à voir si les lignes de production suivent quand il faudra livrer des dizaines de millions de puces.

InfrastructureActu
1 source
Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA
2The Decoder 

Deepseek v4 tournerait entièrement sur des puces Huawei, une avancée majeure pour l'indépendance de la Chine en IA

DeepSeek prépare le lancement de sa quatrième génération de modèle d'intelligence artificielle, attendue dans les prochaines semaines, et celui-ci tournera exclusivement sur des puces Huawei. Selon des sources citées par The Decoder, les grands groupes technologiques chinois auraient déjà passé des commandes portant sur des centaines de milliers d'unités de ces processeurs. Nvidia, le fabricant américain qui domine habituellement le marché de l'entraînement et de l'inférence IA, a été écarté des phases de test préliminaires. C'est un signal fort pour l'autonomie technologique chinoise en matière d'IA. Jusqu'ici, les puces Huawei Ascend étaient perçues comme inférieures aux GPU Nvidia H100 et H800, rendant leur adoption à grande échelle difficile pour des modèles de pointe. Si DeepSeek v4 tourne efficacement sur cette infrastructure domestique, cela validerait la montée en puissance de l'écosystème matériel chinois et réduirait concrètement la dépendance vis-à-vis des fabricants américains, une vulnérabilité stratégique majeure depuis les restrictions à l'export imposées par Washington. Ce développement s'inscrit dans un contexte de guerre technologique larvée entre les États-Unis et la Chine. Depuis 2022, les restrictions américaines sur l'exportation de semi-conducteurs avancés vers la Chine ont contraint Huawei et ses partenaires à accélérer massivement leurs efforts de R&D sur les puces Ascend. DeepSeek avait déjà surpris le monde en janvier 2025 avec des modèles très performants entraînés à moindre coût. Si v4 confirme la viabilité des puces Huawei à cette échelle, cela pourrait remodeler les équilibres du secteur mondial de l'IA.

UESi les puces Huawei Ascend s'avèrent compétitives pour l'IA de pointe, cela accélère la fragmentation du marché mondial des semi-conducteurs et renforce la pression sur l'Europe pour développer sa propre souveraineté en matière de hardware IA.

InfrastructureOpinion
1 source
Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser
3The Information AI 

Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser

Nvidia a vu sa part de marché dans les puces d'inférence IA grimper à 74%, contre 66% il y a un an, selon des estimations de The Information fondées sur les déclarations financières de Nvidia et de ses concurrents, ainsi que sur des entretiens avec des analystes spécialisés. Ce bond de huit points s'est produit alors même que plusieurs développeurs d'IA et grands fournisseurs cloud avaient lancé leurs propres puces serveur dans le but explicite de réduire leur dépendance vis-à-vis du géant des semi-conducteurs. Ce résultat contredit les prévisions de nombreux analystes et dirigeants qui anticipaient une érosion progressive de la domination de Nvidia. Les puces alternatives, qu'elles soient conçues par Google, Amazon, Microsoft ou des startups spécialisées, n'ont pas réussi à mordre significativement sur le segment de l'inférence, c'est-à-dire l'exécution des modèles déjà entraînés pour répondre aux requêtes des utilisateurs. C'est pourtant ce segment qui représente l'essentiel de la consommation de calcul en production. La montée en puissance de l'inférence comme principal cas d'usage de l'IA en entreprise place Nvidia dans une position encore plus stratégique qu'elle ne l'était lors du boom de l'entraînement des modèles. Malgré des investissements massifs dans des solutions alternatives, les écosystèmes logiciels de Nvidia, notamment CUDA, continuent de constituer une barrière à l'entrée difficile à franchir. La question n'est plus de savoir si Nvidia peut être délogé, mais à quelle vitesse ses concurrents pourront combler l'écart technologique et logiciel.

UELa domination croissante de Nvidia sur les puces d'inférence renforce la dépendance des acteurs européens du cloud et de l'IA vis-à-vis d'un fournisseur américain, soulevant des enjeux de souveraineté numérique pour l'Europe.

💬 74% de part de marché sur l'inférence, en hausse malgré les puces de Google, Amazon, Microsoft, c'est le genre de stat qui coupe court à pas mal de discours. CUDA ce n'est pas juste un outil, c'est dix ans de bibliothèques, de forums, de code en prod que personne n'a envie de migrer. La vraie dépendance en Europe c'est là, pas dans le matériel.

InfrastructureOpinion
1 source
Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence
4The Information AI 

Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence

Google mène des discussions avec Marvell Technology pour développer deux nouveaux puces dédiées à l'inférence d'intelligence artificielle, selon deux sources proches du dossier. La première est une unité de traitement mémoire conçue pour fonctionner en complément des TPU (Tensor Processing Units) déjà fabriqués par Google. La seconde est un nouveau TPU entièrement conçu pour exécuter des modèles d'IA en production. Aucune date officielle n'a été communiquée pour l'instant. Cette démarche illustre la demande explosive pour des puces d'inférence performantes, celles qui font tourner les applications d'IA en temps réel, des agents autonomes aux assistants commerciaux. Contrairement à l'entraînement des modèles, l'inférence mobilise des ressources en continu, à grande échelle, ce qui en fait un enjeu économique majeur pour les grandes plateformes cloud. Optimiser ces puces se traduit directement en réduction de coûts et en amélioration des performances pour des millions d'utilisateurs finaux. La course à la puce d'inférence s'intensifie sur tous les fronts. En mars dernier, Nvidia a présenté à sa conférence GTC un nouveau composant baptisé LPU (Language Processing Unit), construit sur une technologie rachetée à la startup Groq pour 20 milliards de dollars. Google, de son côté, développe ses propres TPU depuis des années pour réduire sa dépendance à Nvidia, et ce partenariat potentiel avec Marvell s'inscrit dans cette stratégie d'autonomie technologique. La bataille pour dominer l'infrastructure d'inférence promet d'être l'un des grands enjeux industriels des prochaines années.

💬 Google qui externalise une partie de sa conception de puces à Marvell, c'est un signal fort : même eux n'ont pas les ressources pour tout faire en interne à ce rythme. L'inférence, c'est le vrai coût caché de l'IA en prod, celui qui explose à mesure qu'on déploie des agents partout. Reste à voir si ce partenariat débouche sur quelque chose de concret, ou si c'est juste une piste parmi dix autres.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic