
Comment xAI Colossus redéfinit les règles de la course à l’IA
En mars 2023, Elon Musk fonde xAI pour affronter directement OpenAI, Google et Meta dans la course aux grands modèles de langage. Le premier modèle, Grok, sort fin 2023 avec des résultats prometteurs, mais l'entreprise se heurte rapidement à un obstacle structurel majeur : elle ne possède aucune infrastructure propre et loue sa puissance de calcul auprès de fournisseurs cloud comme Oracle. Pour briser cette dépendance, Musk lance dès le printemps 2024 un chantier d'une rapidité inédite. xAI rachète une ancienne usine Electrolux de 73 000 mètres carrés à Memphis, Tennessee, et y déploie le supercalculateur Colossus. Début 2026, le site concentre environ 555 000 processeurs NVIDIA interconnectés, principalement des H100 et H200 dans le premier bloc (Colossus 1), et la nouvelle architecture Blackwell GB200/GB300 dans le second (Colossus 2), auxquels s'ajoute une extension satellitaire en cours à Southaven. À près de 35 000 dollars l'unité, le seul achat des composants dépasse les 18 milliards de dollars.
Cette infrastructure redéfinit les rapports de force dans l'industrie de l'IA. En contrôlant son propre parc de calcul, xAI s'affranchit des délais et des contraintes imposés par les fournisseurs tiers, ce qui lui permet d'accélérer l'entraînement de ses modèles au rythme qu'elle impose. La densité thermique extrême générée par 555 000 puces a nécessité l'abandon du refroidissement par air au profit d'un système à eau intégral en circuit fermé, fourni par Dell et Supermicro, qui capte la chaleur directement sur le silicium et réduit significativement les coûts d'électricité liés à la climatisation. Sur le plan réseau, xAI a fait le choix de rejeter l'InfiniBand, standard dominant mais coûteux et en rupture mondiale, pour déployer la plateforme NVIDIA Spectrum-X Ethernet, avec routage adaptatif et protocole RoCE, afin d'éliminer la latence de queue qui paralyse les clusters lors des échanges massifs de paramètres entre processeurs.
Ce projet s'inscrit dans une rivalité technologique et géopolitique qui dépasse largement xAI. La puissance de calcul est devenue la ressource stratégique centrale de l'IA : qui contrôle les clusters contrôle le rythme d'innovation. Microsoft, Google et Amazon ont chacun engagé des dizaines de milliards dans leurs propres datacenters, tandis que la pénurie mondiale de puces NVIDIA maintient une pression constante sur les acteurs moins capitalisés. En construisant Colossus en moins d'un an, là où l'industrie estimait le délai à deux ans minimum, xAI a envoyé un signal clair sur sa capacité d'exécution. La prochaine étape sera de transformer cette puissance brute en avance technologique durable face à des concurrents qui ne restent pas immobiles.
La concentration de capacité de calcul chez les acteurs américains creuse l'écart avec les laboratoires et startups européens, renforçant leur dépendance aux infrastructures cloud extérieures à l'UE.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




