GPT-5.6 est disponible, mais

Etched, une startup spécialisée dans les puces d'inférence pour l'IA, sort officiellement de sa phase de développement confidentielle avec des chiffres qui frappent : 800 millions de dollars levés, plus d'un milliard de dollars de commandes en carnet, et une première puce fonctionnelle dès la révision A0 sur le procédé TSMC 4nm. Fondée en 2023 par Gavin Uberti, un ancien étudiant de Harvard âgé de 21 ans, l'entreprise compte aujourd'hui plus de 400 employés recrutés chez Nvidia, Google TPU, Broadcom, SK Hynix et TSMC. Ses investisseurs comprennent Peter Thiel, Jane Street, Two Sigma, Jump Trading et VentureTech Alliance, ce dernier entretenant un partenariat étroit avec TSMC. Pendant ce temps, OpenAI a discrètement lancé GPT-5.6, une nouvelle famille de modèles déclinée en trois versions baptisées Sol, Terra et Luna. Sol, le plus puissant du trio, dépasse certains benchmarks du modèle Mythos, bien qu'il reste légèrement en retrait sur l'exploitation de failles en cybersécurité. L'accès reste pour l'instant limité à des partenaires sélectionnés, avec une disponibilité grand public annoncée par Sam Altman "bientôt", potentiellement réservée aux États-Unis dans un premier temps.
L'enjeu derrière Etched illustre un basculement structurel dans l'industrie de l'IA : après des années focalisées sur l'entraînement des modèles, la compétition se déplace vers l'inférence, c'est-à-dire la capacité à faire tourner ces modèles de façon rapide, économe et à grande échelle. C'est là que se joue désormais la rentabilité. Un premier succès A0, terme désignant la toute première version physique d'une puce sortant de fabrication, est statistiquement rare et coûteux à manquer ; y parvenir en moins de trois ans, là où la plupart des concurrents ont mis sept ans ou plus, positionne Etched comme un acteur sérieux face aux géants établis. Pour les opérateurs d'infrastructure IA, les perspectives d'une puce dédiée à l'inférence avec une intégration verticale complète, des composants au logiciel, représentent un gain potentiel majeur sur les coûts et la latence.
Cette sortie de stealth s'inscrit dans un contexte où la demande mondiale en capacité d'inférence explose, tirée par la prolifération des agents autonomes et des interfaces conversationnelles dans les entreprises. L'étude économique publiée par OpenAI sur l'adoption de Codex illustre ce phénomène : les équipes non techniques rattrapent désormais à toute vitesse les départements d'ingénierie en termes d'usage de l'IA. Replit lance une application desktop sur Mac et Windows, Cursor for iOS permet de piloter des agents depuis un téléphone, X déploie un serveur MCP hébergé pour connecter Grok et d'autres outils à son API. La course n'est plus seulement à qui construit les meilleurs modèles, mais à qui peut les faire tourner le plus efficacement, partout, pour tout le monde.
La compétition sur les puces d'inférence pourrait à terme réduire les coûts cloud pour les entreprises européennes, mais aucun acteur ou cadre réglementaire européen n'est directement impliqué.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




