OpenAI découvre une méthode pour réduire de moitié les coûts d'inférence
Des ingénieurs d'OpenAI ont découvert début juin 2026 une méthode permettant de réduire de plus de moitié les coûts d'inférence, c'est-à-dire le coût lié à l'exécution des modèles existants pour répondre aux requêtes des utilisateurs. Selon une source au fait de ces discussions internes jusqu'ici non rapportées, les nouvelles optimisations ont été testées sur le trafic ChatGPT généré par les visiteurs sans compte, ni gratuit ni payant. Appliquée à ce segment, la technique a permis de n'utiliser que quelques centaines de GPU Nvidia pour traiter ce trafic, un chiffre jugé étonnamment faible pour une infrastructure à cette échelle. OpenAI souligne toutefois que ce segment représente une fraction limitée de son trafic global, la plateforme restreignant l'accès des utilisateurs non authentifiés.
Diviser par deux les coûts d'inférence représente un levier économique considérable pour une entreprise dont les dépenses de calcul atteignent des milliards de dollars par an. OpenAI pourrait ainsi servir davantage d'utilisateurs avec la même flotte de serveurs, abaisser ses tarifs ou dégager des marges supplémentaires pour financer le développement de nouveaux modèles. Pour l'industrie dans son ensemble, cette avancée illustre que les gains d'efficacité logicielle peuvent rivaliser avec l'acquisition de nouveau matériel, à condition d'investir sérieusement dans l'optimisation des systèmes déjà en place.
Les techniques exactes employées restent inconnues, mais plusieurs pistes sont évoquées : la quantification, qui réduit la précision numérique des calculs pour les rendre moins coûteux ; le cache clé-valeur, qui permet au modèle de réutiliser des résultats sans les recalculer ; le traitement des requêtes par lots plutôt qu'une par une ; et le routage intelligent vers des modèles ou sous-modèles moins gourmands en ressources selon la complexité de la requête. Dans un secteur où Anthropic, Google et OpenAI se battent pour obtenir davantage de puces Nvidia, cette découverte rappelle que l'optimisation logicielle des infrastructures existantes constitue un gisement de performance tout aussi stratégique que l'extension matérielle.
Une baisse potentielle des coûts d'inférence pourrait à terme se répercuter sur les tarifs des API utilisées par les développeurs et entreprises européens, mais aucun impact direct n'est annoncé.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




