Comment Shopify a construit un stack IA indifférent à la survie des modèles

Shopify a développé un proxy LLM maison qui connecte l'ensemble de ses ingénieurs à plusieurs fournisseurs d'IA en parallèle, avec basculement automatique en cas de panne ou de disparition d'un modèle. Quand Claude Fable 5 a été retiré du marché, aucun ingénieur de l'entreprise n'a été interrompu dans son travail : le système les a redirigés automatiquement vers Claude Opus ou GPT 5.5. Farhan Thawar, directeur de l'ingénierie chez Shopify, a détaillé cette architecture dans le podcast VentureBeat Beyond the Pilot. L'entreprise achète des tokens en volume auprès de plusieurs fournisseurs, et tous les utilisateurs passent par ce proxy unique qui centralise les rapports d'utilisation et gère la redondance. En cas d'indisponibilité d'un fournisseur, le transfert vers un autre est décrit comme "automatique et transparent". La plateforme interne Tangle permet à chacun de visualiser les pipelines d'IA en temps réel, et un tableau de bord de consommation suit les dépenses token par utilisateur, par discipline et par type de modèle.
Ce choix architectural donne à Shopify une indépendance réelle vis-à-vis des fournisseurs, là où la plupart des entreprises restent exposées aux mises à jour non concertées ou aux arrêts de modèles. La stratégie de distillation pousse l'avantage plus loin encore : un modèle "enseignant" (par exemple Opus 4.8) transfère ses capacités vers un modèle "élève" plus petit et spécialisé (par exemple Qwen 3.5) en une journée de pipeline. Le résultat est évalué automatiquement sur la vitesse, le coût et la précision pour une tâche précise. Dans certains cas, les gains atteignent un facteur 2 en coût et en latence ; dans des cas extrêmes, jusqu'à 30 fois moins cher et plus rapide. Ces modèles distillés alimentent notamment Sidekick, l'assistant IA phare de Shopify destiné aux marchands, conçu pour automatiser les tâches répétitives du quotidien. Les ingénieurs peuvent déployer directement sans processus d'approbation, ce qui accélère considérablement les cycles d'itération.
La démarche s'inscrit dans un contexte où le marché des modèles évolue à une vitesse difficile à anticiper : des modèles apparaissent, sont mis à jour silencieusement ou disparaissent en quelques mois. Shopify tire les conséquences pratiques de cette instabilité en construisant une infrastructure qui ne parie pas sur un seul acteur. Thawar évoque aussi une vision plus ambitieuse : à terme, le pipeline de distillation choisirait lui-même le meilleur modèle cible en fonction des données et des évaluations fournies, sans que l'ingénieur ait à le spécifier. "Peut-être que ça donnera un modèle si petit qu'il pourrait tourner sur un téléphone", dit-il. Des garde-fous existent également côté consommation : si un modèle tourne depuis plus de dix heures en accumulant des tokens, l'utilisateur reçoit une alerte lui demandant si la dépense est intentionnelle, une manière de concilier autonomie des équipes et maîtrise des coûts.
Les équipes d'ingénierie européennes déployant des LLMs en production peuvent s'inspirer directement de cette architecture multi-fournisseurs pour réduire leur exposition aux changements non concertés de modèles et optimiser leurs coûts par distillation.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




