Aller au contenu principal
InfrastructureVentureBeat AI3h· 2 min de lecture

Comment Shopify a construit un stack IA indifférent à la survie des modèles

Source originale ↗·
Comment Shopify a construit un stack IA indifférent à la survie des modèles
▶ Voir sur YouTube

Shopify a développé un proxy LLM maison qui connecte l'ensemble de ses ingénieurs à plusieurs fournisseurs d'IA en parallèle, avec basculement automatique en cas de panne ou de disparition d'un modèle. Quand Claude Fable 5 a été retiré du marché, aucun ingénieur de l'entreprise n'a été interrompu dans son travail : le système les a redirigés automatiquement vers Claude Opus ou GPT 5.5. Farhan Thawar, directeur de l'ingénierie chez Shopify, a détaillé cette architecture dans le podcast VentureBeat Beyond the Pilot. L'entreprise achète des tokens en volume auprès de plusieurs fournisseurs, et tous les utilisateurs passent par ce proxy unique qui centralise les rapports d'utilisation et gère la redondance. En cas d'indisponibilité d'un fournisseur, le transfert vers un autre est décrit comme "automatique et transparent". La plateforme interne Tangle permet à chacun de visualiser les pipelines d'IA en temps réel, et un tableau de bord de consommation suit les dépenses token par utilisateur, par discipline et par type de modèle.

Ce choix architectural donne à Shopify une indépendance réelle vis-à-vis des fournisseurs, là où la plupart des entreprises restent exposées aux mises à jour non concertées ou aux arrêts de modèles. La stratégie de distillation pousse l'avantage plus loin encore : un modèle "enseignant" (par exemple Opus 4.8) transfère ses capacités vers un modèle "élève" plus petit et spécialisé (par exemple Qwen 3.5) en une journée de pipeline. Le résultat est évalué automatiquement sur la vitesse, le coût et la précision pour une tâche précise. Dans certains cas, les gains atteignent un facteur 2 en coût et en latence ; dans des cas extrêmes, jusqu'à 30 fois moins cher et plus rapide. Ces modèles distillés alimentent notamment Sidekick, l'assistant IA phare de Shopify destiné aux marchands, conçu pour automatiser les tâches répétitives du quotidien. Les ingénieurs peuvent déployer directement sans processus d'approbation, ce qui accélère considérablement les cycles d'itération.

La démarche s'inscrit dans un contexte où le marché des modèles évolue à une vitesse difficile à anticiper : des modèles apparaissent, sont mis à jour silencieusement ou disparaissent en quelques mois. Shopify tire les conséquences pratiques de cette instabilité en construisant une infrastructure qui ne parie pas sur un seul acteur. Thawar évoque aussi une vision plus ambitieuse : à terme, le pipeline de distillation choisirait lui-même le meilleur modèle cible en fonction des données et des évaluations fournies, sans que l'ingénieur ait à le spécifier. "Peut-être que ça donnera un modèle si petit qu'il pourrait tourner sur un téléphone", dit-il. Des garde-fous existent également côté consommation : si un modèle tourne depuis plus de dix heures en accumulant des tokens, l'utilisateur reçoit une alerte lui demandant si la dépense est intentionnelle, une manière de concilier autonomie des équipes et maîtrise des coûts.

Impact France/UE

Les équipes d'ingénierie européennes déployant des LLMs en production peuvent s'inspirer directement de cette architecture multi-fournisseurs pour réduire leur exposition aux changements non concertés de modèles et optimiser leurs coûts par distillation.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

D&B a reconstruit sa base de 642 millions d'entreprises pour les agents IA
1VentureBeat AI 

D&B a reconstruit sa base de 642 millions d'entreprises pour les agents IA

Dun & Bradstreet, entreprise vieille de 180 ans spécialisée dans les données commerciales, vient d'annoncer une refonte complète de son infrastructure de données pour la rendre compatible avec les agents d'intelligence artificielle. Son "Commercial Graph" couvre 642 millions d'entreprises, soit presque le double des 300 millions de dossiers qu'il contenait il y a cinq ans, avec 11 000 champs par enregistrement et 100 milliards de vérifications qualité effectuées chaque mois. Cette base de données, utilisée par près de 200 000 clients dans le monde, analystes crédit, gestionnaires de risques, commerciaux, était conçue pour des humains capables d'attendre quelques secondes et d'interpréter des résultats ambigus. Quand les clients de D&B ont commencé à intégrer des agents IA dans leurs workflows de crédit, d'achats et de chaîne d'approvisionnement, l'architecture existante s'est révélée incompatible. Gary Kotovets, directeur des données et de l'analytique chez D&B, a expliqué à VentureBeat que l'entreprise devait désormais considérer les agents comme une nouvelle catégorie de consommateurs à part entière. Le problème fondamental est que les agents IA ne peuvent pas fonctionner avec des systèmes fragmentés, des latences élevées ou des relations statiques entre entités. Là où un analyste humain naviguait à travers plusieurs bases de données hétérogènes via des requêtes SQL, un agent a besoin d'une réponse en moins d'une seconde, d'une résolution d'entité vérifiée, et de relations dynamiques : si un PDG quitte une entreprise pour une autre, le dossier de risque doit suivre en temps réel ; si une filiale change de propriétaire, la hiérarchie complète doit se mettre à jour automatiquement. D&B a donc migré ses bases vers le cloud, redessiné son schéma de données, construit une couche de "data fabric" unifiant les enregistrements à l'échelle mondiale tout en respectant les contraintes réglementaires régionales, puis exposé l'ensemble via des outils MCP (Model Context Protocol) qui permettent aux agents d'interroger des données structurées avec leur contexte. Un moteur de résolution d'entités valide chaque requête pour garantir qu'une demande portant sur une entreprise renvoie bien vers un enregistrement unique et vérifié. L'entreprise a également créé un nouveau modèle d'authentification spécifique aux agents, distincts des utilisateurs humains. Ce chantier illustre une réalité que Kotovets dit avoir entendue de la bouche de centaines de directeurs des données et directeurs informatiques au cours des six derniers mois : les ambitions en matière d'IA se heurtent systématiquement à des fondations de données non standardisées et inexploitables par des machines. D&B, pourtant l'une des entreprises les mieux dotées en données commerciales structurées au monde, a quand même dû tout reconstruire. La montée en puissance des agents autonomes dans les processus métier critiques, évaluation du risque fournisseur, scoring crédit, due diligence, crée une pression inédite sur les fournisseurs de données pour qu'ils passent d'une logique de consultation humaine à une logique d'alimentation machine en temps réel. D&B se positionne ainsi en infrastructure de référence pour les agents d'entreprise, à un moment où MCP s'impose progressivement comme standard d'interopérabilité entre agents et sources de données.

UELes entreprises européennes clientes de D&B pour le risque crédit ou fournisseur peuvent désormais connecter leurs agents IA à cette base via MCP, dans le respect des contraintes réglementaires régionales incluant le RGPD.

💬 Si D&B, avec 180 ans de données commerciales structurées, a quand même dû tout reconstruire pour les agents IA, ton stack de données a peu de chances de s'en tirer sans casse. C'est le vrai enseignement de cet article, pas les 642 millions d'entreprises ou les 11 000 champs par dossier. Les agents ne tolèrent pas l'ambiguïté, pas la latence, pas les silos, et ça va forcer une vague de refonte data que beaucoup n'ont pas encore budgétisée.

InfrastructureActu
1 source
Comment xAI Colossus redéfinit les règles de la course à l’IA
2Le Big Data 

Comment xAI Colossus redéfinit les règles de la course à l’IA

En mars 2023, Elon Musk fonde xAI pour affronter directement OpenAI, Google et Meta dans la course aux grands modèles de langage. Le premier modèle, Grok, sort fin 2023 avec des résultats prometteurs, mais l'entreprise se heurte rapidement à un obstacle structurel majeur : elle ne possède aucune infrastructure propre et loue sa puissance de calcul auprès de fournisseurs cloud comme Oracle. Pour briser cette dépendance, Musk lance dès le printemps 2024 un chantier d'une rapidité inédite. xAI rachète une ancienne usine Electrolux de 73 000 mètres carrés à Memphis, Tennessee, et y déploie le supercalculateur Colossus. Début 2026, le site concentre environ 555 000 processeurs NVIDIA interconnectés, principalement des H100 et H200 dans le premier bloc (Colossus 1), et la nouvelle architecture Blackwell GB200/GB300 dans le second (Colossus 2), auxquels s'ajoute une extension satellitaire en cours à Southaven. À près de 35 000 dollars l'unité, le seul achat des composants dépasse les 18 milliards de dollars. Cette infrastructure redéfinit les rapports de force dans l'industrie de l'IA. En contrôlant son propre parc de calcul, xAI s'affranchit des délais et des contraintes imposés par les fournisseurs tiers, ce qui lui permet d'accélérer l'entraînement de ses modèles au rythme qu'elle impose. La densité thermique extrême générée par 555 000 puces a nécessité l'abandon du refroidissement par air au profit d'un système à eau intégral en circuit fermé, fourni par Dell et Supermicro, qui capte la chaleur directement sur le silicium et réduit significativement les coûts d'électricité liés à la climatisation. Sur le plan réseau, xAI a fait le choix de rejeter l'InfiniBand, standard dominant mais coûteux et en rupture mondiale, pour déployer la plateforme NVIDIA Spectrum-X Ethernet, avec routage adaptatif et protocole RoCE, afin d'éliminer la latence de queue qui paralyse les clusters lors des échanges massifs de paramètres entre processeurs. Ce projet s'inscrit dans une rivalité technologique et géopolitique qui dépasse largement xAI. La puissance de calcul est devenue la ressource stratégique centrale de l'IA : qui contrôle les clusters contrôle le rythme d'innovation. Microsoft, Google et Amazon ont chacun engagé des dizaines de milliards dans leurs propres datacenters, tandis que la pénurie mondiale de puces NVIDIA maintient une pression constante sur les acteurs moins capitalisés. En construisant Colossus en moins d'un an, là où l'industrie estimait le délai à deux ans minimum, xAI a envoyé un signal clair sur sa capacité d'exécution. La prochaine étape sera de transformer cette puissance brute en avance technologique durable face à des concurrents qui ne restent pas immobiles.

UELa concentration de capacité de calcul chez les acteurs américains creuse l'écart avec les laboratoires et startups européens, renforçant leur dépendance aux infrastructures cloud extérieures à l'UE.

InfrastructureOpinion
1 source
Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2
3AWS ML Blog 

Déploiement rentable de modèles vision-langage pour la détection du comportement animal sur AWS Inferentia2

Tomofun, la startup taïwanaise à l'origine de la caméra connectée Furbo, a migré une partie de son infrastructure d'inférence IA des instances GPU Amazon EC2 vers des instances EC2 Inf2, propulsées par les puces AWS Inferentia2 conçues en interne par Amazon. Le système Furbo analyse en temps réel les flux vidéo provenant de centaines de milliers de caméras domestiques pour détecter des comportements animaux précis, aboiements, courses, activités inhabituelles, et envoyer des alertes instantanées aux propriétaires. Le modèle central est BLIP (Bootstrapping Language-Image Pre-Training), un modèle vision-langage compilé via le SDK Neuron d'AWS pour s'exécuter nativement sur Inferentia2. L'architecture déployée s'appuie sur deux couches d'Auto Scaling EC2 derrière un Elastic Load Balancer : la première traite les requêtes API, la seconde héberge les conteneurs d'inférence. Amazon CloudFront achemine les images des caméras vers ce pipeline, tandis que CloudWatch surveille la latence, le débit et les taux d'erreur en continu. La motivation principale de cette migration est économique. L'inférence toujours active à grande échelle est fondamentalement différente de l'entraînement : elle ne nécessite pas la puissance brute des GPU, mais exige une disponibilité permanente et un coût par requête minimal. En remplaçant une partie des GPU par des instances Inf2, Tomofun réduit significativement ses dépenses d'infrastructure tout en maintenant la précision et le débit du modèle. La transition a été conçue pour être transparente : l'API Furbo peut désormais router les requêtes vers des conteneurs GPU ou Inferentia2 sans modifier la logique d'alerte en aval ni l'expérience utilisateur. Cette flexibilité permet aussi d'ajuster dynamiquement le mix en fonction de la charge et des coûts, ce qui est particulièrement précieux pour un service dont le trafic fluctue selon les heures de la journée dans de nombreux fuseaux horaires. Cette initiative s'inscrit dans une tendance plus large du marché cloud : les grandes plateformes développent leurs propres puces d'inférence, Inferentia2 chez AWS, TPU chez Google, et les futures puces de Meta, pour offrir une alternative moins coûteuse aux GPU Nvidia dans les déploiements de production à grande échelle. Pour les entreprises gérant des millions de requêtes d'inférence quotidiennes sur des modèles de vision stabilisés, l'argument économique des accélérateurs spécialisés devient difficile à ignorer. Le cas Tomofun illustre concrètement ce compromis : conserver les GPU pour la flexibilité et les pics, tout en basculant la charge de base vers Inferentia2. Avec la prolifération des objets connectés embarquant de l'IA en périphérie, ce modèle hybride pourrait devenir la norme pour les acteurs du secteur de la "pet tech" et plus largement de l'IoT intelligent.

InfrastructureActu
1 source
Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock
4AWS ML Blog 

Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock

Amazon Web Services a dévoilé Amazon Bedrock Ops Alert, une solution de supervision automatisée en trois couches conçue pour les organisations qui déploient des applications d'IA générative à grande échelle. Utilisé par plus de 100 000 organisations dans le monde, d'entreprises naissantes aux multinationales, Amazon Bedrock fournit l'infrastructure sur laquelle reposent des centaines de workloads de production. La nouvelle solution surveille en continu les quotas de requêtes par minute (RPM) et de tokens par minute (TPM) alloués à chaque client, détecte les anomalies opérationnelles avant qu'elles n'impactent la production, ajuste dynamiquement les seuils d'alarme, et ouvre automatiquement des tickets de support AWS enrichis en contexte. Elle intègre également un mécanisme anti-doublons qui bloque la création d'un nouveau ticket si un cas non résolu de même nature est déjà ouvert, évitant ainsi de diluer l'attention des équipes d'ingénierie. Pour les équipes SRE spécialisées en IA, l'enjeu est considérable : gérer manuellement les quotas et escalades de support à mesure que l'adoption interne s'accélère est un travail chronophage qui détourne les ingénieurs de l'innovation. Bedrock Ops Alert réduit ce surcoût opérationnel en automatisant le triage, en fournissant des notifications contextualisées directement exploitables, et en raccourcissant le temps moyen de résolution des incidents. La solution permet aussi d'anticiper les besoins d'augmentation de quotas avant que les limitations ne se matérialisent en erreurs pour les utilisateurs finaux, un gain critique dans des environnements où plusieurs modèles de fondation tournent simultanément en production. Cette annonce s'inscrit dans une tendance plus large chez AWS : réduire la friction liée à l'échelle des workloads d'IA générative sans exiger systématiquement une augmentation de quotas. Amazon Bedrock propose déjà l'inférence inter-régions géographique et, plus récemment, l'inférence inter-régions mondiale (global cross-region inference), qui route automatiquement les requêtes vers les régions AWS commerciales les mieux disponibles dans le monde entier, offrant un accès à un pool de ressources nettement plus large et une réduction de coût d'environ 10 % par rapport à l'inférence géographique classique. Le prompt caching, autre fonctionnalité optionnelle, permet quant à lui de réduire la latence et les coûts en token en évitant de recalculer des portions de contexte identiques. Ensemble, ces mécanismes forment une réponse structurée d'AWS à la pression croissante que font peser des milliers d'organisations sur une infrastructure d'IA devenue critique pour leurs opérations quotidiennes.

UELes organisations françaises et européennes utilisant Amazon Bedrock pour leurs workloads d'IA en production peuvent réduire la charge opérationnelle de leurs équipes SRE grâce à cette solution d'automatisation du monitoring et de la gestion des quotas.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic