Aller au contenu principal
La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées
InfrastructureInfoQ AI6sem· 1 min de lecture

La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées

Source originale ↗·

Face à la multiplication des modèles d'IA dans les entreprises, les équipes d'ingénierie se retrouvent confrontées à ce que Meryem Arik appelle le "chaos d'inférence" : chaque équipe choisit ses propres modèles, ses propres fournisseurs, sans coordination ni visibilité globale. Pour y remédier, une nouvelle catégorie d'infrastructure émerge : les passerelles de modèles d'IA (AI model gateways), une couche de contrôle centralisée qui s'intercale entre les équipes et les fournisseurs de LLM comme OpenAI, Anthropic ou Mistral.

L'enjeu est concret : sans ce type de couche intermédiaire, les DSI et responsables techniques perdent le contrôle des coûts, de la sécurité et de la conformité. Une passerelle bien configurée permet de gérer les droits d'accès par équipe (RBAC), de suivre la consommation par projet, d'imposer des règles de routage selon les besoins, et d'éviter que des données sensibles partent vers des API externes sans supervision. Pour les grandes organisations qui déploient l'IA à l'échelle, c'est une brique devenue aussi critique qu'un API gateway classique.

Deux solutions open source se distinguent dans ce segment : LiteLLM, qui offre une interface unifiée vers des dizaines de fournisseurs LLM, et Doubleword, plus récent, positionné sur le contrôle d'entreprise. Ce marché reste jeune mais s'accélère à mesure que les équipes tech passent du prototype à la production à grande échelle. Les éditeurs de plateformes MLOps comme Weights & Biases ou Databricks surveillent ce segment de près, et des acquisitions ou intégrations sont probables dans les prochains mois.

Impact France/UE

Les entreprises européennes déployant des LLMs à grande échelle ont un intérêt direct à adopter ce type de passerelle pour satisfaire aux exigences du RGPD et de l'AI Act, en garantissant que les données sensibles restent sous contrôle avant d'être transmises à des API externes.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

La mise en production de l'IA à grande échelle oblige les entreprises à repenser leur infrastructure
1VentureBeat AI 

La mise en production de l'IA à grande échelle oblige les entreprises à repenser leur infrastructure

Le déploiement de l'intelligence artificielle à grande échelle est en train de redessiner l'architecture informatique des entreprises. C'est le constat que dressent Tarkan Maner, président et directeur commercial de Nutanix, et Thomas Cornely, vice-président exécutif en charge du produit, qui observent une bascule profonde dans la façon dont les organisations abordent l'IA. Après des mois de prototypes et d'expérimentations dans le cloud, les entreprises cherchent désormais à déployer ces systèmes sur des charges de travail réelles, pour des milliers d'utilisateurs simultanés. Cornely résume l'écart : "Faire un prototype, c'est une chose. Déployer ce prototype pour 10 000 employés, c'en est une autre." La montée en puissance des agents IA, capables d'enchaîner des tâches complexes en toute autonomie, amplifie encore cette pression : les infrastructures doivent gérer des workflows multi-étapes, des charges imprévisibles en temps réel, et coordonner l'accès aux données entre équipes. Ce passage du pilote à la production révèle des contraintes pratiques que l'expérimentation en cloud avait masquées. Les questions de gouvernance des données, de contrôle, de sécurité et de coût prennent rapidement le dessus dès que les volumes augmentent. Les cas d'usage qui progressent le plus vite sont la recherche documentaire et la récupération de connaissances, la détection prédictive des menaces en cybersécurité, les workflows de développement logiciel, et le support client. Dans le secteur bancaire, notamment en Europe et aux États-Unis, des établissements déploient déjà des outils de reconnaissance faciale et de détection prédictive des cyberattaques pilotés par l'IA. L'enjeu n'est pas de remplacer les décisions humaines, mais de trouver le bon équilibre entre l'automatisation et l'intervention humaine, ce que Maner résume par l'idée d'une "harmonie" entre agents IA, robotique et capital humain, optimisée pour de meilleurs résultats opérationnels. Cette transformation s'inscrit dans un contexte de mutation accélérée qui touche l'ensemble des secteurs, des industries réglementées comme la banque, la santé et les administrations publiques jusqu'à la distribution et la manufacture. Des frameworks comme OpenClaw facilitent désormais la création d'agents par des équipes qui n'ont pas de compétences en infrastructure IA, ce qui accroît la pression sur les plateformes chargées de sécuriser ces déploiements. La trajectoire dominante est claire : débuter dans le cloud pour accéder rapidement aux ressources, puis rapatrier les applications critiques sur site à mesure qu'elles entrent en production, sur des plateformes qui résolvent les problèmes de sécurité et de coût à la fois. Nutanix se positionne explicitement sur ce segment, voyant dans cette transition une opportunité de croissance majeure à mesure que les entreprises cherchent des partenaires capables d'accompagner l'IA de l'expérimentation au déploiement industriel.

UELe secteur bancaire européen est cité parmi les premiers adopteurs de l'IA en production (reconnaissance faciale, détection prédictive des cyberattaques), illustrant les enjeux croissants de gouvernance et de souveraineté des données pour les entreprises françaises et européennes.

InfrastructureActu
1 source
Intelligence contextuelle pour vos données et agents IA à grande échelle
2AWS ML Blog 

Intelligence contextuelle pour vos données et agents IA à grande échelle

Amazon Web Services a annoncé lors de l'AWS Summit New York City le lancement prochain d'AWS Context, un nouveau service conçu pour donner aux agents d'intelligence artificielle un accès structuré et gouverné à l'ensemble des données d'une organisation. Le service construit automatiquement un graphe de connaissances en cartographiant les relations entre les sources de données existantes, lacs de données, entrepôts, bases de données, flux en temps réel, et expose ce graphe via des API de recherche agentique et des outils MCP. Les équipes data peuvent gérer ce graphe depuis une console dédiée, valider les relations inférées automatiquement, les promouvoir en production, et y attacher des définitions métier ou des règles d'usage. AWS Context s'appuie sur la technologie qui alimente déjà Amazon QuickSight Q, un graphe de connaissances personnel utilisé quotidiennement par des centaines de milliers d'utilisateurs et traitant des millions de requêtes par jour. La nouveauté : ce graphe devient organisationnel, partagé entre tous les agents et applications d'une entreprise. Les métadonnées clés sont publiées au format Apache Iceberg dans Amazon S3, ce qui les rend interrogeables via Athena, Redshift ou Spark. L'enjeu est fondamental pour les entreprises qui déploient des agents IA en production : un agent ne peut prendre de décisions fiables que s'il dispose du bon contexte au bon moment. Aujourd'hui, ce contexte est dispersé entre des dizaines de systèmes hétérogènes, et une grande partie de la connaissance institutionnelle n'est tout simplement pas écrite. AWS Context vise à combler ce vide en créant une couche de contexte centralisée, gouvernée et accessible en temps réel. Pour les utilisateurs existants d'Amazon QuickSight Q, le bénéfice est immédiat : une fois AWS Context activé, leurs agents accèdent automatiquement au graphe étendu, incluant les relations inter-systèmes et les règles métier qui dépassent ce qu'un graphe personnel peut offrir. AWS Glue Data Catalog, Amazon SageMaker Unified Studio et AWS Lake Formation s'intègrent nativement au service. Ce lancement s'inscrit dans une course industrielle plus large autour de ce qu'AWS appelle l'« intelligence de contexte ». Les grands fournisseurs cloud rivalisent pour proposer des infrastructures permettant aux agents IA de raisonner sur des données d'entreprise réelles, sans que les équipes aient à construire des pipelines de récupération complexes. AWS Context se distingue par deux caractéristiques : son graphe apprend automatiquement de l'usage des agents, propageant les chemins de jointure corrects et les ambiguïtés résolues à l'ensemble de l'organisation sans intervention humaine ; et son architecture ouverte, basée sur Apache Iceberg, garantit que les métadonnées restent portables et auditables, indépendamment des outils choisis. Le service est également conçu pour se connecter à des catalogues tiers, étendant le graphe au-delà de l'écosystème AWS. La disponibilité générale n'a pas encore été précisée.

InfrastructureActu
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
3AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
À l'ISC, JUPITER démontre les capacités de la science à l'échelle exascale
4NVIDIA AI Blog 

À l'ISC, JUPITER démontre les capacités de la science à l'échelle exascale

JUPITER, le premier supercalculateur européen à atteindre l'échelle exaflop, installé au Forschungszentrum Jülich en Allemagne, affiche une première année de résultats scientifiques majeurs. Présentés cette semaine à la conférence ISC à Hambourg, quatre projets conduits sur cette machine illustrent concrètement ce que permet le calcul à l'échelle exascale : cartographier le cerveau humain cellule par cellule, simuler le climat terrestre à une résolution d'un kilomètre, développer des systèmes d'IA pour les réseaux sans fil de prochaine génération, et émuler un ordinateur quantique universel de 50 qubits. La machine repose sur des puces NVIDIA Grace Hopper et un réseau InfiniBand Quantum-X800. Thomas Lippert, directeur du Centre de supercalcul de Jülich et professeur à l'université Goethe de Francfort, affirme que JUPITER positionne l'Europe non pas comme un suiveur de l'ère exascale, mais comme son chef de file. Deux résultats se distinguent par leur portée. Le projet Jülich Brain Atlas a produit CytoNet, un modèle fondamental entraîné sur 6,5 pétaoctets de données issues de 21 cerveaux post-mortem, en moins de cinq jours sur 4 096 puces Grace Hopper. Pour la première fois, un modèle d'IA cartographie la microarchitecture cérébrale à l'échelle cellulaire, reliant la structure de chaque cellule aux grands schémas d'organisation du cerveau. La neuroscientifique Katrin Amunts, qui dirige les travaux à l'INM-1 de Jülich, prépare désormais un agent IA capable d'interroger directement ces données, intégrant du raisonnement multimodal et un modèle de langage NVIDIA Nemotron 3 120B. Sur le front climatique, le modèle ICON, développé en collaboration entre l'ETH Zurich, le Max Planck Institute for Meteorology, le DKRZ, le JSC et NVIDIA, a remporté le Gordon Bell Prize for Climate Modelling au SC25 en novembre dernier. Tournant sur 20 480 puces Grace Hopper, ICON simule pour la première fois un système terrestre couplé, atmosphère, océan, terres, biogéochimie et cycle du carbone complet, à une résolution d'un kilomètre. En 24 heures de calcul, la machine a simulé environ 146 jours de climat réel, un record mondial. Ces avancées s'inscrivent dans une course mondiale à la puissance de calcul scientifique où l'Europe a longtemps accusé un retard face aux États-Unis et à la Chine. JUPITER comble cet écart en offrant à la communauté scientifique européenne un outil capable de traiter des problèmes auparavant hors de portée, qu'il s'agisse de la connectivité 6G, des maladies neurodégénératives ou du changement climatique. La concentration de disciplines aussi diverses sur une seule infrastructure marque un tournant : le supercalcul ne sert plus uniquement la physique des particules ou la météorologie, mais devient un substrat commun pour toutes les sciences de pointe. Les prochaines étapes pour plusieurs équipes incluent l'intégration d'agents IA autonomes capables de conduire eux-mêmes des expériences scientifiques, ouvrant la voie à une recherche partiellement automatisée à très grande échelle.

UEJUPITER, financé par EuroHPC et installé à Jülich (Allemagne), positionne l'UE comme leader mondial du calcul exascale, offrant à la communauté scientifique européenne une infrastructure de pointe pour la recherche en neurosciences, climatologie et IA souveraine.

💬 L'Europe qu'on moque pour ses règlements vient de cartographier le cerveau humain cellule par cellule et de simuler le climat à un kilomètre de résolution, en moins d'une semaine de calcul. JUPITER, c'est la preuve que la souveraineté numérique européenne ne passe pas que par des textes de loi, mais aussi par des machines capables de faire tourner de la science que personne d'autre ne peut faire. Bon, faut qu'ils gardent l'avance maintenant.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic