Aller au contenu principal
Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles
InfrastructureAWS ML Blog4h

Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon Web Services a introduit une fonctionnalité appelée Cross-Region Inference (CRIS) dans Amazon Bedrock, son service d'IA générative managé, permettant aux entreprises européennes de router automatiquement leurs requêtes d'inférence vers plusieurs régions AWS au sein de zones géographiques prédéfinies. Concrètement, lorsqu'une application envoie une requête à un modèle comme Claude d'Anthropic ou un modèle Amazon Nova, CRIS peut la rediriger dynamiquement vers la région disposant de la meilleure capacité disponible, tout en maintenant les données dans un périmètre géographique contrôlé. Pour l'Europe, AWS propose des profils EU CRIS dont toutes les régions de destination sont situées exclusivement au sein de l'Union européenne. Les données transmises restent chiffrées et circulent uniquement sur le réseau privé AWS, sans jamais transiter par l'internet public.

Ce mécanisme répond à un problème concret que rencontrent les entreprises européennes : la saturation des capacités de calcul GPU en période de forte demande, qui se traduit par des latences élevées ou des erreurs de disponibilité. En distribuant les requêtes sur plusieurs régions, les applications deviennent plus résilientes aux pics de charge et aux pannes locales. Du point de vue réglementaire, les profils EU CRIS sont conçus pour faciliter la conformité au RGPD, puisque le traitement reste borné à l'UE, un critère déterminant pour les secteurs soumis à des exigences strictes de résidence des données comme la finance, la santé ou les services publics. AWS souligne également que certains modèles sont disponibles à tarif réduit via les profils globaux CRIS, ajoutant un argument économique à l'argument technique.

La pression réglementaire européenne sur le traitement des données par des fournisseurs cloud américains s'est intensifiée ces dernières années, notamment après les décisions de la CJUE sur les transferts transatlantiques de données. Les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure ont tous investi massivement dans des infrastructures européennes et des offres de souveraineté pour répondre à ces contraintes. CRIS s'inscrit dans cette logique : plutôt que de forcer les clients à choisir une seule région et à subir ses limitations de capacité, AWS propose une abstraction qui optimise automatiquement tout en respectant les frontières réglementaires. La prochaine étape logique sera l'extension de ces profils géographiques à d'autres zones comme le Moyen-Orient ou l'Asie-Pacifique, et l'intégration de contrôles plus fins permettant aux entreprises de définir elles-mêmes les régions autorisées selon leurs obligations contractuelles ou sectorielles.

Impact France/UE

La fonctionnalité EU CRIS d'AWS Bedrock permet aux entreprises européennes de maintenir leurs traitements d'inférence IA exclusivement dans les frontières de l'UE, facilitant la conformité RGPD pour les secteurs finance, santé et services publics soumis à des exigences strictes de résidence des données.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les services financiers face aux exigences de données pour l'IA à base d'agents
1MIT Technology Review 

Les services financiers face aux exigences de données pour l'IA à base d'agents

Plus de la moitié des équipes de services financiers ont déjà déployé ou prévoient de déployer une IA agentique, selon Gartner. Ces systèmes, capables de planifier et d'exécuter des tâches de manière autonome plutôt que de simplement générer des réponses, suscitent un intérêt croissant dans le secteur bancaire et assurantiel. Mais selon Steve Mayzak, directeur général mondial du Search AI chez Elastic, leur succès dépend moins de la sophistication des algorithmes que de la qualité des données sous-jacentes. "Tout commence par les données", résume-t-il. Une étude Forrester révèle pourtant que 57 % des organisations financières sont encore en train de développer les capacités internes nécessaires pour exploiter pleinement ces technologies agentiques. L'enjeu est considérable : une IA agentique amplifie autant les forces que les failles de son infrastructure data. Dans un secteur aussi réglementé, les exigences vont bien au-delà de la simple performance. Les entreprises doivent pouvoir tracer et justifier chaque décision prise par le modèle, données d'entrée comprises. "Il ne suffit pas d'expliquer d'où viennent les données et ce qu'elles sont devenues. Il faut une manière auditable et gouvernable d'expliquer quelle information le modèle a retenue et pourquoi elle était pertinente pour l'étape suivante", insiste Mayzak. Les hallucinations, les réponses incohérentes et les décisions difficiles à retracer minent la confiance des régulateurs, des clients et des équipes internes. Pour les transactions, les signaux de risque, les politiques internes ou l'historique client, la donnée doit être indexée, centralisée et accessible, pas enfouie dans des silos séparés. Le défi est structurel autant que technique. Les données financières existent sous des formats hétérogènes, accumulés sur des décennies d'histoire bancaire, mélangeant données structurées (tableurs, bases transactionnelles) et non structurées (notes de conseillers, échanges clients, documents contractuels). Or le langage naturel est, par nature, bien plus ambigu que les données tabulaires, ce qui rend leur nettoyage et leur organisation particulièrement complexes. Mayzak illustre la difficulté : "Il existe de nombreuses façons de décrire comment exécuter un ordre de bourse dans une banque. Dans un monde piloté par des agents IA, ces descriptions doivent être déterministes, donner le même résultat à chaque fois. Pourtant, on construit sur des modèles puissants mais non déterministes. C'est incroyablement délicat, mais pas impossible." Les prochaines années verront les acteurs financiers investir massivement dans la gouvernance des données, condition sine qua non pour transformer l'IA agentique d'outil prometteur en avantage compétitif réel.

UELes banques et assureurs européens, soumis à l'AI Act et à DORA, doivent impérativement résoudre les défis de gouvernance et d'auditabilité des données pour déployer une IA agentique conforme aux exigences réglementaires.

💬 57% des organisations financières encore en train de "construire les capacités" pour l'IA agentique, c'est beaucoup de retard pour un secteur qui prétend se transformer. L'enjeu soulevé par Mayzak est le bon : tu peux avoir le meilleur modèle du monde, si tes données transactionnelles sont éparpillées en silos depuis 30 ans, l'agent va amplifier le chaos, pas le résoudre. Et la vraie tension, celle qu'on évite de nommer, c'est qu'on veut des résultats déterministes avec des modèles qui ne le sont pas.

InfrastructureOpinion
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
2Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source
Inférence adaptée à la capacité : basculement automatique entre instances pour les endpoints SageMaker AI
3AWS ML Blog 

Inférence adaptée à la capacité : basculement automatique entre instances pour les endpoints SageMaker AI

Amazon SageMaker AI vient d'introduire une fonctionnalité baptisée "capacity-aware instance pool" pour ses endpoints d'inférence, disponible immédiatement pour les nouveaux déploiements comme pour les endpoints existants. Concrètement, les équipes peuvent désormais définir une liste ordonnée de types d'instances GPU plutôt qu'un type unique, et SageMaker parcourt automatiquement cette liste dès qu'une contrainte de capacité se présente, que ce soit à la création de l'endpoint, lors d'un scale-out ou d'un scale-in. Cette mécanique de bascule automatique fonctionne pour les Single Model Endpoints, les endpoints basés sur des Inference Components, et les Asynchronous Inference endpoints. Les métriques Amazon CloudWatch bénéficient également d'une nouvelle dimension InstanceType, permettant de suivre latence, débit, utilisation GPU et nombre d'instances par type de matériel au sein d'un même endpoint. Jusqu'ici, le déploiement d'un modèle sur SageMaker imposait de choisir un seul type d'instance au moment de la création. Si ce type manquait de capacité, l'endpoint échouait avec une erreur "Insufficient Capacity", forçant les équipes à itérer manuellement sur des alternatives, chaque tentative prenant plusieurs minutes avant de connaître son issue. Le problème se répétait à chaque phase du cycle de vie : lors des montées en charge automatiques, l'autoscaler relançait indéfiniment des requêtes sur le même type d'instance indisponible pendant que le trafic continuait d'augmenter, et lors des descentes, toutes les instances étaient candidates à la suppression sans distinction de priorité. Avec les instance pools, SageMaker essaie le type préféré en premier, bascule immédiatement sur le suivant si nécessaire, et retire en priorité les instances de fallback lors des scale-in, laissant la flotte revenir naturellement vers le matériel privilégié quand il redevient disponible. Cette annonce s'inscrit dans un contexte où l'accès aux GPU reste l'un des goulots d'étranglement les plus critiques pour les organisations qui industrialisent des charges IA en production. Les grands modèles de langage et les architectures multimodales exigent des types d'instances spécifiques, souvent soumis à une forte tension sur les capacités cloud. AWS rejoint ainsi une tendance plus large dans laquelle les fournisseurs cloud intègrent nativement des mécanismes de résilience face aux pénuries de compute, réduisant la charge opérationnelle sur les équipes MLOps. La possibilité de migrer des endpoints existants sans reconstruction complète est un signal fort : AWS cible autant les workloads de production déjà déployés que les nouveaux projets. Les suites logiques seraient une extension à d'autres services d'inférence managés et une intégration plus fine avec les stratégies de spot instances pour optimiser les coûts tout en maintenant la disponibilité.

InfrastructureActu
1 source
HP et l'art de l'IA et des données pour les entreprises
4AI News 

HP et l'art de l'IA et des données pour les entreprises

À quelques jours du salon AI & Big Data Expo, prévu les 18 et 19 mai au McEnery Convention Center de San Jose, Jérôme Gabryszewski, responsable du développement commercial IA et Data Science chez HP, a accordé une interview à Artificial Intelligence News pour évoquer les défis concrets que rencontrent les grandes entreprises dans leur adoption de l'intelligence artificielle. Le constat est sans appel : malgré un accès abondant à leurs propres données, la plupart des organisations peinent à en tirer parti. La première embûche n'est pas technique : c'est la dette organisationnelle et architecturale. Avant d'automatiser quoi que ce soit, les entreprises doivent réconcilier des données éparpillées entre départements, des schémas incohérents et des systèmes legacy jamais conçus pour l'interopérabilité. Le travail de gouvernance précède toujours le déploiement technique. Sur la question des modèles en apprentissage continu, Gabryszewski recommande d'appliquer les mêmes exigences qu'un déploiement logiciel classique : aucune mise à jour en production sans validation formelle. La dérive conceptuelle est surveillée via des pipelines MLOps avec détection automatique, et la contamination des données d'entraînement est traitée comme un problème de traçabilité autant que de sécurité. Les entreprises qui maîtrisent ces risques ne sont pas forcément les plus avancées techniquement, mais celles qui ont intégré la gouvernance IA dans leur cadre de gestion des risques avant de passer à l'échelle. Ce positionnement a des implications concrètes pour des milliers d'équipes data qui cherchent à réduire leur dépendance au cloud sans sacrifier la puissance de calcul. La question du local versus cloud est au cœur des arbitrages actuels : chaque inférence envoyée dans le cloud représente un coût, une latence et une exposition potentielle de données sensibles. Disposer d'une infrastructure locale capable de faire tourner des modèles de grande taille change fondamentalement l'équation économique et réglementaire, notamment pour les secteurs soumis à des contraintes strictes comme la finance, la santé ou la défense. HP s'appuie sur quinze ans de développement de sa gamme professionnelle Z pour positionner son matériel comme épine dorsale de ce cycle IA autonome. Le ZBook Ultra et le Z2 Mini couvrent les usages mobiles et compacts, mais c'est le ZGX Nano qui attire l'attention : un supercalculateur IA de 15x15 cm, équipé du superpuce NVIDIA GB10 Grace Blackwell, 128 Go de mémoire unifiée et 1 000 TOPS de performance FP4, capable de faire tourner localement des modèles jusqu'à 200 milliards de paramètres. En interconnectant deux unités, on atteint 405 milliards de paramètres, sans cloud, sans datacenter, sans file d'attente. L'appareil est livré préconfiguré avec la pile logicielle NVIDIA DGX et le HP ZGX Toolkit, permettant aux équipes d'être opérationnelles en quelques minutes. HP vise ainsi le segment des équipes IA qui ont besoin de puissance souveraine et immédiate, à l'heure où la course aux modèles toujours plus grands redistribue les cartes du marché des workstations professionnelles.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour