Aller au contenu principal
Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)
InfrastructureAWS ML Blog12sem· 1 min de lecture

Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)

Source originale ↗·

Amazon Bedrock est désormais disponible dans la région Asie-Pacifique (Nouvelle-Zélande), identifiée sous le code ap-southeast-6 et centrée sur Auckland. Cette expansion permet aux entreprises néo-zélandaises d'accéder directement aux modèles d'IA générative d'Anthropic et d'Amazon depuis leur région AWS locale, sans avoir à dépendre d'infrastructures situées en dehors du pays.

L'enjeu est significatif pour les organisations soumises à des exigences de résidence des données. Jusqu'ici, les clients néo-zélandais devaient s'appuyer sur des régions australiennes pour exploiter Amazon Bedrock, ce qui pouvait poser des contraintes réglementaires ou de conformité. L'intégration d'Auckland dans le profil de routage géographique AU répond directement à ces besoins, en garantissant que les données restent sur le réseau AWS — sans jamais transiter par l'internet public — et sont chiffrées en transit entre les régions.

Les modèles disponibles incluent toute la gamme Anthropic Claude : Claude Opus 4.5, Opus 4.6, Sonnet 4.5, Sonnet 4.6 et Haiku 4.5, ainsi que le modèle Amazon Nova 2 Lite, accessibles via l'inférence inter-régions. La configuration géographique AU couvre désormais trois régions : Auckland (ap-southeast-6), Sydney (ap-southeast-2) et Melbourne (ap-southeast-4). Les requêtes provenant d'Auckland peuvent ainsi être traitées localement ou redirigées vers l'une des deux régions australiennes selon la disponibilité. À noter : les profils existants pour Sydney et Melbourne continuent de router exclusivement entre ces deux villes — l'ajout d'Auckland ne modifie pas leur comportement.

Pour les organisations sans contraintes strictes de résidence des données, une option de routage global reste disponible, donnant accès aux régions AWS commerciales dans le monde entier pour un débit maximal. Le choix entre les deux modes — géographique ou global — dépend donc directement du profil réglementaire de chaque organisation.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
Surveiller et déboguer l'inférence IA générative avec SageMaker sur CloudWatch
2AWS ML Blog 

Surveiller et déboguer l'inférence IA générative avec SageMaker sur CloudWatch

Amazon Web Services a enrichi son service SageMaker AI d'un système de supervision avancé pour les endpoints d'inférence en temps réel : la plateforme émet désormais plus de 100 métriques détaillées couvrant la santé GPU, la latence au niveau des tokens, la pression sur le cache KV, la répartition du trafic entre zones de disponibilité et les diagnostics de démarrage à froid. Ces données alimentent automatiquement un tableau de bord intégré appelé SageMaker Insights, accessible directement depuis la console Amazon CloudWatch sous la section « Infrastructure Monitoring ». Le tableau de bord s'organise en trois vues, Performance, Capacité, Fiabilité, et exploite les métriques via une interface compatible PromQL, permettant également leur intégration dans des outils tiers comme Grafana ou Datadog. Deux architectures d'endpoints sont supportées : les endpoints mono-modèle (SME), où chaque modèle dispose de ses propres instances GPU, et les endpoints à composants d'inférence (IC), qui permettent à plusieurs modèles de partager la même infrastructure GPU avec une mise à l'échelle indépendante par modèle. Cette évolution répond à un besoin critique des équipes MLOps et SRE qui gèrent en production des dizaines de modèles sur des centaines d'instances GPU. Jusqu'ici, diagnostiquer un pic de latence P99 sur un endpoint LLM exigeait de déterminer en quelques minutes si la cause était une saturation de la mémoire GPU, un cache KV saturé, un déséquilibre de trafic entre zones ou une politique d'autoscaling trop lente, sans outillage natif pour y répondre rapidement. Le nouveau système supprime la nécessité de configurer manuellement des dashboards Grafana et des exporteurs Prometheus, ce qui représente un gain opérationnel significatif. Les métriques sont émises nativement au format OpenTelemetry, standard ouvert qui facilite l'interopérabilité avec l'écosystème d'observabilité existant des entreprises. La montée en puissance de l'inférence LLM en production a profondément modifié les priorités des équipes d'infrastructure machine learning : si l'entraînement des modèles concentrait autrefois l'essentiel de l'attention, c'est désormais le « serving » à grande échelle qui pose les défis les plus complexes, notamment en termes de coût GPU, de disponibilité et de gestion multi-modèles. L'architecture IC, recommandée par AWS pour les charges de travail IA génératives en production, permet de mutualiser l'infrastructure GPU entre plusieurs modèles et d'assurer la haute disponibilité via une distribution des répliques entre zones de disponibilité. Cette annonce s'inscrit dans une compétition accrue entre les grands fournisseurs cloud, AWS, Google Cloud et Azure, pour proposer des environnements de déploiement LLM clés en main, où l'observabilité devient un argument différenciant à mesure que les équipes industrialisent leurs pipelines d'inférence.

UELes équipes MLOps et SRE européennes industrialisant des pipelines d'inférence LLM en production bénéficient indirectement d'un outillage d'observabilité natif, réduisant la complexité opérationnelle sans configuration manuelle de Prometheus/Grafana.

InfrastructureOpinion
1 source
Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative
3AWS ML Blog 

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Amazon a annoncé que SageMaker AI prend désormais en charge les recommandations optimisées pour le déploiement de modèles d'IA générative en production. Cette nouvelle fonctionnalité s'appuie sur NVIDIA AIPerf, un composant modulaire du framework open source NVIDIA Dynamo, pour fournir automatiquement des configurations de déploiement validées accompagnées de métriques de performance précises. Concrètement, SageMaker AI évalue les combinaisons d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, puis restitue aux équipes les configurations les plus adaptées à leurs exigences de latence, de débit ou de coût. Eliuth Triana, Developer Relations Manager chez NVIDIA, a salué l'intégration, soulignant qu'elle permet aux entreprises de déployer des modèles d'IA générative avec confiance, en remplaçant des semaines de tests manuels par des configurations prêtes à l'emploi. L'enjeu est considérable pour les équipes d'ingénierie. Aujourd'hui, passer d'un modèle entraîné à un endpoint de production opérationnel prend entre deux et trois semaines par modèle, une durée imposée par la nécessité de tester manuellement des dizaines de configurations possibles : plus d'une douzaine de types d'instances GPU, plusieurs conteneurs de service, différents degrés de parallélisme, et des techniques comme le décodage spéculatif. Sans guidance validée, les équipes provisionnent des instances, déploient le modèle, exécutent des tests de charge, analysent les résultats, puis recommencent. Ce cycle mobilise une expertise en infrastructure GPU et en frameworks de service que la plupart des équipes ne possèdent pas en interne, conduisant systématiquement à du sur-provisionnement coûteux. AWS élimine ce goulot d'étranglement en automatisant l'ensemble du processus d'exploration et de validation des configurations. Cette évolution s'inscrit dans une course à la mise en production de l'IA générative que se livrent les entreprises pour alimenter leurs assistants intelligents, outils de génération de code et moteurs de contenu. Le coût du sur-provisionnement GPU, qui s'accumule à chaque modèle déployé et à chaque mois d'exploitation, représente un problème structurel pour l'industrie. AWS s'appuie sur sa collaboration technique approfondie avec NVIDIA, formalisée ici par l'intégration directe des composants de Dynamo dans SageMaker, pour s'imposer comme la plateforme cloud de référence pour les déploiements d'IA en production. En standardisant le benchmarking via AIPerf, dont les contrôles de concurrence et les options de jeux de données permettent d'itérer rapidement sur des scénarios variés, Amazon réduit la barrière technique pour les organisations qui cherchent à industrialiser leurs modèles sans constituer une équipe d'experts en infrastructure dédiée.

UELes entreprises européennes utilisant AWS SageMaker peuvent réduire leurs délais de mise en production de modèles IA de plusieurs semaines, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

InfrastructureActu
1 source
Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock
4AWS ML Blog 

Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock

Amazon Web Services a dévoilé Amazon Bedrock Ops Alert, une solution de supervision automatisée en trois couches conçue pour les organisations qui déploient des applications d'IA générative à grande échelle. Utilisé par plus de 100 000 organisations dans le monde, d'entreprises naissantes aux multinationales, Amazon Bedrock fournit l'infrastructure sur laquelle reposent des centaines de workloads de production. La nouvelle solution surveille en continu les quotas de requêtes par minute (RPM) et de tokens par minute (TPM) alloués à chaque client, détecte les anomalies opérationnelles avant qu'elles n'impactent la production, ajuste dynamiquement les seuils d'alarme, et ouvre automatiquement des tickets de support AWS enrichis en contexte. Elle intègre également un mécanisme anti-doublons qui bloque la création d'un nouveau ticket si un cas non résolu de même nature est déjà ouvert, évitant ainsi de diluer l'attention des équipes d'ingénierie. Pour les équipes SRE spécialisées en IA, l'enjeu est considérable : gérer manuellement les quotas et escalades de support à mesure que l'adoption interne s'accélère est un travail chronophage qui détourne les ingénieurs de l'innovation. Bedrock Ops Alert réduit ce surcoût opérationnel en automatisant le triage, en fournissant des notifications contextualisées directement exploitables, et en raccourcissant le temps moyen de résolution des incidents. La solution permet aussi d'anticiper les besoins d'augmentation de quotas avant que les limitations ne se matérialisent en erreurs pour les utilisateurs finaux, un gain critique dans des environnements où plusieurs modèles de fondation tournent simultanément en production. Cette annonce s'inscrit dans une tendance plus large chez AWS : réduire la friction liée à l'échelle des workloads d'IA générative sans exiger systématiquement une augmentation de quotas. Amazon Bedrock propose déjà l'inférence inter-régions géographique et, plus récemment, l'inférence inter-régions mondiale (global cross-region inference), qui route automatiquement les requêtes vers les régions AWS commerciales les mieux disponibles dans le monde entier, offrant un accès à un pool de ressources nettement plus large et une réduction de coût d'environ 10 % par rapport à l'inférence géographique classique. Le prompt caching, autre fonctionnalité optionnelle, permet quant à lui de réduire la latence et les coûts en token en évitant de recalculer des portions de contexte identiques. Ensemble, ces mécanismes forment une réponse structurée d'AWS à la pression croissante que font peser des milliers d'organisations sur une infrastructure d'IA devenue critique pour leurs opérations quotidiennes.

UELes organisations françaises et européennes utilisant Amazon Bedrock pour leurs workloads d'IA en production peuvent réduire la charge opérationnelle de leurs équipes SRE grâce à cette solution d'automatisation du monitoring et de la gestion des quotas.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic