Aller au contenu principal
OutilsAWS ML Blog5j

Métriques enrichies pour les endpoints Amazon SageMaker AI : une visibilité approfondie pour de meilleures performances

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Amazon SageMaker AI introduit des métriques améliorées avec une fréquence de publication configurable, offrant une visibilité granulaire au niveau des instances EC2 et des conteneurs individuels. Ces nouvelles métriques permettent de surveiller l'utilisation CPU, GPU et mémoire par instance, ainsi que les patterns de requêtes, erreurs et latences avec des dimensions précises. Grâce aux Inference Components, il est désormais possible de calculer le coût réel par modèle en suivant l'allocation GPU au niveau de chaque composant d'inférence.

Running machine learning (ML) models in production requires more than just infrastructure resilience and scaling efficiency. You need nearly continuous visibility into performance and resource utilization. When latency increases, invocations fail, or resources become constrained, you need immediate insight to diagnose and resolve issues before they impact your customers. Until now, Amazon SageMaker AI provided Amazon CloudWatch metrics that offered useful high-level visibility, but these were aggregate metrics across all instances and containers. While helpful for overall health monitoring, these aggregated metrics obscured individual instance and container details, making it difficult to pinpoint bottlenecks, improve resource utilization, or troubleshoot effectively. SageMaker AI endpoints now support enhanced metrics with configurable publishing frequency. This launch provides the granular visibility needed to monitor, troubleshoot, and improve your production endpoints. With SageMaker AI endpoint enhanced metrics, we can now drill down into container-level and instance-level metrics, which provide capabilities such as: View specific model copy metrics . With multiple model copies deployed across a SageMaker AI endpoint using Inference Components, it’s useful to view metrics per model copy such as concurrent requests, GPU utilization, and CPU utilization to help diagnose issues and provide visibility into production workload traffic patterns. View how much each model costs . With multiple models sharing the same infrastructure, calculating the true cost per model can be complex. With enhanced metrics, we can now calculate and associate cost per model by tracking GPU allocation at the inference component level. What’s new Enhanced metrics introduce two categories of metrics with multiple levels of granularity: EC2 Resource Utilization Metrics : Track CPU, GPU, and memory consumption at the instance and container level. Invocation Metrics : Monitor request patterns, errors, latency, and concurrency with precise dimensions. Each category provides different levels of visibility depending on your endpoint configuration. Instance-level metrics: available for all endpoints Every SageMaker AI endpoint now has access to instance-level metrics, giving you visibility into what’s happening on each Amazon Elastic Compute Cloud (Amazon EC2) instance in your endpoint. Resource utilization (CloudWatch namespace: /aws/sagemaker/Endpoints ) Track CPU utilization, memory consumption, and per-GPU utilization and memory usage for every host. When an issue occurs, you can immediately identify which specific instance needs attention. For accelerator-based instances, you will see utilization metrics for each individual accelerator. Invocation metrics (CloudWatch namespace: AWS/SageMaker ) Track request patterns, errors, and latency by drilling down to the instance level. Monitor invocations, 4XX/5XX errors, model latency, and overhead latency with precise dimensions that help you pinpoint exactly which instance experienced issues. These metrics help you diagnose uneven traffic distribution, identify error-prone instances, and correlate performance issues with specific resources. Container-level metrics: for inference components If you’re using Inference Components to host multiple models on a single endpoint, you now have container-level visibility. Resource utilization (CloudWatch namespace: /aws/sagemaker/InferenceComponents ) Monitor resource consumption per container. See CPU, memory, GPU utilization, and GPU memory usage for each model copy. This visibility helps you understand which inference component model copies are consuming resources, maintain fair allocation in multi-tenant scenarios, and identify containers experiencing performance issues. These detailed metrics include dimensions for InferenceComponentName and ContainerId . Invocation metrics (CloudWatch namespace: AWS/SageMaker ) Track request patterns, errors, and latency at the container level. Monitor invocations, 4XX/5XX errors, model latency, and overhead latency with precise dimensions that help you pinpoint exactly where issues occurred. Configuring enhanced metrics Enable enhanced metrics by adding one parameter when creating your endpoint configuration: response = sagemaker_client.create_endpoint_config( EndpointConfigName='my-config', ProductionVariants=[{ 'VariantName': 'AllTraffic', 'ModelName': 'my-model', 'InstanceType': 'ml.g6.12xlarge', 'InitialInstanceCount': 2 }], MetricsConfig={ 'EnableEnhancedMetrics': True, 'MetricsPublishFrequencyInSeconds': 10, # Default 60s }) Choosing your publishing frequency After you’ve enabled enhanced metrics, configure the publishing frequency based on your monitoring needs: Standard resolution (60 seconds) : The default frequency provides detailed visibility for most production workloads. This is sufficient for capacity planning, troubleshooting, and optimization, while keeping costs manageable. High resolution (10

À lire aussi

1The Verge AI1h

Le mode automatique de Claude Code d'Anthropic devient plus sûr

Anthropic a lancé un nouveau mode appelé « auto mode » pour Claude Code, son outil de codage assisté par IA. Cette fonctionnalité permet à l'agent de prendre des décisions autonomes concernant les permissions, sans nécessiter une validation manuelle constante de l'utilisateur. Elle s'adresse particulièrement aux développeurs qui souhaitent déléguer davantage de tâches à l'IA tout en conservant un filet de sécurité. L'enjeu est de taille : Claude Code peut agir de manière indépendante, ce qui présente des risques réels comme la suppression de fichiers, la fuite de données sensibles ou l'exécution d'instructions malveillantes. L'auto mode vise à combler le fossé entre une supervision permanente — jugée contraignante — et une autonomie totale jugée dangereuse. Concrètement, le système détecte et bloque les actions potentiellement risquées avant leur exécution, tout en proposant à l'agent une alternative plus sûre. Anthropic positionne ainsi Claude Code dans un segment en pleine expansion : les outils d'IA « agentiques » capables d'agir seuls sur un poste de travail, un marché où la gestion des risques devient un argument commercial différenciant.

OutilsOutil
1 source
2Blog du Modérateur1h

ChatGPT enrichit son expérience shopping et abandonne Instant Checkout

OpenAI a mis à jour l'interface shopping de ChatGPT, la rendant plus visuelle et intuitive. La nouvelle version permet de comparer les produits plus facilement et introduit une recherche par image. En parallèle, la fonctionnalité Instant Checkout, qui permettait d'acheter directement depuis le chatbot, a été abandonnée. Ce repositionnement transforme ChatGPT en outil de découverte et de comparaison plutôt qu'en canal de vente directe. Cela redirige les utilisateurs vers les marchands pour finaliser leurs achats, ce qui soulage les tensions avec les retailers tout en conservant ChatGPT comme point d'entrée dans le parcours d'achat. Cette évolution s'inscrit dans la montée en puissance des assistants IA comme moteurs de recherche commerciale, en concurrence directe avec Google Shopping et Amazon.

OutilsOutil
1 source
3NVIDIA AI Blog1h

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Lors du match de l'Euro 2020 entre l'Angleterre et l'Allemagne, des millions de téléspectateurs britanniques ont allumé leur bouilloire à la mi-temps simultanément, provoquant un pic de demande d'environ 1 gigawatt sur le réseau électrique national — l'équivalent d'un réacteur nucléaire standard. C'est ce phénomène, surnommé le "TV pickup", qui a inspiré une démonstration inédite menée en décembre 2025 à Londres par Emerald AI, en collaboration avec NVIDIA, EPRI, National Grid et Nebius. L'expérience s'est déroulée dans une "usine IA" construite sur l'infrastructure NVIDIA de Nebius, équipée de 96 GPU NVIDIA Blackwell Ultra connectés via la plateforme InfiniBand NVIDIA Quantum-X800. En simulant ce même pic d'énergie lié au match de football, le cluster IA a automatiquement réduit sa consommation pour absorber le choc — sans interrompre les charges de travail prioritaires. Cette technologie, baptisée Emerald AI Conductor Platform, ouvre une perspective concrète pour la gestion des réseaux électriques sous tension. Les usines IA, habituellement perçues comme de nouveaux fardeau énergétiques, deviennent ici des actifs flexibles capables d'ajuster leur consommation en quelques secondes selon des signaux envoyés par les gestionnaires de réseau. Lors des tests, le système a respecté 100 % des plus de 200 cibles de puissance définies par EPRI et National Grid, couvrant non seulement les GPU mais aussi les CPU et l'ensemble des équipements informatiques. En pratique, cela signifie que le réseau peut gérer les pics de demande avec les capacités existantes, sans avoir à construire d'infrastructures permanentes surdimensionnées pour les scénarios les plus extrêmes — ce qui contribue directement à limiter la hausse des tarifs pour les consommateurs. Pour les opérateurs de centres de données, l'avantage est également majeur : cette flexibilité leur permet d'obtenir des raccordements au réseau bien plus rapidement, sans attendre des années de travaux d'infrastructure. Après des essais probants dans trois États américains — Arizona, Virginie et Illinois —, Emerald AI a transposé son approche au Royaume-Uni, dans un contexte où la croissance explosive des besoins énergétiques liés à l'IA met sous pression les gestionnaires de réseaux du monde entier.

UELes gestionnaires de réseaux européens confrontés à la même explosion des besoins énergétiques liés à l'IA pourraient adopter cette approche pour stabiliser leur réseau sans surinvestissement en infrastructures permanentes.

OutilsActu
1 source
4InfoQ AI1h

Podcast : [Vidéo] Systèmes agentiques sans chaos : premiers modèles opérationnels pour agents autonomes

Shweta Vohra et Joseph Stein consacrent un épisode de podcast à la question des systèmes agentiques — ces logiciels capables de planifier, d'agir et de prendre des décisions de manière autonome. Les deux experts y examinent ce qui distingue véritablement un agent IA d'une simple automatisation traditionnelle, et comment concevoir ces systèmes sans perdre le contrôle. La discussion porte sur les défis concrets pour les architectes et ingénieurs : comment définir les limites d'action d'un agent, comment orchestrer plusieurs agents entre eux, et quels modèles organisationnels adopter dès les premières phases de déploiement. L'enjeu est de tirer parti de l'autonomie de ces systèmes tout en évitant le chaos opérationnel. Le sujet s'inscrit dans une réflexion plus large sur la maturité croissante des agents IA, qui passent progressivement du statut d'assistants réactifs à celui d'acteurs autonomes dans les infrastructures logicielles.

OutilsOpinion
1 source