Aller au contenu principal
OutilsAWS ML Blog2h

Déployez des endpoints d'inférence SageMaker AI avec une capacité GPU définie via les plans d'entraînement

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Amazon SageMaker AI permet désormais d'utiliser les training plans — initialement conçus pour l'entraînement — pour réserver de la capacité GPU dédiée aux endpoints d'inférence. Cette fonctionnalité cible les équipes data science ayant besoin d'instances p-family (comme les `ml.p5.48xlarge`) de façon prévisible sur des périodes définies, par exemple pour évaluer plusieurs LLMs fine-tunés avant mise en production. Le workflow se déroule en quatre étapes : identifier les besoins en capacité, rechercher les offres disponibles, créer une réservation (qui génère un ARN), puis déployer l'endpoint en référençant cet ARN dans la configuration.

Impact France/UE

Les équipes data science européennes utilisant AWS SageMaker peuvent désormais réserver des capacités GPU dédiées pour leurs endpoints d'inférence, réduisant les incertitudes de disponibilité sur les instances p-family.

Articles similaires

1Ars Technica AI59min

Un développeur Mozilla présente cq, un « Stack Overflow pour agents »

Peter Wilson, développeur chez Mozilla, a annoncé cq, un projet qu'il décrit comme un "Stack Overflow pour agents IA". L'outil vise à résoudre deux problèmes majeurs : les agents utilisent souvent des informations obsolètes (après leur date de coupure d'entraînement) et effectuent des appels API dépréciés, et des milliers d'agents résolvent indépendamment les mêmes problèmes en gaspillant tokens et énergie. Cq permettrait de partager les solutions entre agents, mais devra encore répondre aux enjeux de sécurité, d'empoisonnement des données et de fiabilité pour s'imposer.

OutilsOutil
1 source
2MarkTechPost1h

Une implémentation de code pour concevoir un moteur de compétences auto-évolutif avec OpenSpace : apprentissage de compétences, efficacité des tokens et intelligence collective

OpenSpace, un moteur de compétences auto-évolutif développé par HKUDS, permet aux agents IA d'apprendre et de réutiliser des compétences accumulées au fil des tâches, réduisant ainsi les coûts de traitement. Le système s'appuie sur trois modes d'évolution (FIX, DERIVED, CAPTURED) et une base de données SQLite pour stocker les compétences réutilisables. Sur le benchmark GDPVal (50 tâches professionnelles réelles), OpenSpace démontre une amélioration de 4,2x des performances et une réduction de 46 % des tokens consommés, avec une plateforme communautaire open-space.cloud permettant le partage de compétences entre agents.

OutilsPaper
1 source
3Ars Technica AI1h

OpenAI prévoit de fermer Sora seulement 15 mois après son lancement

OpenAI s'apprête à fermer Sora, son application de génération vidéo lancée fin 2024, seulement 15 mois après son lancement. L'annonce a été faite sur les réseaux sociaux, après une révélation du Wall Street Journal. La société a promis de partager prochainement les détails sur les délais et la préservation des contenus créés par les utilisateurs.

UELes utilisateurs européens de Sora devront exporter leurs contenus et migrer vers des outils alternatifs avant la fermeture du service.

OutilsActu
1 source