Le titre traduit : « BoltzGen accélère la conception de protéines sur Amazon SageMaker AI »
Amazon vient de déployer BoltzGen sur Amazon SageMaker AI, une solution qui automatise la gestion de l'infrastructure GPU nécessaire à la conception de protéines. BoltzGen est un modèle génératif basé sur la diffusion, capable de concevoir des protéines et des peptides se liant à des cibles biomoléculaires précises. Une campagne de conception typique enchaîne plusieurs étapes gourmandes en calcul GPU : génération du squelette protéique, repliement inverse, validation structurelle et classement des candidats. Sur une instance à 4 GPU (ml.g5.12xlarge), une campagne de 1 000 échantillons demande environ 375 heures de calcul, selon les données de référence du dépôt du projet. SageMaker AI prend en charge l'ensemble du cycle de vie de ces calculs : il provisionne les instances GPU, exécute BoltzGen dans un conteneur, écrit les résultats sur Amazon S3, puis libère les ressources une fois le traitement terminé. La facturation se fait à la seconde, sans coût lié à des GPU inactifs : une session de conception de deux heures sur ml.g4dn.xlarge revient à environ 1,50 dollar au tarif à la demande.
Cette automatisation change concrètement la donne pour les laboratoires de recherche académique, les start-up en biotechnologie, les équipes de R&D pharmaceutique et les programmes éducatifs qui travaillent sur la conception de protéines de liaison, l'ingénierie de protéines thérapeutiques ou l'architecture protéique de novo. Jusqu'ici, ces équipes devaient elles-mêmes construire des environnements CUDA, gérer le cycle de vie des instances GPU, bâtir des pipelines de données entre chaque étape et gérer les pannes lors de traitements longs. En déchargeant ces tâches d'infrastructure, SageMaker AI permet aux chercheurs de se concentrer sur l'itération des designs plutôt que sur l'exploitation technique. Le système offre aussi un mécanisme de mise en cache au niveau de chaque étape, avec une expiration de sept jours sur Amazon S3 : lorsqu'un chercheur ajuste ses paramètres de filtrage, l'étape de génération de designs, qui représente environ 90 % du coût de calcul total, n'a pas besoin d'être relancée.
Le déploiement propose deux modes d'exécution adaptés à différentes phases de recherche, de la validation rapide sur quelques candidats jusqu'au traitement par lots en production, avec la possibilité de paralléliser sur plusieurs GPU au sein d'une même instance ou sur plusieurs instances. Le choix d'instances va des GPU T4 les moins coûteux (ml.g4dn) aux GPU NVIDIA L40S (ml.g6e), offrant une flexibilité de coût selon le débit recherché. Techniquement, BoltzGen combine un processus de diffusion pour générer les structures de squelette avec un modèle de repliement inverse baptisé BoltzIF, qui produit les séquences d'acides aminés, avant validation par les prédictions de structure de Boltz2. L'implémentation complète, avec scripts d'installation et guide de démarrage rapide, est disponible sur le dépôt GitHub Boltzgen on SageMaker.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




