
AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA
Amazon Web Services (AWS) et l'université Johns Hopkins ont annoncé le lancement de l'Antibody Developability Benchmark, une base de données publique destinée à accélérer la conception d'anticorps thérapeutiques par intelligence artificielle. Ce jeu de données est 20 fois plus diversifié que les benchmarks existants dans la littérature scientifique, couvrant 50 anticorps de référence, plusieurs formats structuraux, cibles et profils biophysiques. Le projet est né d'une collaboration entre l'équipe Amazon Bio Discovery d'AWS et le Gray Lab du département de génie chimique et biomoléculaire de Johns Hopkins, dirigé par le professeur Jeffrey Gray, créateur original de RosettaDock, un outil de référence pour la prédiction de structures de complexes protéiques.
Ce benchmark comble un manque critique qui freinait depuis des années le développement d'outils d'IA fiables pour la découverte de médicaments. Les modèles de langage protéique (pLM) et les architectures de deep learning structurel promettent de prédire la "développabilité" des anticorps, c'est-à-dire leur capacité à être fabriqués, stabilisés et administrés sans danger comme médicament. Or, comme l'a souligné Jeffrey Gray, les benchmarks internes de son laboratoire montraient que les modèles actuels échouaient encore à prédire des propriétés critiques comme la solubilité ou la spécificité. Sans données publiques suffisamment larges, diversifiées et collectées dans des conditions standardisées, il était impossible d'évaluer rigoureusement ces outils, ni de les améliorer de manière fiable. La nouvelle base de données répond directement à cette contrainte en fournissant des mesures biophysiques et biochimiques à grande échelle pour un espace de séquences représentatif du travail réel d'ingénierie des anticorps.
Depuis 1986, date à laquelle la FDA américaine a approuvé son premier anticorps thérapeutique, les progrès ont été réels mais les délais et coûts de développement restent prohibitifs. Les pandémies récentes ont mis en lumière l'urgence de disposer d'outils capables d'identifier et d'optimiser rapidement ces molécules. Les modèles de fondation biologiques (BioFM) représentent une voie prometteuse, mais leur crédibilité repose sur leur capacité à être évalués contre des données expérimentales solides. Les datasets publics existants souffraient d'un biais structurel majeur : ils se concentraient sur un seul format d'anticorps, une seule cible, ou ne contenaient que des molécules naturelles ou cliniquement avancées, peu représentatives des défis réels de conception. En rendant publique cette base de données hétérogène et à grande échelle, AWS et Johns Hopkins espèrent catalyser une nouvelle génération d'outils in silico capables de raccourcir significativement les timelines de découverte, avec des implications directes pour la réponse aux crises sanitaires futures.
Les laboratoires pharmaceutiques et équipes de recherche européens pourront exploiter ce benchmark public pour évaluer et améliorer leurs propres modèles d'IA appliqués à la conception d'anticorps thérapeutiques.



