
ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)

Alex Rives, responsable scientifique du Chan Zuckerberg BioHub, a publié ESMFold2 accompagné d'un preprint et d'un modèle en accès libre. Ce nouveau système de prédiction de structures protéiques atteint des performances de pointe sur les interactions entre protéines, en particulier pour les anticorps, une modalité centrale dans le développement de médicaments. BioHub publie également un atlas de 6,8 milliards de protéines et 1,1 milliard de structures prédites, consultable en ligne. L'équipe démontre en outre que le scaling à l'inférence fonctionne sur cinq cibles en oncologie et immunologie. Techniquement, ESMFold2 repose sur un transformeur de type BERT entraîné sur des données Cryo-EM et des séquences protéiques massives, sans recourir aux alignements multi-séquences (MSA) qui constituent l'épine dorsale d'AlphaFold.
Ce résultat est significatif parce qu'il reproduit dans la biologie structurale le même schéma déjà observé en traitement du langage : des modèles généralistes entraînés sur suffisamment de données diverse battent des architectures hautement spécialisées. AlphaFold3, malgré son raffinement, repose sur les MSA, ce qui le rend peu performant sur les anticorps, précisément parce que ces derniers disposent de peu de données MSA disponibles à l'entraînement. ESMFold2 contourne ce problème en apprenant les relations entre protéines par apprentissage non supervisé à grande échelle, puis en corrélant ces représentations aux structures connues de la Protein Data Bank. Pour les laboratoires pharmaceutiques, cela signifie un outil potentiellement plus polyvalent et plus accessible pour la conception de thérapeutiques basées sur les anticorps.
L'histoire de l'équipe ESM illustre une conviction précoce dans les lois de scaling. Dès ESM-1, Alex Rives et ses collègues avaient entraîné des modèles de langage sur des millions de séquences protéiques avec un simple objectif de masquage de tokens, et avaient découvert que ces modèles apprenaient spontanément des propriétés biologiques jamais montrées explicitement. ESM2, puis ESM3, avaient confirmé que cette capacité progressait de façon prévisible avec la puissance de calcul. Quand AlphaFold2 avait été présenté en 2020, valant à John Jumper et Demis Hassabis le prix Nobel de chimie 2024, l'équipe avait maintenu son pari sur l'échelle plutôt que sur les biais inductifs. ESMFold2 est aujourd'hui présenté comme un « modèle du monde » pour les protéines : une représentation abstraite, sémantique et compositionnelle du vivant, capable de généraliser bien au-delà de ses données d'entraînement. Le BioHub, issu de l'acquisition d'EvoScale par la fondation Chan Zuckerberg, s'impose ainsi comme un acteur de premier plan dans la course à l'IA pour la biologie.
Les laboratoires pharmaceutiques et instituts de recherche européens, notamment en oncologie et immunologie, pourraient exploiter ESMFold2 en accès libre pour accélérer la conception de thérapeutiques basées sur les anticorps.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



