Aller au contenu principal
ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)
RechercheLatent Space2h

ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)

Résumé IASource uniqueImpact UE
Source originale ↗·
ESMFold2 : la lecon amere s'applique aussi aux proteines, par Alex Rives (BioHub)
▶ Voir sur YouTube

Alex Rives, responsable scientifique du Chan Zuckerberg BioHub, a publié ESMFold2 accompagné d'un preprint et d'un modèle en accès libre. Ce nouveau système de prédiction de structures protéiques atteint des performances de pointe sur les interactions entre protéines, en particulier pour les anticorps, une modalité centrale dans le développement de médicaments. BioHub publie également un atlas de 6,8 milliards de protéines et 1,1 milliard de structures prédites, consultable en ligne. L'équipe démontre en outre que le scaling à l'inférence fonctionne sur cinq cibles en oncologie et immunologie. Techniquement, ESMFold2 repose sur un transformeur de type BERT entraîné sur des données Cryo-EM et des séquences protéiques massives, sans recourir aux alignements multi-séquences (MSA) qui constituent l'épine dorsale d'AlphaFold.

Ce résultat est significatif parce qu'il reproduit dans la biologie structurale le même schéma déjà observé en traitement du langage : des modèles généralistes entraînés sur suffisamment de données diverse battent des architectures hautement spécialisées. AlphaFold3, malgré son raffinement, repose sur les MSA, ce qui le rend peu performant sur les anticorps, précisément parce que ces derniers disposent de peu de données MSA disponibles à l'entraînement. ESMFold2 contourne ce problème en apprenant les relations entre protéines par apprentissage non supervisé à grande échelle, puis en corrélant ces représentations aux structures connues de la Protein Data Bank. Pour les laboratoires pharmaceutiques, cela signifie un outil potentiellement plus polyvalent et plus accessible pour la conception de thérapeutiques basées sur les anticorps.

L'histoire de l'équipe ESM illustre une conviction précoce dans les lois de scaling. Dès ESM-1, Alex Rives et ses collègues avaient entraîné des modèles de langage sur des millions de séquences protéiques avec un simple objectif de masquage de tokens, et avaient découvert que ces modèles apprenaient spontanément des propriétés biologiques jamais montrées explicitement. ESM2, puis ESM3, avaient confirmé que cette capacité progressait de façon prévisible avec la puissance de calcul. Quand AlphaFold2 avait été présenté en 2020, valant à John Jumper et Demis Hassabis le prix Nobel de chimie 2024, l'équipe avait maintenu son pari sur l'échelle plutôt que sur les biais inductifs. ESMFold2 est aujourd'hui présenté comme un « modèle du monde » pour les protéines : une représentation abstraite, sémantique et compositionnelle du vivant, capable de généraliser bien au-delà de ses données d'entraînement. Le BioHub, issu de l'acquisition d'EvoScale par la fondation Chan Zuckerberg, s'impose ainsi comme un acteur de premier plan dans la course à l'IA pour la biologie.

Impact France/UE

Les laboratoires pharmaceutiques et instituts de recherche européens, notamment en oncologie et immunologie, pourraient exploiter ESMFold2 en accès libre pour accélérer la conception de thérapeutiques basées sur les anticorps.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients
1AWS ML Blog 

Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients

Amazon Web Services présente un environnement unifié pour les modèles de fondation biologiques multimodaux (BioFMs), une nouvelle catégorie d'intelligences artificielles entraînées sur des données hétérogènes issues du vivant. Selon une analyse de Delile et al. publiée en 2025, les BioFMs actuellement déployés se répartissent entre la documentation clinique (35 %), l'analyse de données omiques incluant ADN, épigénétique et ARN (30 %), la conception de protéines et de molécules (20 %), et l'imagerie médicale (15 %). Parmi les modèles multimodaux les plus avancés figurent Latent-X1 et Latent-X2 de Latent Labs, capables de prédire des structures protéiques en 3D et de générer des molécules liant les cibles thérapeutiques comme des anticorps ou des miniprotéines. Arc Institute a développé Evo 2, qui modélise l'intégralité du dogme central de la biologie pour interpréter et prédire la structure et la fonction de l'ADN, de l'ARN et des protéines. Harvard et AstraZeneca ont co-développé MADRIGAL, qui prédit les résultats cliniques de combinaisons médicamenteuses en intégrant des données structurelles, transcriptomiques et de viabilité cellulaire. John Snow Labs propose Medical VLM-24B, un modèle à 24 milliards de paramètres qui traite simultanément des notes cliniques, des résultats biologiques et des images radiologiques (radiographie, IRM, scanner). L'enjeu de ces modèles multimodaux est de combler une lacune critique dans la prise de décision médicale et pharmaceutique : aujourd'hui, les données biologiques restent fragmentées entre silos. Un chercheur en oncologie analyse séparément les données génomiques, les images histologiques et les dossiers patients, alors que les insights décisifs se cachent précisément dans les corrélations entre ces flux. En fusionnant ces modalités dans un seul modèle, les BioFMs permettent une médecine personnalisée plus précise, accélèrent la découverte de médicaments et réduisent les effets indésirables liés aux polythérapies. Bioptimus avec M-Optimus décode ainsi conjointement histologie et données cliniques pour soutenir la recherche jusqu'au suivi patient, tandis que le modèle IRM 3D de GE Healthcare ouvre la voie à des applications de segmentation et de génération de comptes rendus radiologiques automatisés. Le tournant décisif pour les modèles unimodaux a été la prédiction de la structure des protéines par AlphaFold, récompensée par le prix Nobel de chimie 2024. Ce succès a légitimé les BioFMs comme infrastructure sérieuse et attiré des investissements massifs d'acteurs académiques et industriels. La convergence vers le multimodal suit la même trajectoire que les modèles généralistes comme Amazon Nova 2 Omni, capable de traiter texte, images, vidéo et voix au sein d'un seul système. AWS se positionne comme infrastructure centrale de ce marché en offrant compute scalable, outils de développement et intégrations partenaires. L'intégration de Nach01 d'Insilico Medicine, qui combine langage naturel, chimie computationnelle et structure moléculaire 3D, illustre comment le multimodal devient le nouveau standard pour l'ensemble du cycle de développement du médicament.

UELa startup française Bioptimus, avec son modèle M-Optimus combinant histologie et données cliniques, est directement impliquée dans cette dynamique des modèles biologiques multimodaux qui redessine la recherche médicale et pharmaceutique en Europe.

RecherchePaper
1 source
Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire
2MarkTechPost 

Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire

Des chercheurs et développeurs en bioinformatique disposent désormais d'un tutoriel détaillé pour construire un pipeline multi-agents capable de modéliser des systèmes biologiques complexes en un seul environnement de calcul unifié. Publié sous forme de notebook Google Colab, ce guide propose d'assembler plusieurs agents spécialisés autour de quatre domaines distincts : l'analyse des réseaux de régulation génique, la prédiction des interactions protéine-protéine, l'optimisation des voies métaboliques et la simulation des cascades de signalisation cellulaire. Chaque agent traite des données synthétiques générées en amont, avec des paramètres contrôlés (14 gènes, 40 protéines, 70 pas de simulation), et un modèle OpenAI GPT-4o-mini joue le rôle d'investigateur principal, synthétisant l'ensemble des résultats en une interprétation biologique cohérente qui relie régulation, métabolisme et signalisation. L'intérêt de cette approche dépasse la simple démonstration technique. En centralisant dans un seul workflow des analyses qui nécessitent habituellement des outils et des équipes séparées, le pipeline réduit la friction entre disciplines et rend la biologie computationnelle reproductible à coût quasi nul. Les chercheurs en génomique, pharmacologie ou biologie synthétique peuvent ainsi prototyper des hypothèses sur des interactions moléculaires sans avoir accès à des données expérimentales réelles, ce qui accélère la phase exploratoire avant les expériences en laboratoire. Le recours à un LLM comme chef d'orchestre final est particulièrement notable : il ne remplace pas l'expertise humaine, mais il agrège des sorties hétérogènes en une narration scientifique structurée, comblant le fossé entre calcul brut et interprétation biologique. Ce type d'infrastructure reflète une tendance de fond dans la bioinformatique computationnelle : l'émergence de systèmes multi-agents où des modules IA spécialisés collaborent plutôt que de concentrer toute la logique dans un seul modèle monolithique. Des entreprises comme Recursion Pharmaceuticals ou Insilico Medicine ont déjà industrialisé des pipelines similaires pour la découverte de médicaments, mais l'accès à ces outils reste souvent réservé à des équipes bien dotées. La mise à disposition d'un tel tutoriel open-source, fondé sur des bibliothèques standard comme NumPy, NetworkX et scikit-learn, démocratise une approche jusque-là réservée aux grands laboratoires. La prochaine étape logique serait d'y intégrer de vraies données omiques, comme des profils d'expression ARN issus de bases publiques telles que GEO ou TCGA, pour transformer ce prototype pédagogique en outil de recherche opérationnel.

RechercheTuto
1 source
Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas
3VentureBeat AI 

Meta développe une technique de prompting structuré qui améliore nettement la revue de code par les LLMs, atteignant 93 % de précision dans certains cas

Des chercheurs de Meta ont publié une technique de prompting structuré baptisée « raisonnement semi-formel », conçue pour améliorer significativement la capacité des grands modèles de langage à analyser du code sans l'exécuter. Dans leurs expériences, cette approche a permis d'atteindre jusqu'à 93 % de précision sur certaines tâches d'analyse de code, contre des performances bien inférieures avec les méthodes classiques. Concrètement, la technique oblige l'agent IA à remplir un « certificat logique » structuré : avant de répondre, il doit énoncer explicitement ses prémisses, tracer des chemins d'exécution concrets fonction par fonction, et formuler une conclusion basée uniquement sur des preuves vérifiables tirées du code source. L'agent ne peut plus se contenter de deviner le comportement d'une fonction à partir de son nom — il doit réellement suivre les appels et les flux de données. Pour l'industrie du développement logiciel, l'enjeu est considérable. Déployer des agents IA à l'échelle d'un dépôt entier — pour détecter des bugs, vérifier des patches ou conduire des revues de code — exige aujourd'hui de créer des environnements d'exécution isolés pour chaque projet, une infrastructure coûteuse et lourde à maintenir. Le raisonnement semi-formel contourne ce problème en permettant une analyse sémantique fiable sans jamais exécuter le code. Pour les équipes d'ingénierie qui utilisent l'IA dans leurs workflows CI/CD ou leurs processus de revue, cela représente une réduction drastique des coûts d'infrastructure tout en maintenant — voire en améliorant — la fiabilité des résultats. La technique réduit également les hallucinations, un problème chronique des LLM confrontés à du code complexe multi-fichiers. Le problème que Meta cherche à résoudre n'est pas nouveau. Deux approches dominent actuellement le domaine : les évaluateurs LLM non structurés, rapides mais sujets aux affirmations non fondées, et la vérification formelle mathématique (via des langages comme Lean ou Coq), rigoureuse mais totalement impraticable sur des bases de code d'entreprise mêlant dizaines de frameworks et de langages. Le raisonnement semi-formel se positionne délibérément entre ces deux extrêmes — plus rigoureux que le prompting libre, mais sans exiger la traduction du code en logique mathématique. Meta a évalué la technique sur trois catégories de tâches : vérification d'équivalence de patches, localisation de fautes, et questions-réponses sur des bases de code. Les résultats suggèrent une approche potentiellement généralisable à de nombreux domaines de l'ingénierie logicielle automatisée, à condition que les modèles soient suffisamment capables pour respecter les contraintes des templates structurés.

RecherchePaper
1 source
4Latent Space 

Entraîner des Transformers pour résoudre le taux d'échec de 95 % des essais cliniques contre le cancer : Ron Alfa et Daniel Bear, Noetik

La startup Noetik, cofondée par Ron Alfa et Daniel Bear, vient de signer un accord de 50 millions de dollars avec le géant pharmaceutique GSK pour sa technologie d'intelligence artificielle appliquée à l'oncologie. Au cœur de cet accord se trouve TARIO-2, un transformer autorégressif entraîné sur l'un des plus grands ensembles de données de transcriptomique spatiale tumorale au monde. Ce modèle est capable de prédire une carte génomique d'environ 19 000 gènes à partir d'une simple biopsie H&E colorée, l'examen histologique standard que reçoit déjà chaque patient atteint de cancer. L'accord avec GSK comprend également un contrat de licence à long terme aux termes non divulgués, ce qui représente un engagement envers la plateforme logicielle de Noetik plutôt que vers un médicament spécifique, un modèle rare dans le secteur biotech. Le problème que Noetik tente de résoudre est brutal : 95 % des traitements contre le cancer échouent lors des essais cliniques, engloutissant entre 20 et 30 milliards de dollars par an en dépenses mondiales de recherche. L'hypothèse centrale de Ron Alfa est que beaucoup de ces traitements fonctionnent réellement, mais qu'ils sont testés sur les mauvais patients. Le cancer n'est pas une seule maladie mais potentiellement des milliers de pathologies distinctes, chacune avec sa propre biologie tumorale. Si l'on pouvait identifier avec précision quels patients portent quelles tumeurs et lesquelles répondront à quels traitements, les taux de succès pourraient augmenter radicalement, avec des thérapies qui existent déjà, comme les inhibiteurs de points de contrôle immunitaires Keytruda et Opdivo, les thérapies CAR-T ou les conjugués anticorps-médicament comme le Trastuzumab. La transcriptomique spatiale complète est la méthode la plus précise pour lire une tumeur, mais elle est quasiment inexistante en soins standards : TARIO-2 permet désormais d'en simuler les résultats à partir d'examens déjà réalisés. Noetik a passé près de deux ans à constituer une base de données massive, acquérant des milliers de tumeurs humaines réelles avec des ensembles de données multimodaux. Cette approche tranche avec la majorité des initiatives IA en biotechnologie, qui se concentrent sur la découverte de nouvelles molécules et finissent généralement par transformer les éditeurs d'outils en laboratoires pharmaceutiques. L'accord GSK, lui, est un contrat de licence logicielle pur, signalant un changement de posture de la part des grands groupes pharma, de plus en plus prêts à payer pour des plateformes d'analyse plutôt que pour des candidats médicaments. Dans un contexte où des acteurs comme Boltz ou Isomorphic Labs gagnent également en visibilité, l'appétit de l'industrie pour les outils IA en développement thérapeutique semble enfin atteindre un point de bascule.

UELe groupe pharmaceutique britannique GSK, acteur majeur en Europe, adopte une plateforme IA pour affiner la sélection des patients en oncologie, ce qui pourrait accélérer et améliorer les essais cliniques menés sur le continent.

💬 95 % d'échec en essais cliniques, pas parce que les traitements sont nuls, mais parce qu'on les teste sur les mauvais patients, c'est le genre de problème qu'on sait depuis longtemps et qu'on fait semblant de ne pas voir. Ce qui m'intéresse chez Noetik, c'est que le deal avec GSK est un contrat de licence logicielle, pas un rachat de molécule : les pharmas commencent vraiment à payer pour des outils d'analyse, c'est un vrai signal. Reste à voir si ça tient à l'échelle des essais multi-sites, mais sur le papier, c'est l'une des applications IA en bio les plus solides que j'ai vues depuis un moment.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour