
OpenAI propose un LLM spécialisé en biologie
OpenAI a annoncé jeudi le lancement de GPT-Rosalind, un grand modèle de langage conçu spécifiquement pour les workflows biologiques. Nommé en hommage à la scientifique Rosalind Franklin, ce modèle a été entraîné sur 50 des flux de travail biologiques les plus courants, ainsi que sur les principales bases de données publiques d'informations biologiques. Yunyun Wang, responsable des produits Life Sciences chez OpenAI, a présenté le système lors d'un briefing presse, précisant qu'il est capable de suggérer des voies biologiques probables et de prioriser des cibles médicamenteuses potentielles. Le modèle peut également relier génotype et phénotype via des mécanismes de régulation connus, et inférer des propriétés structurelles ou fonctionnelles de protéines.
Cette approche tranche avec celle adoptée par la plupart des grands acteurs technologiques, qui ont jusqu'ici privilégié des modèles scientifiques généralistes couvrant plusieurs disciplines. GPT-Rosalind s'attaque à deux obstacles concrets que rencontrent les chercheurs en biologie aujourd'hui : la masse colossale de données accumulées depuis des décennies de séquençage génomique et de biochimie des protéines, et la fragmentation extrême du domaine en sous-disciplines aux jargons et techniques propres. Un généticien travaillant sur un gène actif dans les cellules cérébrales, par exemple, peut se retrouver submergé par la littérature neurobiologique sans y avoir de formation spécifique. Un outil capable de naviguer entre ces silos représente un gain de temps et de pertinence considérable pour la recherche académique et pharmaceutique.
La biologie computationnelle est depuis plusieurs années un terrain de compétition intense entre laboratoires de recherche et entreprises technologiques. Google DeepMind a marqué un tournant majeur avec AlphaFold, dont les prédictions de structures protéiques ont révolutionné le domaine. OpenAI positionne GPT-Rosalind non pas comme un outil de prédiction structurelle, mais comme un assistant de raisonnement biologique à large spectre, capable d'intégrer des connaissances transversales. L'annonce intervient dans un contexte où les grandes entreprises d'IA cherchent à démontrer une valeur concrète dans les sciences de la vie, un secteur où les enjeux en matière de découverte de médicaments et de médecine personnalisée sont considérables.
Les laboratoires académiques et entreprises pharmaceutiques européennes pourraient exploiter GPT-Rosalind pour accélérer leurs recherches en génomique et découverte de médicaments, domaines où l'Europe investit massivement.



