MaxToki : l'IA qui prédit comment vos cellules vieillissent et comment l'éviter
Une équipe internationale de chercheurs, impliquant notamment les Instituts Gladstone (maladies cardiovasculaires, neurologiques, sciences des données) et l'Université de Californie San Francisco, a développé MaxToki, un modèle d'intelligence artificielle capable de prédire l'évolution dans le temps de l'état génétique des cellules humaines. Contrairement aux modèles existants qui analysent les cellules comme des instantanés figés, MaxToki intègre une dimension temporelle, essentielle pour comprendre comment les cellules vieillissent. Le modèle repose sur une architecture de type transformer décodeur -- la même famille que les grands modèles de langage -- et a été entraîné sur des données de séquençage d'ARN unicellulaire. Il existe en deux versions : 217 millions et 1 milliard de paramètres. Son entraînement s'est déroulé en deux étapes, la première s'appuyant sur Genecorpus-175M, un corpus d'environ 175 millions de transcriptomes unicellulaires issus de 10 795 jeux de données publics, générant quelque 290 milliards de tokens. Une particularité technique clé est l'encodage par rang : plutôt que d'injecter des comptages bruts d'expression génique, chaque cellule est représentée par une liste de gènes classés selon leur expression relative, ce qui rend le modèle plus robuste face aux biais techniques des données biologiques.
MaxToki ouvre des perspectives concrètes dans l'étude du vieillissement cellulaire et des maladies qui en découlent -- insuffisance cardiaque, maladie d'Alzheimer, fibrose pulmonaire -- des pathologies qui se développent sur des décennies à travers des changements progressifs dans les réseaux de gènes. Pouvoir modéliser ces trajectoires, et non plus seulement l'état instantané d'une cellule, représente un saut qualitatif pour la recherche biomédicale. La capacité à prédire "où va" une cellule pourrait accélérer l'identification de cibles thérapeutiques et la mise au point d'interventions capables de ralentir ou d'inverser ces processus dégénératifs, avant même l'apparition de symptômes cliniques.
Le projet s'inscrit dans une vague plus large de fondation models appliqués à la biologie, une discipline où des acteurs comme NVIDIA (partenaire de ce projet), Google avec son modèle Evo, et plusieurs startups de biotech cherchent à reproduire le succès des LLMs dans le domaine du vivant. La plupart des modèles existants peinent à capturer la dynamique temporelle des systèmes biologiques, limitant leur utilité pour les maladies chroniques. MaxToki répond à ce manque en étendant notamment sa fenêtre de contexte de 4 096 à 16 384 tokens via la technique RoPE scaling, et en excluant délibérément les cellules cancéreuses et lignées immortalisées de l'entraînement pour ne pas biaiser l'apprentissage des dynamiques normales. Des institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) et japonaises (Université de Kyoto, Centre iPS) contribuent également, signe que la course aux modèles fondationnels en biologie est désormais pleinement internationale.
Des institutions allemandes (Goethe University Frankfurt, Centre allemand de recherche cardiovasculaire) participent au projet, positionnant l'Europe comme contributeur dans la course aux modèles fondationnels biologiques.



