Aller au contenu principal
RechercheLatent Space6sem

Entraîner des Transformers pour résoudre le taux d'échec de 95 % des essais cliniques contre le cancer : Ron Alfa et Daniel Bear, Noetik

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·
Entraîner des Transformers pour résoudre le taux d'échec de 95 % des essais cliniques contre le cancer : Ron Alfa et Daniel Bear, Noetik
▶ Voir sur YouTube

La startup Noetik, cofondée par Ron Alfa et Daniel Bear, vient de signer un accord de 50 millions de dollars avec le géant pharmaceutique GSK pour sa technologie d'intelligence artificielle appliquée à l'oncologie. Au cœur de cet accord se trouve TARIO-2, un transformer autorégressif entraîné sur l'un des plus grands ensembles de données de transcriptomique spatiale tumorale au monde. Ce modèle est capable de prédire une carte génomique d'environ 19 000 gènes à partir d'une simple biopsie H&E colorée, l'examen histologique standard que reçoit déjà chaque patient atteint de cancer. L'accord avec GSK comprend également un contrat de licence à long terme aux termes non divulgués, ce qui représente un engagement envers la plateforme logicielle de Noetik plutôt que vers un médicament spécifique, un modèle rare dans le secteur biotech.

Le problème que Noetik tente de résoudre est brutal : 95 % des traitements contre le cancer échouent lors des essais cliniques, engloutissant entre 20 et 30 milliards de dollars par an en dépenses mondiales de recherche. L'hypothèse centrale de Ron Alfa est que beaucoup de ces traitements fonctionnent réellement, mais qu'ils sont testés sur les mauvais patients. Le cancer n'est pas une seule maladie mais potentiellement des milliers de pathologies distinctes, chacune avec sa propre biologie tumorale. Si l'on pouvait identifier avec précision quels patients portent quelles tumeurs et lesquelles répondront à quels traitements, les taux de succès pourraient augmenter radicalement, avec des thérapies qui existent déjà, comme les inhibiteurs de points de contrôle immunitaires Keytruda et Opdivo, les thérapies CAR-T ou les conjugués anticorps-médicament comme le Trastuzumab. La transcriptomique spatiale complète est la méthode la plus précise pour lire une tumeur, mais elle est quasiment inexistante en soins standards : TARIO-2 permet désormais d'en simuler les résultats à partir d'examens déjà réalisés.

Noetik a passé près de deux ans à constituer une base de données massive, acquérant des milliers de tumeurs humaines réelles avec des ensembles de données multimodaux. Cette approche tranche avec la majorité des initiatives IA en biotechnologie, qui se concentrent sur la découverte de nouvelles molécules et finissent généralement par transformer les éditeurs d'outils en laboratoires pharmaceutiques. L'accord GSK, lui, est un contrat de licence logicielle pur, signalant un changement de posture de la part des grands groupes pharma, de plus en plus prêts à payer pour des plateformes d'analyse plutôt que pour des candidats médicaments. Dans un contexte où des acteurs comme Boltz ou Isomorphic Labs gagnent également en visibilité, l'appétit de l'industrie pour les outils IA en développement thérapeutique semble enfin atteindre un point de bascule.

Impact France/UE

Le groupe pharmaceutique britannique GSK, acteur majeur en Europe, adopte une plateforme IA pour affiner la sélection des patients en oncologie, ce qui pourrait accélérer et améliorer les essais cliniques menés sur le continent.

💬 Le point de vue du dev

95 % d'échec en essais cliniques, pas parce que les traitements sont nuls, mais parce qu'on les teste sur les mauvais patients, c'est le genre de problème qu'on sait depuis longtemps et qu'on fait semblant de ne pas voir. Ce qui m'intéresse chez Noetik, c'est que le deal avec GSK est un contrat de licence logicielle, pas un rachat de molécule : les pharmas commencent vraiment à payer pour des outils d'analyse, c'est un vrai signal. Reste à voir si ça tient à l'échelle des essais multi-sites, mais sur le papier, c'est l'une des applications IA en bio les plus solides que j'ai vues depuis un moment.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet
1MarkTechPost 

États quantiques neuronaux à base de transformeurs pour systèmes de spins frustrés avec NetKet

Des chercheurs en physique computationnelle explorent une approche inédite pour simuler les systèmes quantiques frustrés : l'utilisation d'architectures Transformer, les mêmes qui propulsent les grands modèles de langage, comme ansatz variationnel pour représenter des fonctions d'onde quantiques. Concrètement, l'implémentation s'appuie sur NetKet et JAX pour résoudre la chaîne de spins de Heisenberg J1-J2, un système dit "frustré" où les interactions magnétiques concurrentes entre premiers voisins (J1) et seconds voisins (J2) génèrent des corrélations quantiques extraordinairement complexes. Le modèle Transformer utilisé comporte 6 couches d'attention, 4 têtes d'attention et une dimension cachée de 96, entraîné par Monte Carlo variationnel (VMC) avec reconfiguration stochastique, un analogue du gradient naturel adapté à l'optimisation de fonctions d'onde. L'enjeu est fondamental pour la physique de la matière condensée. Les méthodes classiques d'exacte diagonalisation atteignent rapidement leurs limites face à la croissance exponentielle de l'espace de Hilbert : un système de N spins 1/2 requiert 2^N états de base. Les États Quantiques Neuronaux (NQS) introduits par cette approche permettent de représenter des fonctions d'onde hautement expressives en paramétrant leur amplitude complexe log-Ψ via un réseau de neurones, contournant cette explosion combinatoire. Les Transformers sont particulièrement adaptés : leur mécanisme d'attention globale capture naturellement les corrélations à longue portée entre spins, là où les réseaux convolutifs classiques peinent à dépasser quelques voisins. Les résultats sont benchmarkés contre la diagonalisation exacte de Lanczos, permettant de quantifier la précision de l'approximation variationnelle. Cette convergence entre apprentissage profond et physique quantique s'inscrit dans un mouvement plus large amorcé en 2017 avec les travaux pionniers de Carleo et Troyer, qui ont démontré pour la première fois qu'un réseau de neurones pouvait rivaliser avec les meilleures méthodes numériques en physique quantique. Depuis, les architectures se sont sophistiquées : réseaux récurrents, machines de Boltzmann restreintes, et désormais Transformers. L'écosystème logiciel autour de NetKet, développé principalement par des groupes européens, et de JAX/Flax de Google DeepMind, démocratise ces techniques auparavant réservées à quelques laboratoires spécialisés. Les perspectives sont considérables : simuler des matériaux quantiques réels comme les supraconducteurs à haute température ou les isolants topologiques, là où les méthodes traditionnelles restent bloquées par la "malédiction de la dimensionnalité".

UEL'écosystème NetKet, développé principalement par des groupes européens, renforce la compétitivité de la recherche quantique européenne dans la simulation de matériaux complexes comme les supraconducteurs à haute température.

RecherchePaper
1 source
Entraînement par anticipation latente pour les Transformers
2Apple Machine Learning 

Entraînement par anticipation latente pour les Transformers

Des chercheurs ont présenté une nouvelle méthode d'entraînement pour les modèles de langage appelée « Latent Lookahead Training », acceptée au workshop ICLR 2026 sur la réflexion latente et implicite. Cette approche s'attaque à une limitation fondamentale des modèles autorégressifs actuels : la prédiction token par token, qui oblige le modèle à se figer sur un choix à chaque étape sans pouvoir explorer plusieurs continuations possibles. De plus, le calcul est distribué de manière uniforme entre tous les tokens, même quand certains sont bien plus complexes que d'autres. Cette contrainte n'est pas anodine — elle bride directement la capacité des modèles à planifier ou à « réfléchir » avant de s'engager dans une direction. En permettant au modèle d'anticiper dans un espace latent avant de produire chaque token, le Latent Lookahead vise à allouer plus de calcul là où c'est nécessaire et à ouvrir la porte à une forme de délibération interne, sans passer par le Chain-of-Thought explicite. La recherche s'inscrit dans un mouvement plus large visant à dépasser les limites du raisonnement en chaîne visible, en explorant comment les modèles peuvent développer une forme de pensée implicite plus flexible et efficace.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
3MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source
Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale
4La Tribune 

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour