RechercheAmazon Science6sem

Modèles personnalisés d'Amazon Nova améliorent la prédiction des propriétés moléculaires dans la découverte de médicaments

Résumé IASource uniqueImpact UE Take éditorial

Les chercheurs de l'Amazon Generative AI Innovation Center et de l'organisation Artificial General Intelligence (AGI) ont collaboré avec Nimbus Therapeutics pour adapter les grands modèles linguistiques (LLMs) à la découverte de médicaments. Traditionnellement, les réseaux neuronaux graphiques (GNNs) sont employés dans le domaine de la prédiction des propriétés moléculaires pour la R&D pharmaceutique en raison de leur précision solide sur des tâches bien définies. Cependant, cette approche nécessite le développement et la maintenance coûteux de multiples GNNs spécialisés pour différentes propriétés moléculaires.

L'équipe a adopté une nouvelle stratégie qui combine l'exactitude des GNNs avec la généralisation et le raisonnement des LLMs grâce à la mise à finement supérieur (SFT) et au mise à finement par renforcement (RFT). En personnalisant un LLM de purpose général, ils ont obtenu des résultats comparables à ceux obtenus avec plusieurs GNNs, mais en beaucoup moins de temps et d'efforts. Les LLMs ainsi affinés simplifient considérablement le processus, permettant aux chimistes de soumettre une seule requête pour obtenir des prédictions sur toutes les propriétés moléculaires d'intérêt, plutôt que de gérer plusieurs modèles dissociés.

Cette approche ouvre la possibilité d'une assistance interactive qui unifie à la fois la prédiction et la génération des propriétés moléculaires, ce que l'équipe considère comme le prochain pas idéal pour la conception assistée par IA des médicaments. Ces modèles personnalisés permettent aux équipes biotech de moindre envergure de collaborer efficacement avec des systèmes d'IA qui comprennent leur langage scientifique spécialisé. Le développement d'un seul médicament prend généralement 10 à 15 ans et coûte en moyenne plus de 2 milliards de dollars, avec seulement environ 8 % des candidats médicaments qui entrent dans les essais cliniques recevant l'approbation de la FDA. Les assistants d'IA prometteurs pourraient améliorer considérablement la productivité dans les premières étapes du pipeline, où les chimistes conçoivent des molécules avec des propriétés pharmaceutiques, augmentant ainsi les chances de livrer un médicament sûr et efficace aux essais cliniques.

L'étude s'est concentrée sur trois catégories de propriétés cruciales pour le développement des médicaments : lipophilicité, permeabilité et clairance. La lipophilicité détermine si une molécule peut traverser les membranes biologiques, influençant l'absorption et la distribution du médicament, ainsi que d'autres caractéristiques. La permeabilité mesure la facilité avec laquelle un médicament pénètre dans le corps via le sang, tandis que la clairance indique la rapidité avec laquelle le corps élimine le médicament. Ces propriétés varient sur des plages de valeurs différentes et présentent des dépendances complexes, posant des défis pour optimiser les candidats médicaments efficaces et sûrs.

Impact France/UE

Cette collaboration entre Amazon, AGI et Nimbus Therapeutics pour adapter les grands modèles linguistiques aux besoins spécifiques de la découverte de médicaments pourrait accélérer considérablement le processus R&D pharmaceutique en France, facilitant ainsi l'accès à des outils plus efficaces et moins coûteux.

💬 Le point de vue du dev

Remplacer une batterie de GNNs spécialisés par un seul LLM affiné, c'est le genre de simplification qui paraît évidente après coup mais qui demande un travail de fond sérieux. Les résultats semblent tenir la route, et pour les petites équipes biotech qui n'ont pas les ressources pour maintenir dix modèles maison, c'est une vraie bouffée d'air. Amazon s'installe tranquillement dans la pharma, et ça ne fait que commencer.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Amazon Science

Les traces de raisonnement variées améliorent la prise de décision des LLM

Des chercheurs ont présenté à l'ICLR 2025 une nouvelle méthode d'entraînement des grands modèles de langage (LLM) qui améliore significativement leurs capacités de raisonnement. Baptisée SSFT (Set-Supervised Fine Tuning), cette approche consiste à entraîner un modèle sur plusieurs chemins de raisonnement distincts pour un même problème, plutôt que sur une seule trace humaine vérifiée comme c'est l'usage avec le fine-tuning supervisé classique. Pour guider le modèle, les chercheurs introduisent des "tokens de branchement global", des marqueurs spéciaux insérés pendant la phase d'entraînement post-initial, chacun activant un mode de raisonnement différent. En combinant SSFT avec une couche d'apprentissage par renforcement qu'ils nomment GFPO (Global Forking Policy Optimization), ils obtiennent des gains de 5 à 7 % en précision sur les benchmarks standards, mesurés en pass@1, c'est-à-dire la probabilité qu'une réponse unique générée soit correcte. L'enjeu est de taille : la capacité de raisonnement est devenue le principal critère de différenciation entre les LLM de pointe. Or, la méthode d'entraînement dominante, fournir au modèle une seule trace de raisonnement par exemple, plafonne naturellement ce que le modèle peut apprendre. Le problème identifié avec les approches naïves de raisonnement parallèle est le "mode collapse" : quand plusieurs stratégies sont possibles, le modèle finit par toutes les converger vers le même comportement. SSFT résout cela via un appariement bipartite qui associe chaque trace à un token de contrôle spécifique, forçant le modèle à maintenir des stratégies réellement distinctes. Le GFPO ajoute ensuite une logique de sélection : le modèle apprend non seulement plusieurs modes de raisonnement, mais aussi lequel employer selon le contexte du problème posé. Cette capacité de méta-décision, absente du fine-tuning supervisé, est précisément ce qui génère les gains observés. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser les limites du scaling en données brutes, en explorant comment structurer l'entraînement pour maximiser la diversité et la qualité du raisonnement. Des techniques comme la self-consistency, agréger plusieurs chemins de raisonnement pour voter la meilleure réponse, ont montré que la diversité de raisonnement améliore la robustesse des LLM à l'évaluation. La question logique était donc de savoir si cette diversité pouvait être intégrée dès l'entraînement. Les traces multiples nécessaires à SSFT peuvent être obtenues de plusieurs façons : en interrogeant plusieurs modèles enseignants, en échantillonnant un même modèle avec des températures variées, ou en agrégeant des solutions de sources hétérogènes. Cette flexibilité rend la méthode applicable sans infrastructure propriétaire, ce qui devrait faciliter son adoption dans la communauté de recherche et potentiellement chez les acteurs industriels cherchant à améliorer leurs modèles sans augmenter davantage la taille des données d'entraînement.

RecherchePaper

1 source

2Robohub

La planification par gradient dans les modèles du monde sur des horizons prolongés

Des chercheurs de Meta AI, de l'Université de Californie Berkeley et du GRASP Lab ont publié un article présentant GRASP, un nouveau planificateur à base de gradients conçu pour les modèles de monde appris. L'équipe comprend Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun et Amir Bar. GRASP s'attaque à l'un des problèmes les plus persistants de l'IA incarnée : utiliser efficacement un modèle prédictif puissant pour planifier des séquences d'actions sur de longs horizons temporels. L'approche repose sur trois innovations clés : élever la trajectoire dans des états virtuels pour paralléliser l'optimisation dans le temps, introduire de la stochasticité directement dans les itérations d'état pour favoriser l'exploration, et reformuler les gradients afin que les actions reçoivent des signaux d'apprentissage clairs, tout en évitant les gradients instables qui traversent les modèles de vision haute dimension. Ce travail est important parce qu'il résout un goulot d'étranglement concret qui freine le déploiement des modèles de monde modernes dans des systèmes de contrôle réels. Un modèle de monde, dans ce contexte, est un simulateur différentiable appris : donné un état courant et une séquence d'actions futures, il prédit ce qui va se passer. En théorie, cela permettrait à un agent de planifier par optimisation, en faisant rouler le modèle en avant et en rétropropageant les erreurs. En pratique, sur de longs horizons, ce processus dégénère : les graphes de calcul deviennent mal conditionnés (problème d'explosion ou de disparition des gradients, analogue au backpropagation through time), des minima locaux apparaissent à cause de la structure non-greedy de la tâche, et les espaces latents de haute dimension introduisent des instabilités supplémentaires. GRASP contourne ces trois écueils simultanément, rendant la planification par gradient beaucoup plus robuste sans abandonner la différentiabilité du système. Les modèles de monde sont devenus un axe central de la recherche en IA depuis que Yann LeCun, directeur scientifique de Meta AI, a défendu leur rôle fondamental dans la quête d'une IA plus générale. Des systèmes comme DreamerV3 ou les modèles vidéo génératifs récents montrent que ces architectures peuvent désormais prédire de longues séquences d'observations dans des espaces visuels complexes et généraliser entre tâches. Mais posséder un simulateur puissant et s'en servir efficacement pour la prise de décision sont deux choses différentes. GRASP comble ce fossé en rendant la planification à long horizon viable là où elle échouait auparavant, ouvrant la voie à des agents robotiques ou autonomes capables de raisonner sur des séquences d'actions étendues dans des environnements réels.

RecherchePaper

1 source

3Apple Machine Learning

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper

1 source

4The Decoder

Les hyperagents de Meta progressent dans leurs tâches et dans leur capacité à s'améliorer

Des chercheurs de Meta, en collaboration avec plusieurs universités, ont développé ce qu'ils appellent des « hyperagents » — des systèmes d'IA capables non seulement d'accomplir des tâches, mais aussi d'optimiser activement le mécanisme même par lequel ils s'améliorent. Cette architecture dépasse le cadre classique de l'apprentissage par renforcement ou du fine-tuning : l'agent agit sur deux niveaux simultanément, en résolvant des problèmes tout en affinant sa propre stratégie d'amélioration. Les résultats ont été présentés dans le cadre de travaux impliquant plusieurs équipes académiques aux côtés de Meta. Cette capacité à « s'améliorer en s'améliorant » représente un changement de paradigme potentiel dans la conception des systèmes d'IA agentiques. Là où les agents actuels nécessitent des cycles humains de rétroaction ou de supervision pour progresser, les hyperagents pourraient théoriquement accélérer leur propre développement de manière autonome. L'approche fonctionne sur plusieurs domaines de tâches différents, ce qui suggère une généralisation plutôt qu'une spécialisation étroite — un critère déterminant pour une adoption plus large dans des applications réelles. Ce travail s'inscrit dans une course intense entre les grands laboratoires pour développer des agents IA toujours plus autonomes. Meta, qui a misé massivement sur l'IA agentique avec ses modèles Llama et ses recherches en raisonnement, cherche à rattraper OpenAI et Google sur ce terrain. Le concept d'IA auto-accélératrice soulève également des questions profondes sur la sécurité et la contrôlabilité : si un système peut modifier sa propre dynamique d'apprentissage, la supervision humaine devient structurellement plus difficile à maintenir.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour