Aller au contenu principal
Évaluer la capacité de l'IA à accomplir des tâches de recherche scientifique
RechercheOpenAI Blog27sem· 1 min de lecture

Évaluer la capacité de l'IA à accomplir des tâches de recherche scientifique

Source originale ↗·

OpenAI présente FrontierScience, un banc d'essai évaluant la capacité des systèmes d'IA à raisonner dans les domaines de la physique, de la chimie et de la biologie pour mesurer les progrès vers la recherche scientifique réelle.

Impact France/UE

OpenAI's FrontierScience, un banc d'essai pour l'IA dans les domaines scientifiques, pourrait influencer les entreprises françaises et européennes comme Sanofi, BNP Paribas ou TotalEnergies en accélérant la recherche scientifique, tout en nécessitant une vigilance accrue pour la conformité avec l'AI Act et le RGPD en matière de protection des données et d'éthique des algorithmes.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment une IA associé à un labo automatisé accélère la recherche biologique
1Le Big Data 

Comment une IA associé à un labo automatisé accélère la recherche biologique

Des chercheurs d'OpenAI et de Ginkgo Bioworks ont combiné une IA (GPT-5) avec un laboratoire automatisé pour accélérer la recherche biologique. En utilisant la technique de synthèse protéique acellulaire (CFPS), l'IA a conçu des expériences, analysé les résultats et ajusté ses approches en environ une heure par itération, démontrant ainsi la capacité de l'IA à formuler des hypothèses et à mener des expériences dans le domaine complexe de la biologie.

RecherchePaper
1 source
OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant
2MarkTechPost 

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

OpenAI a publié LifeSciBench, un benchmark de 750 tâches conçu pour évaluer la capacité des modèles d'IA à raisonner comme de vrais scientifiques en sciences du vivant. Contrairement aux benchmarks biologiques classiques, qui posent des questions fermées à réponse unique, LifeSciBench soumet les modèles à des problèmes ouverts rédigés par 173 experts titulaires d'un doctorat et issus de l'industrie biotechnologique ou pharmaceutique. Chaque tâche couvre l'un des sept flux de travail scientifiques, analyse de données, conception expérimentale, raisonnement, validation, traduction et communication, et l'un des sept domaines biologiques, de la génomique à la chimie médicinale en passant par la médecine translationnelle. Environ 53 % des tâches s'accompagnent d'artefacts (séquences ADN, figures, tableaux, structures chimiques), et 79 % exigent en moyenne quatre étapes de raisonnement enchaînées. La qualité du benchmark a été validée par 453 relecteurs indépendants, dont 97 % docteurs, avec un taux d'accord global supérieur à 96 %. Les résultats révèlent un écart considérable entre les capacités actuelles des modèles et les exigences du travail scientifique réel. GPT-Rosalind, le modèle spécialisé d'OpenAI, obtient le meilleur score normalisé (0,576) et le taux de réussite par tâche le plus élevé (36,1 %), contre 25,7 % pour GPT-5.5, 23,6 % pour Gemini 3.1 Pro, 20,7 % pour GPT-5.4 et seulement 13,0 % pour Grok 4.3. Autrement dit, même le modèle le plus performant échoue sur près des deux tiers des tâches. Le système de notation s'appuie sur 19 020 critères granulaires, soit environ 25 par tâche, et un seuil de réussite fixé à 70 % du score normalisé. Les points faibles sont nets : GPT-Rosalind chute de 45,1 % de réussite sur les tâches textuelles à 28,1 % dès que des artefacts entrent en jeu, et les workflows de conception et d'optimisation restent particulièrement résistants, avec un taux de passage de seulement 30,7 %. LifeSciBench s'inscrit dans une dynamique plus large où l'industrie pharmaceutique et la recherche biomédicale sont identifiées comme des terrains d'application prioritaires pour les grands modèles de langage. Alors que des entreprises comme Isomorphic Labs, Recursion ou Insilico Medicine déploient déjà des IA dans le pipeline de découverte de médicaments, la question de leur fiabilité sur des tâches complexes et multi-étapes n'avait pas encore de réponse standardisée. Ce benchmark comble ce vide en proposant une évaluation qui reflète la réalité du travail de laboratoire, et non des QCM académiques. Le fait qu'aucun modèle ne dépasse 37 % de réussite signale que le secteur est loin de la saturation, et que des spécialisations domaine par domaine, comme GPT-Rosalind, représentent une piste sérieuse. Le benchmark est publié en accès ouvert, ce qui devrait accélérer la compétition entre laboratoires pour progresser sur ces tâches.

UELes laboratoires pharmaceutiques et instituts de recherche biomédicale européens peuvent s'appuyer sur ce benchmark en accès ouvert pour évaluer objectivement leurs modèles d'IA dans les pipelines de découverte de médicaments.

RecherchePaper
1 source
Deux assistants IA parviennent à accomplir des tâches de repositionnement de médicaments
3Ars Technica AI 

Deux assistants IA parviennent à accomplir des tâches de repositionnement de médicaments

La revue Nature a publié mardi deux articles décrivant des systèmes d'intelligence artificielle conçus pour assister les scientifiques dans le développement et la validation d'hypothèses. Le premier, baptisé Co-Scientist et développé par Google, fonctionne selon un modèle dit "scientist in the loop" : les chercheurs restent actifs dans la boucle et orientent le système par leurs jugements à chaque étape. Le second provient de FutureHouse, une organisation à but non lucratif, et va légèrement plus loin en entraînant un système capable d'évaluer de manière autonome des données biologiques issues de certaines catégories d'expériences spécifiques. Les deux équipes présentent exclusivement des données biologiques, portant principalement sur des hypothèses directes de repositionnement de médicaments, autrement dit : tester si un médicament existant peut traiter une autre maladie que celle pour laquelle il a été approuvé. Ces systèmes ne cherchent pas à remplacer les scientifiques ni le processus scientifique lui-même. Ils visent plutôt à prendre en charge ce que les IA actuelles font le mieux : parcourir et synthétiser des volumes massifs d'informations que les humains auraient du mal à absorber seuls. Les deux systèmes sont dits "agentiques" : ils fonctionnent en arrière-plan en appelant des outils externes pour accomplir leurs tâches. Ce type d'architecture permet une plus grande autonomie opérationnelle tout en restant guidé par des objectifs définis par les chercheurs. Cette publication s'inscrit dans une dynamique plus large d'investissement des géants technologiques dans l'IA scientifique. Microsoft a adopté une approche similaire avec son propre assistant scientifique, tandis qu'OpenAI fait figure d'exception en ayant simplement affiné un grand modèle de langage pour la biologie, sans architecture agentique. La multiplication de ces outils reflète un défi croissant pour la recherche : la littérature scientifique croît aujourd'hui bien plus vite qu'un chercheur humain ne peut la suivre, et l'IA commence à combler ce fossé de manière concrète.

UELes laboratoires pharmaceutiques et institutions de recherche européens pourraient à terme tirer parti d'approches similaires pour accélérer la découverte de nouvelles indications thérapeutiques, mais aucun impact direct sur la France ou l'UE n'est identifié.

RecherchePaper
1 source
Le programme NAIRR Science redéfinit la recherche scientifique grâce à l'infrastructure IA de NVIDIA
4NVIDIA AI Blog 

Le programme NAIRR Science redéfinit la recherche scientifique grâce à l'infrastructure IA de NVIDIA

Le programme pilote NAIRR (National Artificial Intelligence Research Resource), lancé par la Fondation nationale des sciences américaine (NSF), a soutenu plus de 700 projets de recherche au cours des deux dernières années, dans des domaines aussi variés que la prédiction de structures protéiques et la gestion des épidémies infectieuses. NVIDIA a contribué au programme en fournissant aux chercheurs un accès dédié à au moins quatre nœuds DGX pendant un minimum d'un mois, accompagné d'un support technique continu. Parmi les projets phares figure le modèle Walrus, développé par le consortium Polymathic AI regroupant le Flatiron Institute, l'Université de Cambridge et le Lawrence Berkeley National Lab : entraîné sur un vaste jeu de données baptisé "the Well", ce modèle de fondation pour les simulations de fluides a été rendu public avec ses données, son code et ses poids. À l'Université du Michigan, le professeur Venkat Viswanathan a dirigé le développement de MIST (Molecular Insight SMILES Transformers), une famille de modèles moléculaires pré-entraînés sur des bases de données non étiquetées, affinés sur plus de 400 relations structure-propriété et capables d'égaler ou de surpasser l'état de l'art en électrochimie, chimie quantique et physiologie. MIST a été développé sur un cluster de 40 GPU NVIDIA DGX, complété par 200 000 heures GPU sur le cluster Polaris de l'ALCF. Ces travaux illustrent une accélération concrète du rythme de la découverte scientifique grâce à l'infrastructure GPU. En fusionnant MIST avec des grands modèles de langage généralistes, les chercheurs du Michigan rendent les calculs de chimie quantique accessibles à un public plus large de scientifiques computationnels, ouvrant la voie à des matériaux de stockage d'énergie de nouvelle génération pour l'électrification des transports lourds et aériens. Walrus, de son côté, vise à devenir le modèle de fondation le plus polyvalent jamais construit pour modéliser les comportements fluides, avec des applications potentielles dans l'industrie, la météorologie et l'ingénierie. Ces outils ne restent pas dans les laboratoires : leur mise à disposition publique accélère leur adoption et leur amélioration collective. Le programme NAIRR s'inscrit dans une stratégie plus large de démocratisation de l'accès à la puissance de calcul pour la recherche académique américaine, face à la concentration croissante des ressources IA dans le secteur privé. En offrant des allocations de GPU à des institutions universitaires, le NSF cherche à rééquilibrer les conditions de la recherche fondamentale à l'heure où les coûts d'entraînement explosent. NVIDIA, en fournissant à la fois du matériel et un accompagnement technique, consolide son positionnement comme infrastructure de référence pour la recherche scientifique. La suite du programme NAIRR, dont la pérennisation fait l'objet de discussions au Congrès, pourrait déterminer si les États-Unis maintiennent un avantage compétitif dans la recherche en IA publique face à des acteurs privés et étrangers de plus en plus puissants.

UEL'Université de Cambridge participe au consortium Polymathic AI (modèle Walrus), mais le programme NAIRR est une initiative fédérale américaine sans incidence directe sur les financements ou politiques de recherche en France ou dans l'UE.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic