RechercheOpenAI Blog27sem· 1 min de lecture

Évaluer la capacité de l'IA à accélérer la recherche biologique

OpenAI dévoile un cadre d'évaluation pour mesurer l'impact de l'IA sur l'accélération de la recherche biologique en laboratoire. Utilisant GPT-5 pour optimiser un protocole de clonage moléculaire, l'étude examine les promesses et les risques de l'expérimentation assistée par IA.

Impact France/UE

L'adoption de l'évaluation d'OpenAI pour l'IA en recherche biologique pourrait favoriser des avancées rapides en France et en Europe, notamment pour des entreprises comme Genopole, tout en soulignant la nécessité de se conformer rigoureusement au futur AI Act et au RGPD.

Dans nos dossiers

OpenAI GPT-5

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

Comment une IA associé à un labo automatisé accélère la recherche biologique

Des chercheurs d'OpenAI et de Ginkgo Bioworks ont combiné une IA (GPT-5) avec un laboratoire automatisé pour accélérer la recherche biologique. En utilisant la technique de synthèse protéique acellulaire (CFPS), l'IA a conçu des expériences, analysé les résultats et ajusté ses approches en environ une heure par itération, démontrant ainsi la capacité de l'IA à formuler des hypothèses et à mener des expériences dans le domaine complexe de la biologie.

RecherchePaper

1 source

2OpenAI Blog

Progrès dans la recherche indépendante sur l'alignement de l'IA

OpenAI verse 7,5 millions de dollars au Projet d'alignement pour soutenir des recherches indépendantes sur l'alignement de l'intelligence artificielle, visant à renforcer les efforts mondiaux pour atténuer les risques liés à la sécurité et à la sûreté de l'intelligence artificielle générale (AGI). Ce financement vise à encourager des études non liées à des intérêts commerciaux, afin d'améliorer la compréhension et la gestion des défis de l'AGI.

RechercheActu

1 source

3The Decoder

Un chercheur Microsoft crée un réseau neuronal à base de chèvres dans Age of Empires II pour critiquer la recherche en IA

Un chercheur de Microsoft a construit un réseau de neurones fonctionnel dans l'éditeur de cartes d'Age of Empires II, en utilisant des chèvres, des ponts et des rampes de glace. Le système reproduit fidèlement les opérations mathématiques d'un réseau de neurones artificiel classique, avec des unités logiques remplacées par des animaux qui se déplacent selon des règles précises. Ce qui ressemble à une expérience absurde est en réalité une démonstration délibérément provocatrice. L'objectif est de mettre en lumière un biais méthodologique profond dans la recherche sur l'IA. En analysant 315 articles scientifiques, le chercheur a constaté que plus de la moitié d'entre eux présupposaient des traits humains chez les modèles de langage avant même que l'expérience ne commence. Or, si l'on remplace une interface de chat par des chèvres errantes, les mathématiques sous-jacentes ne changent pas, mais l'impression de dialoguer avec une entité consciente disparaît immédiatement. C'est précisément ce sentiment, et non les données, qui influence les conclusions de nombreuses études. Cette démonstration s'inscrit dans un débat scientifique plus large sur l'anthropomorphisation des systèmes d'IA. Depuis l'émergence des grands modèles de langage comme GPT-4 ou Gemini, une partie de la communauté académique tend à projeter des capacités cognitives humaines sur des systèmes qui ne font qu'optimiser des probabilités statistiques. En montrant qu'un troupeau de chèvres peut réaliser les mêmes calculs qu'un réseau neuronal, le chercheur pousse ses pairs à interroger leurs cadres d'interprétation avant de publier des conclusions sur la "compréhension" ou la "conscience" des modèles.

RecherchePaper

1 source

4MarkTechPost

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

OpenAI a publié LifeSciBench, un benchmark de 750 tâches conçu pour évaluer la capacité des modèles d'IA à raisonner comme de vrais scientifiques en sciences du vivant. Contrairement aux benchmarks biologiques classiques, qui posent des questions fermées à réponse unique, LifeSciBench soumet les modèles à des problèmes ouverts rédigés par 173 experts titulaires d'un doctorat et issus de l'industrie biotechnologique ou pharmaceutique. Chaque tâche couvre l'un des sept flux de travail scientifiques, analyse de données, conception expérimentale, raisonnement, validation, traduction et communication, et l'un des sept domaines biologiques, de la génomique à la chimie médicinale en passant par la médecine translationnelle. Environ 53 % des tâches s'accompagnent d'artefacts (séquences ADN, figures, tableaux, structures chimiques), et 79 % exigent en moyenne quatre étapes de raisonnement enchaînées. La qualité du benchmark a été validée par 453 relecteurs indépendants, dont 97 % docteurs, avec un taux d'accord global supérieur à 96 %. Les résultats révèlent un écart considérable entre les capacités actuelles des modèles et les exigences du travail scientifique réel. GPT-Rosalind, le modèle spécialisé d'OpenAI, obtient le meilleur score normalisé (0,576) et le taux de réussite par tâche le plus élevé (36,1 %), contre 25,7 % pour GPT-5.5, 23,6 % pour Gemini 3.1 Pro, 20,7 % pour GPT-5.4 et seulement 13,0 % pour Grok 4.3. Autrement dit, même le modèle le plus performant échoue sur près des deux tiers des tâches. Le système de notation s'appuie sur 19 020 critères granulaires, soit environ 25 par tâche, et un seuil de réussite fixé à 70 % du score normalisé. Les points faibles sont nets : GPT-Rosalind chute de 45,1 % de réussite sur les tâches textuelles à 28,1 % dès que des artefacts entrent en jeu, et les workflows de conception et d'optimisation restent particulièrement résistants, avec un taux de passage de seulement 30,7 %. LifeSciBench s'inscrit dans une dynamique plus large où l'industrie pharmaceutique et la recherche biomédicale sont identifiées comme des terrains d'application prioritaires pour les grands modèles de langage. Alors que des entreprises comme Isomorphic Labs, Recursion ou Insilico Medicine déploient déjà des IA dans le pipeline de découverte de médicaments, la question de leur fiabilité sur des tâches complexes et multi-étapes n'avait pas encore de réponse standardisée. Ce benchmark comble ce vide en proposant une évaluation qui reflète la réalité du travail de laboratoire, et non des QCM académiques. Le fait qu'aucun modèle ne dépasse 37 % de réussite signale que le secteur est loin de la saturation, et que des spécialisations domaine par domaine, comme GPT-Rosalind, représentent une piste sérieuse. Le benchmark est publié en accès ouvert, ce qui devrait accélérer la compétition entre laboratoires pour progresser sur ces tâches.

UELes laboratoires pharmaceutiques et instituts de recherche biomédicale européens peuvent s'appuyer sur ce benchmark en accès ouvert pour évaluer objectivement leurs modèles d'IA dans les pipelines de découverte de médicaments.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic