Aller au contenu principal
RechercheMarkTechPost5h· 2 min de lecture

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

Source originale ↗·

OpenAI a publié LifeSciBench, un benchmark de 750 tâches conçu pour évaluer la capacité des modèles d'IA à raisonner comme de vrais scientifiques en sciences du vivant. Contrairement aux benchmarks biologiques classiques, qui posent des questions fermées à réponse unique, LifeSciBench soumet les modèles à des problèmes ouverts rédigés par 173 experts titulaires d'un doctorat et issus de l'industrie biotechnologique ou pharmaceutique. Chaque tâche couvre l'un des sept flux de travail scientifiques, analyse de données, conception expérimentale, raisonnement, validation, traduction et communication, et l'un des sept domaines biologiques, de la génomique à la chimie médicinale en passant par la médecine translationnelle. Environ 53 % des tâches s'accompagnent d'artefacts (séquences ADN, figures, tableaux, structures chimiques), et 79 % exigent en moyenne quatre étapes de raisonnement enchaînées. La qualité du benchmark a été validée par 453 relecteurs indépendants, dont 97 % docteurs, avec un taux d'accord global supérieur à 96 %.

Les résultats révèlent un écart considérable entre les capacités actuelles des modèles et les exigences du travail scientifique réel. GPT-Rosalind, le modèle spécialisé d'OpenAI, obtient le meilleur score normalisé (0,576) et le taux de réussite par tâche le plus élevé (36,1 %), contre 25,7 % pour GPT-5.5, 23,6 % pour Gemini 3.1 Pro, 20,7 % pour GPT-5.4 et seulement 13,0 % pour Grok 4.3. Autrement dit, même le modèle le plus performant échoue sur près des deux tiers des tâches. Le système de notation s'appuie sur 19 020 critères granulaires, soit environ 25 par tâche, et un seuil de réussite fixé à 70 % du score normalisé. Les points faibles sont nets : GPT-Rosalind chute de 45,1 % de réussite sur les tâches textuelles à 28,1 % dès que des artefacts entrent en jeu, et les workflows de conception et d'optimisation restent particulièrement résistants, avec un taux de passage de seulement 30,7 %.

LifeSciBench s'inscrit dans une dynamique plus large où l'industrie pharmaceutique et la recherche biomédicale sont identifiées comme des terrains d'application prioritaires pour les grands modèles de langage. Alors que des entreprises comme Isomorphic Labs, Recursion ou Insilico Medicine déploient déjà des IA dans le pipeline de découverte de médicaments, la question de leur fiabilité sur des tâches complexes et multi-étapes n'avait pas encore de réponse standardisée. Ce benchmark comble ce vide en proposant une évaluation qui reflète la réalité du travail de laboratoire, et non des QCM académiques. Le fait qu'aucun modèle ne dépasse 37 % de réussite signale que le secteur est loin de la saturation, et que des spécialisations domaine par domaine, comme GPT-Rosalind, représentent une piste sérieuse. Le benchmark est publié en accès ouvert, ce qui devrait accélérer la compétition entre laboratoires pour progresser sur ces tâches.

Impact France/UE

Les laboratoires pharmaceutiques et instituts de recherche biomédicale européens peuvent s'appuyer sur ce benchmark en accès ouvert pour évaluer objectivement leurs modèles d'IA dans les pipelines de découverte de médicaments.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données
1MarkTechPost 

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper
1 source
EgoDyn-Bench : évaluation de la compréhension du mouvement ego-centré dans les modèles de vision pour la conduite autonome
2arXiv cs.RO 

EgoDyn-Bench : évaluation de la compréhension du mouvement ego-centré dans les modèles de vision pour la conduite autonome

Des chercheurs ont publié EgoDyn-Bench, un nouveau banc d'essai conçu pour mesurer la compréhension du mouvement propre du véhicule, appelé ego-motion, par les modèles de fondation en conduite autonome. L'étude, soumise sur arXiv fin avril 2026, s'appuie sur une évaluation empirique à grande échelle couvrant plus de 20 modèles : des systèmes propriétaires comme les grands modèles multimodaux en boîte noire, des modèles open-source de tailles variées, et des agents d'action-langage spécialisés dans la conduite. Le protocole utilise un oracle déterministe pour convertir les données cinématiques continues du véhicule en concepts de mouvement discrets, permettant de dissocier la logique physique interne du modèle de sa perception visuelle brute. Le résultat central est frappant : les auteurs identifient ce qu'ils appellent un « goulot d'étranglement perceptif ». Si les modèles testés démontrent une certaine capacité à raisonner sur les concepts physiques de base, ils échouent systématiquement à les ancrer dans les observations visuelles réelles. Pire, ces systèmes sont régulièrement surpassés par des méthodes géométriques classiques non apprises, pourtant bien plus simples. Cette défaillance persiste quelle que soit la taille du modèle et même après un entraînement spécialisé sur des données de conduite, ce qui pointe vers un déficit structurel dans la façon dont les architectures actuelles couplent vision et raisonnement physique. L'analyse révèle une dissociation fonctionnelle préoccupante entre vision et langage : la logique d'ego-motion est dérivée presque exclusivement du canal linguistique, tandis que les observations visuelles n'apportent qu'un signal négligeable. Lorsque les chercheurs fournissent explicitement des encodages de trajectoire aux modèles, la cohérence physique se rétablit significativement, confirmant que le problème n'est pas une absence de connaissance physique, mais une incapacité à la connecter au flux visuel. Ce constat soulève des questions sérieuses pour l'industrie de la conduite autonome, où des acteurs comme Waymo, Tesla ou Mobileye investissent massivement dans des approches fondées sur ces mêmes modèles. EgoDyn-Bench propose un cadre de diagnostic standardisé et une piste concrète vers des systèmes d'IA incarnée physiquement cohérents.

RecherchePaper
1 source
Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle
3MarkTechPost 

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

RecherchePaper
1 source
Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique
4MarkTechPost 

Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique

Une équipe de chercheurs menée par Nick Levine, David Duvenaud et Alec Radford vient de publier Talkie-1930, un modèle de langage open-weight de 13 milliards de paramètres entraîné exclusivement sur des textes anglais antérieurs à 1931. Baptisé "vintage language model", le modèle a ingéré 260 milliards de tokens issus de livres, journaux, périodiques, revues scientifiques, brevets et décisions de justice datant d'avant le 31 décembre 1930. Cette date n'est pas choisie au hasard : elle correspond au seuil d'entrée dans le domaine public aux États-Unis, rendant ces textes légalement exploitables pour l'entraînement. Deux versions sont disponibles, une base (talkie-1930-13b-base) et une version ajustée pour la conversation (talkie-1930-13b-it), avec une démo accessible en continu sur talkie-lm.com/chat, où Claude Sonnet 4.6 interroge le modèle en temps réel. L'intérêt de Talkie ne réside pas dans la nostalgie, mais dans trois cas d'usage de recherche bien précis. D'abord, la contamination des benchmarks : tous les grands modèles modernes (GPT-4, LLaMA, Mistral) sont entraînés sur des crawls massifs du web contemporain, ce qui signifie que les jeux de test standard ont pu se retrouver dans leurs données d'entraînement, faussant les évaluations. Talkie, lui, est structurellement exempt de toute contamination vis-à-vis des benchmarks modernes. L'équipe a ainsi testé si le modèle pouvait apprendre Python, langage inexistant en 1930, à partir de quelques exemples en contexte : sur le benchmark HumanEval, il progresse de façon "lente mais régulière" avec l'échelle. Ensuite, le modèle permet d'étudier les capacités de prévision temporelle, en mesurant à quel point des événements historiques post-1930 le surprennent (en bits par byte) : les événements des années 1950 et 1960 sont ceux qui le déroute le plus, puis l'effet se stabilise. Enfin, le projet pose des questions fondamentales sur l'"identité" des LLM : tous les modèles actuels partagent une ascendance commune dans les données web, alors que Talkie rompt entièrement cette lignée. Ce projet s'inscrit dans un mouvement plus large de critique des méthodes d'évaluation en IA. La contamination des benchmarks est depuis plusieurs années un problème reconnu mais difficile à circonscrire, et les tentatives de créer des jeux de test inédits se heurtent toujours à la possibilité que les données aient filtré. L'approche "vintage" ouvre une voie alternative : ancrer le modèle dans un passé documenté et figé, ce qui transforme toute l'histoire moderne en terrain d'évaluation propre. Développé par une équipe à but non lucratif, Talkie-1930 pourrait devenir un outil de référence pour les chercheurs souhaitant tester la généralisation hors distribution, la robustesse des architectures Transformer, ou encore l'influence des données d'entraînement sur les comportements émergents des modèles.

UELes chercheurs européens travaillant sur l'évaluation des LLMs et la contamination des benchmarks peuvent utiliser Talkie-1930 comme outil de référence, sans impact institutionnel direct sur la France ou l'UE.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic