GeneBench-Pro : OpenAI crée un benchmark si difficile que même GPT 5.6 Sol galère
OpenAI a dévoilé le 30 juin 2026 GeneBench-Pro, un nouveau benchmark destiné à mesurer une compétence bien plus exigeante que la simple restitution de connaissances : le jugement scientifique des modèles d'intelligence artificielle. L'outil rassemble 129 problèmes couvrant la génomique, la biologie quantitative et la médecine translationnelle. Pour chaque exercice, l'IA reçoit un jeu de données réel, le contexte d'une expérience et une question précise, et doit explorer les données, choisir la méthode d'analyse adaptée, puis formuler une conclusion pertinente, exactement comme le ferait un chercheur face à un problème inédit. Avant la publication, OpenAI a fait valider 82 des 129 problèmes par des experts indépendants (doctorants, chercheurs postdoctoraux, scientifiques de l'industrie et professeurs), afin de vérifier le réalisme des scénarios et la cohérence des réponses attendues. Selon Alexander Strudwick Young, la plupart de ces exercices auraient mis en difficulté un doctorant livré à lui-même, sans l'appui d'un superviseur expérimenté. Sur ce test, GPT-5.6 Sol domine largement ses prédécesseurs avec 28,7 % de réussite en niveau de raisonnement maximal, et 31,5 % en mode Pro, contre moins de 5 % pour GPT-5 lors des premiers essais sur la version originale de GeneBench.
Cette progression illustre un enjeu concret pour la recherche biomédicale : les experts estiment qu'un problème type de GeneBench-Pro demanderait entre 20 et 40 heures de travail à un spécialiste humain, facturées environ 200 dollars de l'heure, soit plusieurs milliers de dollars par exercice résolu. Une IA capable d'atteindre un niveau de compétence comparable pourrait effectuer le même travail pour seulement quelques dollars de coût d'inférence. L'écart de performance entre modèles reste toutefois considérable : Opus 4.8 plafonne à 16 %, Gemini 3.5 Flash à 8,1 %, Gemini 3.1 Pro à 3,1 %, GLM 5.2 à 4,6 %, DeepSeek V4 Pro à 2,4 % et Grok 4.3 à seulement 1,5 %. Ces résultats montrent qu'au-delà du simple niveau de raisonnement affiché, la capacité à naviguer dans des données biologiques désordonnées et à faire des choix méthodologiques justes reste un obstacle majeur pour la plupart des modèles, y compris les plus récents.
Ce benchmark s'inscrit dans une tendance plus large de l'industrie de l'IA, qui cherche désormais à évaluer les modèles non plus sur des connaissances factuelles mais sur leur capacité à mener une véritable démarche scientifique, jugement, exploration et arbitrage méthodologique inclus. Tous les problèmes ont été créés de manière synthétique par OpenAI, ce qui lui permet de garder un contrôle total sur les données et de comparer précisément les réponses des modèles aux résultats attendus, tout en tenant compte du fait que plusieurs méthodes d'analyse différentes peuvent aboutir à une conclusion scientifiquement valable. Pour garantir une évaluation indépendante, OpenAI publie en open source dix problèmes représentatifs sur Hugging Face, et confie un second ensemble de 50 questions à Artificial Analysis, qui mènera ses propres évaluations comparatives des différents modèles d'IA. À terme, cet effort vise à mesurer si les agents d'intelligence artificielle peuvent réellement accélérer la recherche en biologie computationnelle, un domaine où la rareté des experts qualifiés et le coût élevé de leur temps constituent un frein important à l'innovation.
Ce benchmark pourrait aider les laboratoires de recherche biomédicale européens à évaluer si l'IA peut accélérer leurs travaux, mais n'implique directement aucune entreprise ou institution française ou européenne.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




