OpenAI publie LifeSciBench, un benchmark de 750…

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

46

1MarkTechPost

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Meta AI a publié NeuralBench, un framework open source unifié destiné à évaluer les modèles d'intelligence artificielle entraînés sur des signaux cérébraux. La première version, NeuralBench-EEG v1.0, constitue le benchmark ouvert le plus complet jamais publié dans ce domaine : 36 tâches d'évaluation distinctes, 94 jeux de données, 9 478 sujets, 13 603 heures d'électroencéphalogrammes (EEG), et 14 architectures de deep learning comparées sous une interface standardisée commune. Le framework est installable via pip et s'utilise en ligne de commande, chaque tâche étant configurée par un fichier YAML léger. Il repose sur trois bibliothèques Python modulaires : NeuralFetch pour l'acquisition des données depuis des dépôts publics comme OpenNeuro, DANDI et NEMAR ; NeuralSet pour le prétraitement via MNE-Python et HuggingFace ; et NeuralTrain pour l'entraînement, fondé sur PyTorch-Lightning. Huit catégories de tâches sont couvertes, allant du décodage cognitif (images, parole, vidéo, frappe) aux interfaces cerveau-machine, en passant par la détection clinique de crises d'épilepsie, l'analyse du sommeil et le phénotypage. Ce travail répond à un problème structurel qui freine le champ du NeuroAI depuis plusieurs années : l'absence de référentiel commun pour comparer les modèles de manière rigoureuse. Jusqu'ici, chaque équipe de recherche utilisait ses propres pipelines de prétraitement, ses propres jeux de données et ne publiait ses résultats que sur un sous-ensemble restreint de tâches. Des benchmarks existants comme MOABB couvraient jusqu'à 148 datasets mais se limitaient à 5 tâches ; d'autres initiatives comme EEG-Bench ou EEG-FM-Bench restaient chacune contraintes dans leur périmètre. Cette fragmentation permettait aux auteurs de présenter leurs modèles comme "généralisables" sur la base d'évaluations triées sur le volet, sans point de comparaison universel. NeuralBench établit enfin ce socle commun, ce qui permettra aux chercheurs de savoir précisément quel modèle excelle dans quel contexte, et d'en tirer des conclusions transférables à des applications réelles comme le diagnostic neurologique ou les prothèses contrôlées par la pensée. La publication s'inscrit dans une vague d'intérêt croissant pour les "modèles de fondation cérébraux" : des grands modèles pré-entraînés sur des enregistrements neuronaux bruts, puis affinés pour des tâches spécifiques, à l'image de ce que BERT ou GPT ont représenté pour le langage. Meta compare dans NeuralBench-EEG v1.0 trois grandes familles : des architectures spécialisées légères (1,5K à 4,2M paramètres entraînées from scratch), des modèles de fondation EEG pré-entraînés (3,2M à 157,1M paramètres) comme BENDR, LaBraM, BIOT, CBraMod, LUNA et REVE, ainsi que des baselines classiques à features artisanales. Tous les modèles de fondation sont affinés avec la même recette d'entraînement (AdamW, taux d'apprentissage 10⁻⁴, cosine-annealing). Meta annonce que le framework sera étendu à d'autres modalités cérébrales comme la MEG et l'IRMf, pour lesquelles il n'existe aujourd'hui aucun benchmark systématique.

UELes équipes de recherche européennes en neurosciences computationnelles et interfaces cerveau-machine (notamment CNRS, INRIA) peuvent désormais évaluer leurs modèles EEG sur un référentiel commun, accélérant potentiellement les applications cliniques comme le diagnostic de l'épilepsie.

💬 Le vrai problème du NeuroAI, c'était pas les modèles, c'était qu'on ne pouvait pas les comparer sérieusement. Chaque labo publiait ses résultats sur ses propres datasets, ce qui permettait à n'importe qui de se prétendre généralisable sans que personne puisse vérifier. NeuralBench règle ça, et c'est probablement plus utile que dix nouveaux modèles EEG de plus.

RecherchePaper

1 source

Perplexity AI publie WANDR, un benchmark ouvert pour évaluer les agents de recherche capables d'explorer largement et en profondeur

37

2MarkTechPost

Perplexity AI publie WANDR, un benchmark ouvert pour évaluer les agents de recherche capables d'explorer largement et en profondeur

Perplexity AI a publié WANDR (Wide ANd Deep Research), un nouveau benchmark ouvert conçu pour évaluer les agents de recherche capables à la fois d'explorer largement un sujet et d'investiguer chaque piste en profondeur. L'outil comprend 500 tâches réalistes de collecte de données, construites autour d'une architecture appelée "qualification key hierarchy", qui combine recherche large (identifier un grand nombre d'entités correspondant à des critères) et recherche approfondie (documenter chaque entité avec des preuves vérifiables). Un exemple concret illustre le principe : la tâche "ceocfoappointments" demande de recenser au moins 70 entreprises américaines ayant annoncé la nomination d'un nouveau PDG ou directeur financier entre le 1er mars et le 30 avril 2026, chacune accompagnée d'une page source faisant autorité, soit 140 enregistrements vérifiables au total. Les tâches ont été générées à partir de schémas d'usage réels et anonymisés, via un pipeline en quatre étapes (amorçage, rédaction, validation, curation) combinant génération automatique et vérification croisée. Au total, les 500 tâches de WANDR exigent 170 495 enregistrements sourcés, avec une médiane de 50 entités et 245 preuves par tâche, réparties en trois niveaux de difficulté à peu près égaux. Ce benchmark comble un vide important dans l'évaluation des agents d'intelligence artificielle dédiés à la recherche documentaire. Jusqu'ici, la plupart des outils de mesure testaient la capacité d'un agent à produire une réponse unique et bien rédigée, sans vérifier s'il pouvait réellement rassembler et vérifier un grand volume d'informations factuelles. Or de plus en plus d'entreprises délèguent à ces agents des tâches de cartographie concurrentielle, de vérification préalable (due diligence) ou de revue de littérature, des travaux qui exigent précisément cette combinaison d'ampleur et de rigueur. Chaque affirmation soumise par l'agent est revérifiée automatiquement par un système qui récupère la page citée, contrôle qu'elle est pertinente et vérifie que les extraits sélectionnés confirment bien la réponse fournie, avant de calculer des scores de précision et de rappel à différents niveaux de la hiérarchie. WANDR est présenté comme le pendant "large" du benchmark DRACO, déjà développé par Perplexity pour évaluer la qualité de rapports longs et approfondis. Dans les premiers tests, six systèmes de production ont été évalués sur l'ensemble des 500 tâches, et c'est la propre architecture "Search as Code" de Perplexity qui obtient le meilleur score, avec un F1 souple de 0,363. Aucun système, cependant, ne parvient à résoudre la totalité du benchmark, ce qui souligne l'écart qui subsiste entre les capacités actuelles des agents de recherche et les exigences réelles du travail de connaissance à grande échelle.

💬 Ce qui me frappe, c'est que Perplexity teste enfin ce qui compte pour un usage pro : pas "écrire une belle réponse", mais aller chercher 140 preuves vérifiables sur 70 boîtes différentes. Et le meilleur score du marché plafonne à 0,363 sur leur propre benchmark, ce qui dit clairement que la recherche automatisée à grande échelle reste loin d'être fiable pour de la vraie due diligence. Bon, sur le papier ça tire tout le monde vers le haut, reste à voir si les autres labos adoptent ce genre de mesure au lieu de continuer à vendre du "agent qui répond bien".

RecherchePaper

1 source

Un nouveau benchmark pour évaluer les agents IA de santé destinés aux patients

43

3Amazon Science

Un nouveau benchmark pour évaluer les agents IA de santé destinés aux patients

Nouveau benchmark, PatientAgentBench, pour évaluer les IA médicales tournées vers le patient (chiffres clés, etc.) Anthropic a présenté PatientAgentBench, un nouveau standard d'évaluation conçu spécifiquement pour les agents IA qui interagissent directement avec les patients, comme la prise de rendez-vous, la gestion des ordonnances ou le tri des symptômes. Contrairement aux benchmarks existants, qui testent soit les connaissances médicales statiques (questions d'examens, échanges ponctuels destinés aux cliniciens), soit des tâches techniques réservées aux professionnels de santé, PatientAgentBench simule des conversations multitours réalistes entre un agent IA et un patient virtuel. Le système génère un dossier médical synthétique, un scénario clinique dérivé de ce dossier, puis un agent patient qui converse avec l'IA de santé évaluée, laquelle doit collecter les bonnes informations, raisonner sur le dossier, déterminer le niveau de soins approprié et exécuter correctement les démarches cliniques. Un jury composé de plusieurs modèles de langage note ensuite chaque conversation selon plus de 100 critères validés par des cliniciens, répartis en six dimensions : sécurité clinique, qualité du tri, précision du parcours de soins, réussite de la tâche, utilité clinique et qualité conversationnelle. Cette approche répond à un problème identifié dans les évaluations précédentes de l'IA en santé, jugées trop rigides et vulnérables à la contamination des données d'entraînement. Les benchmarks classiques reposent en effet sur des grilles rédigées au cas par cas par des médecins pour un jeu de conversations figé, qui ne se généralisent pas à de nouveaux agents et qui, une fois publiées, finissent par être apprises par cœur par les modèles lors de leur entraînement, ce qui gonfle artificiellement les scores sans refléter une vraie capacité de raisonnement. Avec des critères réutilisables et une génération de scénarios renouvelée à chaque évaluation, PatientAgentBench limite ce risque de mémorisation et peut s'étendre à de nouveaux domaines cliniques, de nouvelles populations de patients et de nouveaux modèles sans nécessiter à chaque fois une nouvelle annotation médicale. Pour l'industrie, l'enjeu est de taille : à mesure que les agents IA passent du simple rôle de conseiller à celui d'exécutant de tâches médicales concrètes pour le compte des patients, il devient crucial de disposer d'outils fiables pour vérifier qu'ils respectent les mêmes garde-fous que ceux appliqués en médecine de premier recours contre les erreurs de diagnostic, les usages dangereux de médicaments ou les ruptures de suivi. Le projet s'inscrit dans un contexte plus large où les grands modèles de langage, même les plus performants, montrent encore des limites significatives dans la gestion de situations cliniques sensibles impliquant plusieurs tours de dialogue et des décisions d'escalade. Anthropic indique que des cliniciens licenciés ont validé les scénarios et les critères du benchmark, et que les premiers résultats obtenus avec PatientAgentBench doivent permettre d'orienter la conception d'agents de santé plus sûrs. En publiant ce standard de manière reproductible, l'entreprise cherche à établir une référence commune pour l'ensemble du secteur, à un moment où plusieurs acteurs de la tech et de la santé développent en parallèle des assistants IA destinés à interagir directement avec les patients, sans toujours disposer de méthodes rigoureuses pour en mesurer la sécurité réelle avant déploiement.

💬 Bon, PatientAgentBench, ça change enfin la donne sur un point précis : jusqu'ici on évaluait des IA de santé sur des QCM figés qu'elles finissaient par apprendre par cœur, pas sur leur capacité à gérer une vraie conversation avec un patient qui panique ou qui ment sur ses symptômes. Le vrai apport, c'est que les critères sont réutilisables et les scénarios régénérés à chaque test, donc ça limite la triche par mémorisation, ce qui manquait cruellement au secteur. Reste que c'est un jury de LLM qui note d'autres LLM, donc avant de le prendre pour argent comptant en prod sur du triage réel, faut voir ce que ça donne sur des cas limites que même les cliniciens débattent entre eux.

RecherchePaper

1 source

Comment les modèles ouverts stimulent la recherche en IA

36

4NVIDIA AI Blog

Comment les modèles ouverts stimulent la recherche en IA

À l'occasion de l'ICML 2026, l'une des plus grandes conférences mondiales sur le machine learning, les statistiques des papiers acceptés révèlent à quel point les modèles et infrastructures ouverts sont devenus centraux dans la recherche en intelligence artificielle. NVIDIA compte à lui seul 74 papiers acceptés cette année. Environ 2 000 articles retenus citent l'utilisation de GPU NVIDIA, et 145 s'appuient spécifiquement sur Nemotron, la famille de modèles et jeux de données ouverts de l'entreprise, comme fondation de leurs travaux. Des centaines d'autres recherches mobilisent Cosmos, Isaac GR00T ou BioNeMo, couvrant l'IA physique, la robotique, les véhicules autonomes et la recherche biomédicale. Parmi les thèmes dominants figurent la génération vidéo, l'apprentissage par renforcement appliqué aux grands modèles de langage, l'entraînement d'agents et l'inférence, mais de nouveaux axes émergent nettement, notamment les modèles de monde pour la robotique. Le projet DreamDojo illustre cette tendance : construit sur Cosmos, il apprend le comportement du monde physique à partir de vidéos humaines afin de prédire comment un robot réagirait dans des environnements jamais rencontrés à l'entraînement, permettant d'évaluer des politiques de décision et de piloter un robot virtuel sans les coûts et risques d'un déploiement réel. Cette montée en puissance des modèles ouverts change concrètement la manière dont la science de l'IA progresse. Plutôt que de partir de zéro, les laboratoires académiques et industriels s'appuient sur des poids ouverts à évaluer, des jeux de données ouverts pour entraîner leurs propres modèles, et des recettes ouvertes couvrant le raisonnement, l'usage d'outils, la sécurité et l'inférence efficace. En sciences de la vie, les modèles ouverts BioNeMo ont permis des avancées comme FLIP2, un nouveau benchmark public pour évaluer la capacité de l'IA à prédire l'effet des mutations sur les protéines, ou KERMT, un modèle dédié aux propriétés moléculaires utiles à la découverte de médicaments. La génération de données synthétiques s'impose également comme un axe majeur, reflétant un besoin croissant d'entraîner des modèles à grande échelle sans dépendre uniquement de données annotées par des humains, un chantier soutenu par les outils NeMo Curator. Cette dynamique dépasse largement les laboratoires de NVIDIA. Basecamp Research a développé EDEN, un modèle de fondation pour l'ADN qui aide à interpréter et concevoir des séquences génétiques. Le groupe pharmaceutique Merck & Co. utilise KERMT pour prédire le comportement de molécules candidates à un traitement, notamment leur efficacité et leur sécurité potentielles. Le laboratoire japonais Sakana AI, présent à la conférence, a bâti ses modèles Fugu et Fugu-Ultra directement sur Nemotron 3 Ultra pour automatiser une partie de la recherche en IA, tandis que la startup KiloCode a intégré Nemotron dans son architecture de routage de code, revendiquant une réduction des coûts en tokens pouvant atteindre 90 %. Ces exemples illustrent comment l'ouverture des modèles et des infrastructures accélère l'innovation bien au-delà du seul écosystème de leur créateur, en abaissant la barrière d'entrée pour des équipes de recherche et des entreprises de toutes tailles.

UELes laboratoires de recherche académiques européens bénéficient indirectement de l'accès a ces modèles et jeux de données ouverts pour leurs propres travaux.

💬 Les chiffres parlent tout seuls : 2000 papiers ICML citent du GPU NVIDIA, 145 s'appuient sur Nemotron. On est loin du open source comme argument marketing, c'est devenu l'infrastructure de base de la recherche en IA. Ce qui me frappe, c'est que ça abaisse vraiment la barrière d'entrée : un labo japonais comme Sakana ou une startup comme KiloCode construisent dessus sans les moyens d'un géant. Reste à voir si NVIDIA garde cette ouverture quand la position dominante sera encore plus verrouillée.

RecherchePaper

1 source

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

À lire aussi

Meta AI publie NeuralBench : un framework open source pour évaluer les modèles NeuroIA sur 36 tâches EEG et 94 jeux de données

Perplexity AI publie WANDR, un benchmark ouvert pour évaluer les agents de recherche capables d'explorer largement et en profondeur

Un nouveau benchmark pour évaluer les agents IA de santé destinés aux patients

Comment les modèles ouverts stimulent la recherche en IA