Aller au contenu principal
Appel aux chasseurs de bogues biologiques : agent bio recherche" se traduit en français par "Appel aux chasseurs de bogues biologiques : agent bio recherche". Le titre est déjà en français.
RechercheOpenAI Blog48sem· 1 min de lecture

Appel aux chasseurs de bogues biologiques : agent bio recherche" se traduit en français par "Appel aux chasseurs de bogues biologiques : agent bio recherche". Le titre est déjà en français.

Source originale ↗·

OpenAI lance le "Bio Bug Bounty" pour tester la sécurité de son agent ChatGPT via un prompt de déverrouillage universel. Les chercheurs peuvent gagner jusqu'à 25 000 dollars en identifiant des vulnérabilités potentielles.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
1VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
Comment une IA associé à un labo automatisé accélère la recherche biologique
2Le Big Data 

Comment une IA associé à un labo automatisé accélère la recherche biologique

Des chercheurs d'OpenAI et de Ginkgo Bioworks ont combiné une IA (GPT-5) avec un laboratoire automatisé pour accélérer la recherche biologique. En utilisant la technique de synthèse protéique acellulaire (CFPS), l'IA a conçu des expériences, analysé les résultats et ajusté ses approches en environ une heure par itération, démontrant ainsi la capacité de l'IA à formuler des hypothèses et à mener des expériences dans le domaine complexe de la biologie.

RecherchePaper
1 source
3The Decoder 

OpenAI transforme la compression de modèle en chasse aux talents avec son défi « Parameter Golf » à 16 Mo

OpenAI lance le défi "Parameter Golf" : créer le meilleur modèle de langage possible en seulement 16 Mo. La compétition vise à repousser les limites de la compression de modèles, tout en servant de vivier pour recruter des talents parmi les chercheurs participants.

RechercheActu
1 source
Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes
4MarkTechPost 

Google DeepMind présente Aletheia : L'agent AI passant des compétitions mathématiques aux découvertes de recherche professionnelle entièrement autonomes

Google DeepMind a présenté Aletheia, un agent AI spécialisé pour relier les compétitions mathématiques à la recherche professionnelle. Aletheia, basé sur Gemini Deep Think, utilise une architecture d'agencement (Generator, Verifier, Reviser) pour générer, vérifier et corriger des solutions en langage naturel. Aletheia a atteint 95.1% d'exactitude sur le banc de tests IMO-Proof Advanced et a contribué à plusieurs publications académiques, y compris la résolution autonome de 4 problèmes ouverts. DeepMind propose une classification pour les contributions mathématiques de l'IA, allant de la collaboration humain-IA (niveau 1) à l'autonomie quasi complète (niveau 2).

RechercheOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic