Aller au contenu principal
Grand modèle génomique: IA open source entraînée sur des billions de bases
RechercheArs Technica AI14sem· 1 min de lecture

Grand modèle génomique: IA open source entraînée sur des billions de bases

Source originale ↗·

L'équipe d'Evo a développé Evo 2, un modèle d'IA open source formé sur des milliards de paires de bases de l'ADN provenant des trois domaines de la vie (bactéries, archées, et eucaryotes). Après avoir analysé des quantités massives de génomes, Evo 2 a développé des représentations internes de caractéristiques essentielles dans des génomes complexes, y compris des éléments régulateurs de l'ADN et des sites d'splice, souvent difficiles à identifier pour les humains.

Impact France/UE

Les laboratoires et instituts de recherche européens en génomique (comme l'Institut Pasteur ou le CEA) peuvent directement exploiter ce modèle open source pour accélérer leurs travaux sur la compréhension des génomes complexes et le développement de thérapies.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources
1The Decoder 

Les modèles d'IA donnent souvent les bonnes réponses mais citent de mauvaises sources

Les grands modèles d'IA comme GPT d'OpenAI et Gemini de Google commettent régulièrement une erreur subtile mais préoccupante : lorsqu'ils analysent des documents, ils citent des passages qui ne soutiennent pas réellement leurs réponses. Des chercheurs de l'Université de Pékin ont formalisé ce phénomène sous le nom d'"hallucination d'attribution". Concrètement, le modèle peut fournir une réponse correcte tout en pointant vers une source incorrecte ou hors de propos. Pour mesurer ce problème de façon systématique, l'équipe a développé CiteVQA, le premier benchmark spécifiquement conçu pour évaluer la fiabilité des citations dans les réponses des modèles de langage. Ce défaut représente un risque sérieux dans les domaines réglementés comme le droit, la médecine ou la finance, où la traçabilité des sources n'est pas optionnelle mais légalement ou éthiquement requise. Un professionnel qui s'appuie sur une réponse d'IA et cite la source indiquée pourrait se retrouver à défendre une affirmation avec une référence qui ne la justifie pas. La distinction entre "avoir raison" et "citer correctement" est fondamentale : une réponse juste avec une mauvaise source est potentiellement aussi dangereuse qu'une réponse fausse. Ce problème s'inscrit dans un débat plus large sur la fiabilité des systèmes RAG (Retrieval-Augmented Generation), qui combinent recherche documentaire et génération de texte. Alors que les entreprises déploient massivement ces outils pour l'analyse de contrats, de dossiers médicaux ou de rapports financiers, la capacité à vérifier d'où provient une information devient critique. CiteVQA devrait servir de référence pour pousser les laboratoires à corriger ce biais dans leurs prochaines versions de modèles.

UELes secteurs réglementés européens (droit, médecine, finance) sont directement exposés : l'EU AI Act impose la traçabilité des systèmes IA à haut risque, et ce défaut de citation pourrait constituer une non-conformité lors des audits.

💬 C'est le bug silencieux des systèmes RAG : la réponse est bonne, mais la source pointe ailleurs. Dans les secteurs où un avocat ou un médecin doit tracer chaque information, ça ne passe pas à l'audit. CiteVQA arrive au bon moment, reste à voir si les labs vont vraiment corriger ça ou juste l'intégrer dans leurs benchmarks de comm.

RecherchePaper
1 source
Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
2VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
3Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle
4MarkTechPost 

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic