Aller au contenu principal
L'élagage des données d'entraînement améliore la mémorisation des faits
RechercheApple Machine Learning1j

L'élagage des données d'entraînement améliore la mémorisation des faits

1 source couvre ce sujet·Source originale ↗·

Des chercheurs ont présenté une nouvelle approche pour améliorer la mémorisation des faits dans les grands modèles de langage, dans un article accepté au workshop "Navigating and Addressing Data Problems for Foundation Models" de la conférence ICLR 2026. Leur travail démontre que les LLMs peinent systématiquement à encoder les connaissances factuelles dans leurs paramètres lorsque la quantité d'information contenue dans les données d'entraînement dépasse la capacité du modèle. En formalisant ce problème sous un angle théorique de l'information, ils établissent une limite quantifiable au-delà de laquelle la précision factuelle se dégrade inévitablement.

La solution proposée est contre-intuitive : plutôt que d'augmenter la taille des données d'entraînement, il faut les élaguer. En réduisant la redondance et en sélectionnant plus rigoureusement les exemples factuels, les modèles mémorisent mieux les informations critiques. Ce mécanisme de pruning améliore directement les performances sur les tâches intensives en connaissances et réduit les hallucinations, l'un des défauts les plus coûteux des LLMs en production.

Ce travail s'inscrit dans une prise de conscience croissante au sein de la communauté autour de la qualité des données d'entraînement, au-delà de la simple quantité. Des initiatives comme FineWeb ou DCLM ont déjà montré que le filtrage intelligent des corpus améliore les benchmarks, mais ce papier apporte une justification théorique solide au phénomène. Les implications sont importantes pour les futures générations de modèles, où les budgets de calcul et les limites de capacité imposent des arbitrages stricts sur ce qu'un modèle peut réellement retenir.

Impact France/UE

Les équipes européennes développant des corpus d'entraînement filtrés, comme HuggingFace (France) avec FineWeb, disposent désormais d'une justification théorique solide pour renforcer leurs stratégies de pruning de données.

À lire aussi

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples
1VentureBeat AI 

Une étude Databricks montre que les agents multi-étapes surpassent le RAG mono-requête sur des sources multiples

Une équipe de recherche de Databricks a publié des résultats montrant que les agents multi-étapes surpassent systématiquement les systèmes RAG classiques lorsque les questions nécessitent de croiser données structurées et contenu non structuré. Testés sur neuf tâches de connaissance d'entreprise, les agents multi-étapes affichent des gains de 20% ou plus sur le benchmark STaRK de Stanford, qui couvre trois domaines semi-structurés : les données produits Amazon, le Microsoft Academic Graph et une base de connaissances biomédicale. Sur ce dernier domaine, l'écart de performance atteint 38%. Pour s'assurer que ces gains ne s'expliquent pas simplement par la qualité du modèle sous-jacent, Databricks a réexécuté les baselines STaRK publiées en utilisant un modèle de fondation plus récent et plus puissant : ce modèle plus fort a quand même perdu face à l'agent multi-étapes, confirmant que le problème est architectural. Le problème fondamental des systèmes RAG à passage unique est leur incapacité à décomposer une requête hybride, c'est-à-dire une question qui mélange un filtre structuré précis avec une recherche sémantique ouverte. Une question telle que "Quels produits ont vu leurs ventes baisser ces trois derniers mois, et quels problèmes connexes remontent dans les avis clients ?" exige d'interroger simultanément un entrepôt SQL et des documents non structurés, puis de combiner les résultats. Un système RAG classique ne peut pas scinder cette requête, router chaque partie vers la bonne source de données et synthétiser le tout. Michael Bendersky, directeur de la recherche chez Databricks, résume ainsi la limite : "RAG fonctionne, mais ça ne passe pas à l'échelle. Si vous voulez comprendre pourquoi vos ventes baissent, il faut aider l'agent à voir les tables et les données commerciales. Votre pipeline RAG sera incompétent pour cette tâche." Pour répondre à ce problème, Databricks a conçu le Supervisor Agent, implémentation concrète de cette approche de recherche. Son architecture repose sur trois mécanismes : la décomposition parallèle des outils, où l'agent lance simultanément des requêtes SQL et des recherches vectorielles avant d'analyser les résultats combinés ; l'auto-correction, qui lui permet de détecter un échec de récupération, de reformuler la requête et d'emprunter un autre chemin, comme lorsqu'il exécute une jointure SQL pour trouver un auteur ayant exactement 115 publications sur un sujet précis ; et une configuration déclarative en langage naturel, qui permet de connecter n'importe quelle nouvelle source de données sans ré-entraînement. Ces travaux s'appuient sur les recherches antérieures de Databricks sur les retrievers instruits, qui avaient déjà amélioré la récupération sur données non structurées via des requêtes enrichies de métadonnées, et marquent une extension logique vers les sources relationnelles que les entreprises utilisent le plus au quotidien.

RecherchePaper
1 source
AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA
2Amazon Science 

AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA

Amazon Web Services (AWS) et l'université Johns Hopkins ont annoncé le lancement de l'Antibody Developability Benchmark, une base de données publique destinée à accélérer la conception d'anticorps thérapeutiques par intelligence artificielle. Ce jeu de données est 20 fois plus diversifié que les benchmarks existants dans la littérature scientifique, couvrant 50 anticorps de référence, plusieurs formats structuraux, cibles et profils biophysiques. Le projet est né d'une collaboration entre l'équipe Amazon Bio Discovery d'AWS et le Gray Lab du département de génie chimique et biomoléculaire de Johns Hopkins, dirigé par le professeur Jeffrey Gray, créateur original de RosettaDock, un outil de référence pour la prédiction de structures de complexes protéiques. Ce benchmark comble un manque critique qui freinait depuis des années le développement d'outils d'IA fiables pour la découverte de médicaments. Les modèles de langage protéique (pLM) et les architectures de deep learning structurel promettent de prédire la "développabilité" des anticorps, c'est-à-dire leur capacité à être fabriqués, stabilisés et administrés sans danger comme médicament. Or, comme l'a souligné Jeffrey Gray, les benchmarks internes de son laboratoire montraient que les modèles actuels échouaient encore à prédire des propriétés critiques comme la solubilité ou la spécificité. Sans données publiques suffisamment larges, diversifiées et collectées dans des conditions standardisées, il était impossible d'évaluer rigoureusement ces outils, ni de les améliorer de manière fiable. La nouvelle base de données répond directement à cette contrainte en fournissant des mesures biophysiques et biochimiques à grande échelle pour un espace de séquences représentatif du travail réel d'ingénierie des anticorps. Depuis 1986, date à laquelle la FDA américaine a approuvé son premier anticorps thérapeutique, les progrès ont été réels mais les délais et coûts de développement restent prohibitifs. Les pandémies récentes ont mis en lumière l'urgence de disposer d'outils capables d'identifier et d'optimiser rapidement ces molécules. Les modèles de fondation biologiques (BioFM) représentent une voie prometteuse, mais leur crédibilité repose sur leur capacité à être évalués contre des données expérimentales solides. Les datasets publics existants souffraient d'un biais structurel majeur : ils se concentraient sur un seul format d'anticorps, une seule cible, ou ne contenaient que des molécules naturelles ou cliniquement avancées, peu représentatives des défis réels de conception. En rendant publique cette base de données hétérogène et à grande échelle, AWS et Johns Hopkins espèrent catalyser une nouvelle génération d'outils in silico capables de raccourcir significativement les timelines de découverte, avec des implications directes pour la réponse aux crises sanitaires futures.

UELes laboratoires pharmaceutiques et équipes de recherche européens pourront exploiter ce benchmark public pour évaluer et améliorer leurs propres modèles d'IA appliqués à la conception d'anticorps thérapeutiques.

RecherchePaper
1 source
Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique
3MarkTechPost 

Google AI propose Vantage : un protocole basé sur les LLM pour mesurer la collaboration, la créativité et la pensée critique

Des chercheurs de Google Research ont publié un article présentant Vantage, un système d'évaluation basé sur des grands modèles de langage (LLM) conçu pour mesurer trois compétences humaines longtemps considérées comme impossibles à tester à grande échelle : la collaboration, la créativité et la pensée critique. L'étude, conduite auprès de 188 participants âgés de 18 à 25 ans recrutés via la plateforme Prolific, a généré 373 transcriptions de conversations entre humains et groupes d'agents IA. Chaque session durait 30 minutes et impliquait des tâches collaboratives structurées, comme la conception d'une expérience scientifique ou un débat argumenté. Les modèles utilisés sont Gemini 2.5 Pro pour les modules de collaboration et Gemini 3 pour la créativité et la pensée critique. L'apport technique central de Vantage est ce que les chercheurs appellent l'architecture "Executive LLM" : plutôt que de faire fonctionner un agent IA distinct pour chaque participant simulé, un seul LLM orchestre tous les personnages artificiels de la conversation. Ce modèle coordinateur a accès à la rubrique d'évaluation en temps réel et s'en sert activement pour piloter les échanges vers des situations révélatrices. Si la compétence ciblée est la résolution de conflits, l'Executive LLM peut faire exprimer un désaccord par l'un de ses personnages et le maintenir jusqu'à ce que le participant humain réagisse. Les tests ont montré que cette approche surpasse significativement une configuration où des agents indépendants interagissent sans coordination : sans pilotage, les conversations peuvent se dérouler sans jamais créer les conditions nécessaires à l'évaluation d'une compétence donnée. Les scores attribués automatiquement par le système ont atteint un niveau de fiabilité comparable à celui d'experts humains formés à la notation. Ce travail s'attaque à un problème de mesure vieux de plusieurs décennies. Les tests standardisés classiques, comme le PISA 2015 sur la résolution collaborative de problèmes, ont tenté de simuler le travail en groupe via des interfaces à choix multiples avec des coéquipiers scriptés, sacrifiant l'authenticité au profit du contrôle. Les évaluations humaines réelles font l'inverse, mais ne passent pas à l'échelle. Google positionne les LLM comme la première technologie capable de satisfaire simultanément ces deux exigences contradictoires : produire des interactions conversationnelles naturelles tout en maintenant des conditions reproductibles et comparables. Les implications dépassent largement le cadre académique : cette approche pourrait transformer les recrutements en entreprise, les certifications professionnelles ou les outils pédagogiques adaptatifs. Avec des entreprises comme Google, Microsoft et OpenAI qui investissent massivement dans les agents conversationnels, Vantage illustre une nouvelle frontière où les LLM ne servent plus seulement à produire du texte, mais à modéliser et évaluer le comportement humain lui-même.

UECe système d'évaluation automatisée pourrait influencer les pratiques de recrutement et les certifications professionnelles en Europe, ainsi que les outils pédagogiques utilisés dans les systèmes éducatifs européens.

RecherchePaper
1 source
Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes
4InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source