Aller au contenu principal
Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique
RechercheMarkTechPost6sem· 2 min de lecture

Talkie-1930 : LLM open-weight 13B entraîné sur des textes anglais d'avant 1931 pour la recherche historique

Source originale ↗·

Une équipe de chercheurs menée par Nick Levine, David Duvenaud et Alec Radford vient de publier Talkie-1930, un modèle de langage open-weight de 13 milliards de paramètres entraîné exclusivement sur des textes anglais antérieurs à 1931. Baptisé "vintage language model", le modèle a ingéré 260 milliards de tokens issus de livres, journaux, périodiques, revues scientifiques, brevets et décisions de justice datant d'avant le 31 décembre 1930. Cette date n'est pas choisie au hasard : elle correspond au seuil d'entrée dans le domaine public aux États-Unis, rendant ces textes légalement exploitables pour l'entraînement. Deux versions sont disponibles, une base (talkie-1930-13b-base) et une version ajustée pour la conversation (talkie-1930-13b-it), avec une démo accessible en continu sur talkie-lm.com/chat, où Claude Sonnet 4.6 interroge le modèle en temps réel.

L'intérêt de Talkie ne réside pas dans la nostalgie, mais dans trois cas d'usage de recherche bien précis. D'abord, la contamination des benchmarks : tous les grands modèles modernes (GPT-4, LLaMA, Mistral) sont entraînés sur des crawls massifs du web contemporain, ce qui signifie que les jeux de test standard ont pu se retrouver dans leurs données d'entraînement, faussant les évaluations. Talkie, lui, est structurellement exempt de toute contamination vis-à-vis des benchmarks modernes. L'équipe a ainsi testé si le modèle pouvait apprendre Python, langage inexistant en 1930, à partir de quelques exemples en contexte : sur le benchmark HumanEval, il progresse de façon "lente mais régulière" avec l'échelle. Ensuite, le modèle permet d'étudier les capacités de prévision temporelle, en mesurant à quel point des événements historiques post-1930 le surprennent (en bits par byte) : les événements des années 1950 et 1960 sont ceux qui le déroute le plus, puis l'effet se stabilise. Enfin, le projet pose des questions fondamentales sur l'"identité" des LLM : tous les modèles actuels partagent une ascendance commune dans les données web, alors que Talkie rompt entièrement cette lignée.

Ce projet s'inscrit dans un mouvement plus large de critique des méthodes d'évaluation en IA. La contamination des benchmarks est depuis plusieurs années un problème reconnu mais difficile à circonscrire, et les tentatives de créer des jeux de test inédits se heurtent toujours à la possibilité que les données aient filtré. L'approche "vintage" ouvre une voie alternative : ancrer le modèle dans un passé documenté et figé, ce qui transforme toute l'histoire moderne en terrain d'évaluation propre. Développé par une équipe à but non lucratif, Talkie-1930 pourrait devenir un outil de référence pour les chercheurs souhaitant tester la généralisation hors distribution, la robustesse des architectures Transformer, ou encore l'influence des données d'entraînement sur les comportements émergents des modèles.

Impact France/UE

Les chercheurs européens travaillant sur l'évaluation des LLMs et la contamination des benchmarks peuvent utiliser Talkie-1930 comme outil de référence, sans impact institutionnel direct sur la France ou l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes
1VentureBeat AI 

Des chercheurs ont entraîné un agent de recherche IA open source, Harness-1, qui surpasse GPT-4.5 dans le rappel d'informations pertinentes

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'UC Berkeley et de la plateforme de bases de données vectorielles Chroma ont présenté Harness-1, un agent de recherche open source de 20 milliards de paramètres, construit sur le modèle gpt-oss-20B d'OpenAI. Évalué sur huit benchmarks complexes couvrant des recherches web ouvertes, des rapports financiers déposés auprès de la SEC, des bases de données de brevets de l'USPTO et des tâches de raisonnement multi-sources, Harness-1 atteint un score moyen de 73% en rappel d'informations pertinentes. Il devance ainsi GPT-5.4 (70,9%) et le meilleur concurrent open source, Tongyi DeepResearch 30B, de 11,4 points de pourcentage. Seul Opus-4.6 parvient à le surpasser légèrement en performance globale. Le modèle est disponible immédiatement sous licence Apache 2.0, avec les poids publiés sur Hugging Face. Sa formation a été réalisée via Tinker, une API d'entraînement distribuée développée par Thinking Machines. Ce résultat compte pour l'industrie parce qu'il invalide une hypothèse répandue: celle selon laquelle la performance sur des tâches de recherche complexe dépend avant tout de la taille du modèle. Harness-1, avec ses 20 milliards de paramètres, surpasse des systèmes propriétaires supposés atteindre des centaines de milliards voire des milliers de milliards de paramètres, comme GPT-5.4, Sonnet-4.6 ou Kimi-K2.5. Pour les entreprises qui doivent faire analyser de manière autonome des milliers de documents internes, de dossiers financiers ou de contrats, c'est une ouverture concrète: un modèle open source, modifiable et déployable sans coût de licence, capable de tenir la comparaison avec les solutions fermées les plus avancées du marché. La clé de cette performance réside dans une architecture qui rompt avec l'approche dominante. Jusqu'ici, les agents de recherche souffraient d'une forme d'"amnésie" au cours de sessions longues: ils oubliaient leurs requêtes initiales, retournaient sur des documents déjà rejetés ou perdaient le fil des affirmations à vérifier. La solution habituelle consistait à forcer les modèles à relire en permanence une transcription croissante de toutes leurs actions, alourdissant la fenêtre de contexte à chaque étape. Harness-1 externalise cette gestion d'état vers un environnement logiciel structuré, libérant la mémoire de travail du modèle pour le raisonnement pur. Ce principe rejoint ce qu'Anthropic a démontré avec Claude Code: ce qui détermine la performance d'un agent autonome n'est pas seulement le modèle brut, mais la qualité de l'environnement dans lequel il opère.

UELes entreprises européennes traitant des volumes importants de documents (contrats, rapports financiers, brevets) peuvent désormais déployer un agent de recherche open source compétitif sans contraintes de licence, réduisant leur dépendance aux solutions propriétaires américaines.

💬 20 milliards de paramètres qui coiffent GPT-4.5 sur des benchmarks de recherche complexe, ça remet à plat l'idée que la taille fait tout. La vraie astuce, c'est l'externalisation de l'état: fini l'agent qui se perd dans son propre historique à mi-session, un environnement structuré gère la mémoire en dehors du modèle, et le raisonnement a enfin de l'air. Apache 2.0, poids sur HuggingFace, je vois les premiers POC d'ici un mois.

RecherchePaper
1 source
Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b
2MarkTechPost 

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign, de l'UC Berkeley et de la startup Chroma ont publié Harness-1, un agent de recherche documentaire de 20 milliards de paramètres construit sur le modèle gpt-oss-20b et entraîné par apprentissage par renforcement. Sa particularité : contrairement aux agents de recherche classiques où le modèle gère simultanément les décisions de recherche et la mémoire de session, Harness-1 opère à l'intérieur d'un "harnais" logiciel à état qui prend en charge toute la comptabilité interne. Le modèle ne répond pas directement aux questions : il produit un ensemble classé de documents pertinents pour un modèle de réponse en aval. Les poids et le code source sont publiés en accès libre. L'entraînement supervisé a utilisé 899 trajectoires générées par GPT-5.4, avec affinage par renforcement via la méthode CISPO, sur des requêtes financières issues de la SEC, avec une limite de 40 tours par épisode, sur un cluster de calcul baptisé Tinker. Le coeur de l'approche repose sur un principe que les chercheurs appellent "décharge cognitive à état" : au lieu de demander au modèle de tout mémoriser et décider en même temps, le harnais maintient un pool de documents compressés et dédupliqués, un ensemble curé de 30 documents maximum tagués par importance (veryhigh, high, fair, low), un graphe de preuves et un extracteur d'entités nommées. Le modèle dispose de huit outils distincts (fanoutsearch, searchcorpus, grepcorpus, readdocument, reviewdocs, curate, verify, endsearch) et émet une action structurée par tour, que le harnais exécute avant de rendre la prochaine observation. Cette séparation des responsabilités permet à l'apprentissage par renforcement de se concentrer uniquement sur les décisions sémantiques. Un bonus de diversité d'outils s'est révélé critique : sans lui, l'agent s'effondrait en boucles de recherches répétitives et le rappel curé plafonnait à 0,53 ; avec le bonus, il atteint 0,60. Harness-1 s'inscrit dans une tendance de fond visant à rendre les agents de recherche plus fiables sur des tâches complexes et multi-sources. Évalué sur huit benchmarks couvrant le web, la finance, les brevets et le raisonnement multi-saut, il affiche un rappel curé moyen de 0,730, un résultat notable pour un modèle open source de cette taille face à des systèmes propriétaires bien plus grands. L'enjeu est significatif car les architectures RAG (retrieval-augmented generation) sont au coeur de nombreux systèmes d'IA en production, notamment en entreprise. La publication ouverte des poids et du harnais ouvre la voie à des adaptations dans des domaines où la précision documentaire est critique, comme le droit, la médecine ou la veille scientifique. Les prochaines étapes naturelles incluent l'extension à d'autres corpus et l'intégration à des pipelines de réponse complets.

UELes entreprises et institutions européennes travaillant sur des systèmes RAG en droit, médecine ou veille scientifique peuvent s'appuyer sur les poids ouverts de Harness-1 pour des adaptations sectorielles à faible coût.

💬 Le principe de "décharge cognitive à état" m'a vraiment accroché : au lieu de demander au modèle de tout jongler simultanément, on externalise la comptabilité dans un harnais, et le RL peut enfin se concentrer sur les décisions qui comptent. Ce qui le prouve, c'est le bonus de diversité d'outils, sans lequel l'agent s'effondre en boucles répétitives et le rappel plafonne à 0,53 au lieu de 0,60. Les poids sont ouverts et les benchmarks sont solides : pour du RAG en médecine ou en droit, ça vaut le détour.

RecherchePaper
1 source
Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)
3Ahead of AI 

Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)

Un chercheur et auteur spécialisé dans l'IA a publié sa liste de référence des articles de recherche sur les grands modèles de langage pour la période de janvier à mai 2026, dans la continuité d'un exercice similaire mené tout au long de 2025. La sélection, organisée en dix catégories, couvre l'architecture et la conception des modèles, l'entraînement efficace, l'inférence et le cache KV, l'attention sparse et les longs contextes, le raisonnement et le calcul au moment du test, l'apprentissage par renforcement (RLVR), les systèmes d'agents et l'utilisation d'outils, les agents de codage, les modèles de langage par diffusion, ainsi que l'évaluation et les benchmarks. Parmi les publications phares, Nemotron 3 Super de NVIDIA est cité comme lecture incontournable : ce modèle de 120 milliards de paramètres actifs (architecture 120B-A12B) adopte un design hybride alternant couches d'attention classiques et couches Mamba-2, ce qui le rend particulièrement efficace sur les très longs contextes. Une version allégée, Nemotron 3 Nano (4 milliards de paramètres), est également disponible pour l'inférence locale sur du matériel grand public. Ce recensement illustre une tendance lourde de 2026 : la recherche en LLM ne se limite plus à empiler davantage de paramètres dans des architectures transformer classiques. Les travaux se concentrent désormais sur l'efficacité à l'inférence, la gestion des longs contextes et l'intégration dans des systèmes agentiques complexes. L'émergence de harnais d'agents comme OpenClaw force les modèles à traiter des contextes de plus en plus étendus, ce qui fait de l'efficacité mémoire et de la vitesse d'inférence des priorités absolues pour les équipes de recherche comme pour les équipes produit. Pour les développeurs et les entreprises qui déploient ces modèles en production, ces publications constituent une feuille de route pratique des techniques qui passent du laboratoire au monde réel. La publication de telles listes annotées répond à un besoin concret dans un domaine où des dizaines d'articles paraissent chaque jour sur arXiv. En 2025, les préoccupations dominantes portaient sur les modèles de raisonnement et le reinforcement learning ; en 2026, elles s'élargissent aux architectures hybrides (Arcee Trinity, Mamba-3), à l'allocation de capacité dans les modèles mixture-of-experts, aux modèles de langage par diffusion et à l'infrastructure de déploiement à grande échelle. Ce glissement reflète la maturité croissante du secteur, qui passe de la course pure aux performances à la maîtrise des coûts opérationnels et à la fiabilité des systèmes en production. La deuxième moitié de 2026 devrait voir une accélération sur les agents autonomes et les architectures hybrides, deux axes qui concentrent actuellement l'essentiel de l'attention de la communauté de recherche.

💬 Ce genre de synthèse annotée, ça mérite d'être bookmarqué tout de suite. Le vrai signal de 2026, c'est le glissement : on ne court plus après les paramètres bruts, on court après l'efficacité mémoire et l'inférence rapide, ce qui est exactement ce que les déploiements en prod réclamaient depuis deux ans. Nemotron 3 avec son hybride Mamba-2, c'est le genre de truc qu'on surveillait depuis un moment.

RecherchePaper
1 source
Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes
4MarkTechPost 

Nous Research propose Lighthouse Attention : une attention hiérarchique par sélection qui accélère le pré-entraînement de 1,4 à 1,7× sur les longs contextes

Des chercheurs du laboratoire Nous Research ont publié le 12 mai 2026 une méthode baptisée Lighthouse Attention, conçue pour accélérer l'entraînement des grands modèles de langage sur de longues séquences de texte. Testée contre une base de référence cuDNN, elle atteint un gain de vitesse de 1,40 à 1,69 fois en temps réel d'horloge, tout en maintenant une perte d'entraînement finale équivalente ou inférieure. Le mécanisme repose sur un pipeline en quatre étapes : construction d'une pyramide multi-niveaux à partir des projections Q, K et V par pooling moyen, attribution de scores scalaires à chaque entrée via des normes ℓ₂ par tête d'attention, sélection des k entrées les plus pertinentes sur l'ensemble des niveaux de la pyramide, puis exécution du FlashAttention standard sur le sous-ensemble ainsi sélectionné. Toute la sélection s'opère en dehors du kernel d'attention, ce qui permet de réutiliser les implémentations optimisées existantes sans modification. L'enjeu central est économique et technique : l'attention standard scale quadratiquement en Θ(N²) avec la longueur de séquence N, ce qui rend l'entraînement sur de longs contextes extrêmement coûteux en calcul et en mémoire. FlashAttention avait résolu le problème mémoire via un découpage intelligent, mais le coût de calcul restait quadratique. Lighthouse s'attaque directement à ce calcul en réduisant le nombre de paires (Q, K) effectivement traitées, sans sacrifier la qualité du modèle produit. Contrairement aux méthodes d'attention sparse conçues pour l'inférence, Lighthouse s'évalue sur un critère plus exigeant : les poids issus de l'entraînement sparse doivent rester pleinement compatibles avec une inférence en attention dense classique. Ce critère est satisfait, ce qui en fait une méthode applicable directement au pré-entraînement de modèles de production. L'approche de Nous Research se distingue des travaux antérieurs comme NSA, HISA, DSA ou MoBA sur deux points structurels. D'abord, ces méthodes compressent asymétriquement : elles appliquent le pooling uniquement sur les clés et valeurs, laissant les requêtes à pleine résolution. Lighthouse applique le pooling de façon symétrique aux trois projections Q, K et V, produisant des triplets cohérents à chaque niveau de la pyramide. Ensuite, leurs logiques de sélection s'intègrent à l'intérieur même du kernel d'attention, ce qui empêche de réutiliser les kernels denses hautement optimisés pour les GPU modernes. Le top-K utilisé par Lighthouse est délibérément non différentiable, aucun estimateur straight-through, aucun Gumbel softmax, et les gradients ne traversent que les entrées Q, K, V sélectionnées, pas les indices de sélection. Un mécanisme de top-K stratifié par chunks évite en outre l'effondrement de l'attention sur un intervalle étroit, garantissant une couverture équilibrée sur toute la séquence. À mesure que la course aux contextes longs s'intensifie dans l'industrie, des méthodes comme Lighthouse pourraient devenir un composant standard du pré-entraînement.

💬 1,4× à 1,7× sur le pré-entraînement long contexte, c'est le genre de gain qu'on attendait depuis que l'attention quadratique commence vraiment à faire mal au budget. Ce que j'aime, c'est que tu entraînes sparse et tu sers en attention dense classique sans rien modifier à l'archi, donc c'est utilisable directement en prod. Nous Research n'est pas DeepMind, et pourtant ce papier est propre.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic