RechercheMarkTechPost · 14 juin 2026, 23:45· 2 min de lecture

Atelier FineWeb : streaming, filtrage, déduplication, tokenisation et analyse de corpus web à grande échelle

FineWeb, le gigantesque corpus de données web publié par Hugging Face, fait l'objet d'un tutoriel technique approfondi qui guide les praticiens à travers un pipeline complet de traitement de données à grande échelle. Le jeu de données existe en plusieurs versions, dont un échantillon de 10 milliards de tokens (sample-10BT) suffisant pour l'expérimentation, et une version complète de plusieurs téraoctets inaccessible à la majorité des machines. Le tutoriel démontre comment charger 3 000 documents en streaming via la bibliothèque datasets de Hugging Face sans jamais télécharger le corpus intégral, puis inspecter les champs clés de chaque document : URL d'origine, langue détectée, score de confiance linguistique et nombre de tokens. Chaque enregistrement expose ainsi une traçabilité complète permettant d'analyser la provenance et la qualité du contenu web brut.

Ce type de travail pratique revêt une importance capitale pour quiconque cherche à comprendre comment les grands modèles de langage sont réellement entraînés. FineWeb constitue l'une des bases d'entraînement open source les plus documentées disponibles aujourd'hui, et en reproduire les mécanismes de filtrage permet aux équipes de recherche et aux entreprises d'appliquer les mêmes standards de qualité à leurs propres corpus. Le tutoriel implémente trois familles de filtres complémentaires : les heuristiques Gopher (longueur des mots, densité de symboles, présence de mots fonctionnels), les règles C4 (détection de gabarits vides, de JavaScript désactivé, de blocs CSS), et des filtres FineWeb personnalisés ciblant la redondance de lignes et les structures de type liste. La déduplication par MinHash permet ensuite d'éliminer les quasi-doublons inter-documents, un problème critique qui biaise l'apprentissage si laissé non traité. La vérification des comptes de tokens avec le tokenizer GPT-2 via la bibliothèque tiktoken clôture le pipeline de validation.

FineWeb s'inscrit dans un mouvement plus large de démocratisation des corpus d'entraînement de haute qualité, initié notamment par les travaux de Hugging Face sur The Stack et ROOTS. Avant FineWeb, reproduire les pipelines de filtrage utilisés par les laboratoires comme OpenAI ou DeepMind relevait du secret industriel ; publier non seulement les données mais aussi les métadonnées de traitement change la donne pour la recherche académique et les acteurs indépendants. Les enjeux sont doubles : d'un côté la capacité à entraîner des modèles performants sans dépendre de données propriétaires, de l'autre la question de la provenance et de la conformité légale du contenu web à grande échelle, particulièrement sensible depuis les procès intentés contre OpenAI et Meta pour utilisation non autorisée de données protégées par le droit d'auteur.

Impact France/UE

Hugging Face, entreprise française, démocratise l'accès aux pipelines d'entraînement de LLMs via FineWeb, offrant aux chercheurs et entreprises européens une alternative open source aux corpus propriétaires des grands laboratoires américains.

Dans nos dossiers

Hugging Face OpenAI Google DeepMind Meta IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Apple Machine Learning

Générer des tâches synthétiques pour agents à grande échelle grâce à l'exploration

L'entraînement post-formation des grands modèles de langage multimodaux (MLLMs) pour créer des agents interactifs ouvre des perspectives majeures dans des domaines aussi variés que l'utilisation d'ordinateurs, la navigation web et la robotique. Mais cette promesse se heurte à un obstacle concret : le manque criant de jeux de données de haute qualité pour les tâches agentiques, capables d'être à la fois diversifiées, réalisables et vérifiables. Les approches existantes pour générer ces tâches reposent soit sur l'annotation humaine, coûteuse et difficile à passer à l'échelle, soit sur le prompting direct des MLLMs avec des informations limitées sur l'environnement cible. Résultat : une couverture insuffisante et des tâches peu représentatives de la diversité réelle des cas d'usage. Ce goulot d'étranglement freine directement la montée en puissance des agents autonomes. Pour répondre à ce défi, des chercheurs présentent AutoPlay, un système scalable de génération automatique de tâches synthétiques. L'approche repose sur l'exploration de l'environnement cible pour collecter des informations contextuelles riches, permettant ainsi de produire des tâches à grande échelle sans recours massif à l'annotation humaine. Cette méthode d'exploration automatisée vise à augmenter significativement la couverture et la diversité des données d'entraînement pour les agents. Si les résultats se confirment, AutoPlay pourrait représenter une avancée structurante pour le domaine : en démocratisant la création de données d'entraînement agentiques, il permettrait d'accélérer le développement d'agents capables d'interagir de façon robuste avec des interfaces numériques complexes, réduisant ainsi la dépendance aux pipelines d'annotation humaine traditionnels.

RecherchePaper

1 source

2MarkTechPost

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper

1 source

3VentureBeat AI

Fine-tuning oublie, RAG laisse filtrer le contexte : les hyperréseaux génèrent le bon modèle à la demande

Les équipes d'entreprise observent régulièrement le même scénario : un agent IA convainc en démonstration, puis peine en production, forçant les équipes à superviser ses sorties en continu plutôt qu'à valider uniquement le résultat final. La firme Chroma a testé 18 modèles de premier plan et constaté que tous perdaient en précision à mesure que leurs entrées s'allongeaient, une limite inhérente au mécanisme d'attention, non un défaut que corrigerait un modèle plus puissant. Les entreprises disposent jusqu'ici de deux réponses à ce problème : le fine-tuning, qui intègre les connaissances directement dans les poids du modèle, et l'apprentissage en contexte (RAG), qui les insère à la volée dans le prompt. Ces deux approches ont leurs failles propres : le fine-tuning souffre de l'oubli catastrophique, un problème documenté dès les années 1980 et toujours sans solution en 2026, qui érode les connaissances existantes dès qu'on en enseigne de nouvelles. Le RAG, de son côté, voit la qualité des réponses se dégrader avec l'accumulation de tokens, et un document raté lors de la récupération produit une réponse aussi assurée qu'une réponse correcte. Une troisième voie commence à émerger : générer à la demande, au moment de l'inférence, un modèle spécialisé via un hyperréseau. L'enjeu concret pour les entreprises est considérable. Tant que les agents ne peuvent pas maintenir leur fiabilité sur des tâches longues sans injection régulière de contexte ou vérification humaine, le gain de productivité attendu reste théorique. Un agent qui nécessite qu'on vérifie chaque étape ne libère pas de bande passante, il la déplace. La promesse d'un système capable de tourner toute une nuit en autonomie et de ne soumettre qu'un résultat final à valider représente un changement de paradigme opérationnel pour les équipes traitant de gros volumes de documentation interne, de politiques changeantes ou de workflows complexes. Le concept d'hyperréseau, désigné sous ce nom dès 2016, consiste en un réseau neuronal dont la sortie est elle-même le jeu de poids d'un autre réseau. Son application à la génération de modèles de langage spécialisés à partir de documents textuels est récente et très active. Sakana AI a présenté Text-to-LoRA à l'ICML 2025 : cet outil génère un adaptateur de modèle à partir d'une description en langage naturel en une seule passe, sans réentraînement. Un système de 2026 baptisé SHINE qualifie l'adaptation par hyperréseau de "nouvelle frontière prometteuse", précisément parce qu'elle contourne à la fois le coût du fine-tuning et les limites du prompting. L'idée est de remplacer une bibliothèque croissante d'adaptateurs stockés par une génération dynamique selon les besoins, ouvrant la voie à des agents capables d'ajuster leur expertise métier en temps réel sans surcoût de gouvernance ni cycle de réentraînement.

💬 Tant qu'un agent doit être vérifié à chaque étape, il déplace la charge au lieu de la réduire : c'est le vrai frein à l'autonomie en prod, et ni le fine-tuning ni le RAG n'y répondent. Les hyperréseaux changent l'équation en générant un adaptateur spécialisé à la volée, sans cycle de réentraînement ni bibliothèque d'adaptateurs à gérer qui grossit. Reste à voir si ça tient à l'échelle, mais c'est la première piste sérieuse depuis longtemps.

RecherchePaper

1 source

4VentureBeat AI

PixelRAG surpasse les analyseurs de texte en précision et réduit de 10 fois le coût en tokens des agents IA

Une équipe de chercheurs des universités UC Berkeley, Princeton et EPFL, en collaboration avec Databricks, a publié cette semaine un article présentant PixelRAG, un système de recherche augmentée par récupération (RAG) qui abandonne complètement l'étape de conversion en texte des pages web. Plutôt que de transformer le HTML en texte brut avant de l'indexer, PixelRAG prend des captures d'écran des pages, découpe ces images en tuiles de 1 024 pixels et les encode directement dans un index vectoriel interrogeable par un modèle de langage à vision. Le système a été testé sur 30 millions de tuiles couvrant l'intégralité des 7 millions d'articles de Wikipédia, et surpasse les pipelines RAG traditionnels sur six benchmarks distincts, avec un gain de précision allant jusqu'à 18,1 % par rapport aux approches textuelles. L'enjeu est considérable pour toutes les entreprises qui déploient des agents IA sur leurs bases documentaires internes ou sur le web ouvert. Les pipelines RAG actuels échouent pour trois raisons mesurables : la conversion HTML détruit 36,6 % des réponses avant même l'indexation, les infoboxes bourrées de mots-clés écrasent les paragraphes pertinents dans 55,2 % des cas, et les 8,2 % restants sont perdus lors de la lecture finale à cause d'une mise en forme aplatie. PixelRAG contourne ces trois problèmes d'un coup en conservant la hiérarchie visuelle, les tableaux, le gras et la mise en page, que les parseurs textuels éliminent irrémédiablement. Le système réduit également les coûts en tokens des agents IA d'un facteur 10, puisque les tuiles images sont bien plus compactes que les longues chaînes de texte nettoyé qu'un parseur produit habituellement. L'architecture repose sur quatre étapes entièrement visuelles : le rendu des pages via Playwright à une largeur fixe de 875 pixels, leur découpage en tuiles stockées localement hors ligne, leur encodage en vecteurs de 2 048 dimensions grâce au modèle Qwen3-VL-Embedding-2B dans un index FAISS d'environ 120 Go, et enfin la lecture par un modèle vision-langage capable d'interpréter simultanément contenu et mise en page. Le choix de cette approche reflète une conviction plus large des auteurs : améliorer les parseurs est une course sans fin, chaque site web exigeant un traitement sur mesure, alors que les modèles de vision récents permettent désormais de traiter directement la page rendue comme le ferait un humain. Yichuan Wang, doctorant à UC Berkeley et auteur principal, résume l'ambition : construire un système de récupération universel, sans ingénierie spécifique par site, en s'appuyant sur les progrès rapides des modèles multimodaux.

UELa participation de l'EPFL à cette recherche représente une contribution européenne ; les entreprises du continent déployant des agents IA sur des bases documentaires pourront bénéficier d'une réduction de coûts en tokens si l'approche est adoptée.

💬 Arrêter d'améliorer les parseurs et passer aux screenshots directement, c'est le genre de pivot qu'on n'ose pas faire parce que ça remet tout en question. Là, Berkeley, Princeton et l'EPFL montrent que ça marche vraiment, avec 18% de gain en précision et un facteur 10 sur les tokens. Reste à voir ce que ça donne à l'échelle d'une base documentaire d'entreprise, mais sur le principe, c'est du solide.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic