Aller au contenu principal
OutilsMarkTechPost3h· 2 min de lecture

Extraction PDF vers JSON structuré : guide des modèles open source en 2026

Source originale ↗·

Les modèles ouverts pour transformer les PDF en JSON structuré se multiplient en ce début d'année, avec deux familles d'outils distinctes. Datalab, l'équipe derrière Marker et Surya, a lancé lift, un modèle de vision de 9 milliards de paramètres construit sur Qwen 3.5, capable de remplir un schéma JSON fourni par l'utilisateur grâce à un décodage contraint qui garantit une sortie valide. Sur un benchmark maison de 225 documents, lift atteint 90,2% de précision par champ avec une latence médiane de 9,5 secondes, devançant NuExtract3 (81,5%) et Qwen3.5-9B (76,3%), mais restant derrière Gemini Flash 3.5 (91,3%) et l'API hébergée de Datalab (95,9%). La précision sur un document entier reste toutefois faible, à 20,9% pour lift. De son côté, NuMind propose NuExtract 3, un modèle vision-langage de 4 milliards de paramètres qui combine extraction structurée et extraction de contenu (OCR vers Markdown) au sein d'un même outil, entraîné par renforcement pour ajouter un raisonnement spécifique à l'extraction, activable à la demande. Enfin, Docling, projet né chez IBM Research et désormais hébergé par la LF AI & Data Foundation, s'attaque à un autre problème : reconstruire la mise en page complète d'un document (PDF, DOCX, PPTX, XLSX, HTML, images) en JSON, Markdown, HTML ou DocTags, via sa représentation interne DoclingDocument.

Cette distinction entre extraction guidée par schéma et analyse complète de document compte parce que la plupart des données d'entreprise restent aujourd'hui prisonnières de PDF, de scans et de présentations, inutilisables telles quelles par les modèles de langage et les agents. Choisir la mauvaise catégorie d'outil fait perdre un temps considérable : l'extraction par schéma convient aux factures, formulaires et contrats où les champs sont connus à l'avance, tandis que l'analyse de document sert à préparer des corpus propres pour la génération augmentée par récupération (RAG) et les agents. L'argument économique est tout aussi concret : les API propriétaires peuvent coûter plusieurs milliers de dollars par million de pages traitées et imposent d'envoyer les documents hors des infrastructures internes, alors que les modèles locaux suppriment ces deux contraintes de coût et de confidentialité.

Cette vague d'outils s'inscrit dans une tendance plus large de rapprochement entre les performances des modèles ouverts et celles des API commerciales fermées, en particulier chez les acteurs spécialisés dans l'extraction de documents comme Datalab et NuMind. Les licences restent toutefois un point de vigilance : le code de lift est publié sous Apache-2.0, mais ses poids utilisent une licence OpenRAIL-M modifiée, gratuite pour la recherche, l'usage personnel et les startups générant moins de 5 millions de dollars de financement ou de revenus, mais soumise à licence payante pour un déploiement commercial en interne, sans possibilité de concurrencer l'API de Datalab elle-même. Pour les équipes techniques qui bâtissent des pipelines documentaires, la question n'est donc plus seulement technique mais aussi contractuelle, à mesure que ces modèles ouverts gagnent en maturité.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise
1VentureBeat AI 

OpenAI lance Privacy Filter, un modèle open source de suppression des données personnelles dans les jeux de données d'entreprise

OpenAI a publié Privacy Filter, un modèle open source spécialisé dans la détection et la suppression des informations personnelles identifiables (PII) avant qu'elles n'atteignent un serveur distant. Disponible sur Hugging Face sous licence Apache 2.0, cet outil repose sur 1,5 milliard de paramètres mais n'en active que 50 millions à chaque traitement, grâce à une architecture Sparse Mixture-of-Experts qui réduit considérablement la charge de calcul. Contrairement aux grands modèles de langage classiques qui lisent un texte de gauche à droite, Privacy Filter est un classificateur bidirectionnel de tokens : il analyse chaque phrase dans les deux sens simultanément, ce qui lui permet de mieux distinguer, par exemple, si le prénom "Alice" désigne une personne privée ou un personnage littéraire public. Le modèle gère une fenêtre de contexte de 128 000 tokens, suffisante pour traiter un document juridique entier en une seule passe, et s'appuie sur un décodeur de Viterbi contraint avec un schéma de balisage BIOES pour garantir la cohérence des entités redactées. Il détecte huit catégories de données sensibles : noms de personnes, coordonnées, identifiants numériques, URLs, numéros de compte, dates et identifiants secrets comme les clés API. L'enjeu concret est considérable pour les entreprises soumises au RGPD ou à la réglementation HIPAA dans le secteur de la santé. En déployant Privacy Filter directement sur leurs serveurs internes ou dans leur cloud privé, elles peuvent anonymiser les données localement avant de les envoyer vers un modèle plus puissant comme GPT-5 ou gpt-oss-120b, sans jamais exposer d'informations sensibles à l'extérieur. Ce modèle résout un problème structurel de l'adoption de l'IA en entreprise : le risque que des données confidentielles, médicales ou financières se retrouvent intégrées dans des pipelines d'inférence ou de fine-tuning hébergés dans le cloud. La possibilité de faire tourner le modèle sur un laptop standard ou directement dans un navigateur web abaisse encore davantage la barrière d'entrée. Cette publication s'inscrit dans un retour marqué d'OpenAI vers l'open source, après des années centrées sur des modèles propriétaires accessibles uniquement via ChatGPT et l'API. Début 2025, l'entreprise avait déjà lancé la famille gpt-oss, des modèles à poids ouverts orientés raisonnement, puis ouvert plusieurs outils d'orchestration agentique. Privacy Filter est un dérivé direct de cette famille gpt-oss, réentraîné pour la classification plutôt que la génération. Ce virage stratégique suggère qu'OpenAI cherche à consolider sa position dans l'écosystème développeur face à la concurrence de Meta (LLaMA), Mistral et Google, en proposant des briques d'infrastructure que les entreprises peuvent intégrer sans dépendance à ses services payants. La prochaine étape logique serait l'extension des catégories PII supportées et l'intégration native dans les frameworks agentiques déjà publiés.

UELes entreprises françaises et européennes soumises au RGPD peuvent déployer Privacy Filter en local pour anonymiser leurs données sensibles avant tout envoi vers un service cloud, réduisant directement leur risque de non-conformité réglementaire.

💬 C'est exactement le verrou qui bloquait l'adoption en entreprise depuis deux ans. Un modèle léger, déployable en local, qui filtre les données personnelles avant d'envoyer vers le cloud : sur le papier, c'est le genre de brique qu'on attendait. Et distribuer ça sous Apache 2.0, c'est malin : si ton pipeline s'appuie sur leurs outils gratuits, tu vas finir par appeler leurs modèles payants derrière.

OutilsOutil
1 source
OpenAI lance Privacy Filter, un modèle open source d'anonymisation des données personnelles
2MarkTechPost 

OpenAI lance Privacy Filter, un modèle open source d'anonymisation des données personnelles

OpenAI a discrètement publié sur Hugging Face un modèle open source baptisé Privacy Filter, sous licence Apache 2.0, conçu spécifiquement pour détecter et supprimer automatiquement les données personnelles (PII) dans des textes. Le modèle est suffisamment léger pour tourner directement dans un navigateur web ou sur un ordinateur portable, tout en étant assez rapide pour des pipelines de traitement à haut débit. Il reconnaît huit catégories de données sensibles : numéros de compte, adresses privées, e-mails, noms de personnes, numéros de téléphone, URLs, dates privées et secrets. Cette dernière catégorie couvre les tokens d'authentification, les mots de passe et les chaînes à haute entropie. OpenAI reconnaît dans la fiche du modèle deux limites connues : la détection manquée de formats de credentials inédits et de secrets fragmentés sur plusieurs tokens. Ce qui rend Privacy Filter techniquement remarquable, c'est l'écart entre ses 1,5 milliard de paramètres totaux et ses seulement 50 millions de paramètres actifs à l'inférence, soit un rapport de 1 à 30. Cet écart s'explique par une architecture sparse mixture-of-experts (MoE) : pour chaque token traité, seuls 4 experts parmi 128 sont activés, les autres restant dormants. Le modèle repose sur 8 blocs transformer avec un residual stream de largeur 640, une attention groupée (GQA) avec embeddings positionnels rotatifs (RoPE), et bénéficie d'une fenêtre de contexte de 128 000 tokens. Son entraînement s'est déroulé en trois phases distinctes : préentraînement autorégressif classique style GPT, puis conversion architecturale avec remplacement de la tête de prédiction par une tête de classification et activation d'une attention bidirectionnelle (fenêtre locale de 257 tokens), et enfin fine-tuning supervisé sur des données PII étiquetées. La publication de Privacy Filter intervient dans un contexte où les équipes techniques cherchent à intégrer des outils d'IA dans leurs pipelines de données sans envoyer d'informations sensibles vers des APIs tierces. Ce modèle s'inscrit directement dans cette tendance des outils IA déployables en local, sur du matériel standard, sans dépendance cloud. Pour les organisations soumises au RGPD ou à des contraintes de conformité strictes, la capacité à nettoyer automatiquement des logs, des datasets ou du contenu utilisateur avant stockage représente un gain opérationnel concret. OpenAI positionne ainsi Privacy Filter comme une brique d'infrastructure réutilisable, et son architecture MoE issue de la même famille que gpt-oss laisse entrevoir une stratégie de réutilisation de checkpoints préentraînés pour des tâches spécialisées, une approche plus économique que de repartir de zéro pour chaque cas d'usage.

UELes équipes techniques soumises au RGPD disposent d'un outil local gratuit pour anonymiser automatiquement les données personnelles sans les envoyer vers des APIs tierces.

OutilsOutil
1 source
Modèle de sélection simplifié dans Amazon Bedrock grâce au Model Profiler open source
3AWS ML Blog 

Modèle de sélection simplifié dans Amazon Bedrock grâce au Model Profiler open source

Amazon vient de rendre open source le Model Profiler, un outil qui centralise la comparaison des modèles disponibles sur Amazon Bedrock, sa plateforme de génération de texte gérée. Bedrock donne accès à plus de 100 modèles fondation de fournisseurs comme Anthropic, OpenAI, Meta, Mistral AI, Cohere et Amazon lui-même, mais comparer leurs capacités, tarifs, disponibilité régionale, taille de fenêtre de contexte et débit obligeait jusqu'ici à naviguer entre plusieurs pages de console, documentations et appels API régionaux distincts. Le Model Profiler agrège ces données dans une interface web unique, avec filtrage avancé, comparaisons côte à côte et fiches détaillées par modèle. En coulisses, un pipeline serverless entièrement automatisé collecte les informations depuis sept sources différentes, cinq API AWS et deux URL publiques, incluant les spécifications des modèles Bedrock, les tarifs on-demand et batch, les quotas de débit (tokens par minute et requêtes par minute) sur 33 régions, les profils d'inférence cross-région, ainsi que les tailles de fenêtre de contexte via la base LiteLLM et le statut de cycle de vie via la documentation AWS. Le pipeline repose sur AWS Step Functions et orchestre 17 fonctions Lambda réparties en quatre phases, avec un système de cache S3 inter-Lambda qui réduit le nombre d'appels API d'environ 480 à 29 par exécution, soit un taux de succès de cache de 97%. L'ensemble tourne quotidiennement à 6h UTC et se termine en 8 à 12 minutes. Pour les équipes qui évaluent des modèles pour de nouveaux projets, cherchent à optimiser coûts et performances, ou migrent depuis d'autres systèmes d'IA, cet outil supprime une friction concrète: le temps perdu à croiser manuellement des documents épars pour prendre une décision éclairée. Comprendre les quotas est central dans ce choix. Le débit en tokens par minute (TPM) fixe le plafond de traitement, sachant que 1 000 tokens représentent environ 750 mots de texte, tandis que le nombre de requêtes par minute (RPM) limite les appels API indépendamment de leur taille, ces deux quotas variant selon le modèle et la région choisie. En rendant ces informations accessibles et à jour quotidiennement dans une seule interface, l'outil accélère la phase d'expérimentation et raccourcit le délai avant la mise en production. Cette initiative s'inscrit dans une tendance plus large où les grands fournisseurs cloud cherchent à simplifier l'accès à des catalogues de modèles de plus en plus vastes et fragmentés en termes de tarification, de régions et de capacités techniques. Amazon mise ici sur l'open source et sur une architecture serverless réutilisable, déployable en moins de cinq minutes via un template AWS CloudFormation, dont la fréquence de mise à jour est configurable par une règle Amazon EventBridge. Le projet embarque également un système agentique d'auto-réparation, propulsé par Bedrock, capable de détecter des lacunes dans les données collectées et d'appliquer automatiquement des correctifs de configuration jugés sûrs. À mesure que le nombre de modèles disponibles sur Bedrock continue de croître, cet outil pourrait devenir une référence pour les équipes techniques cherchant à arbitrer rapidement entre coût, performance et couverture géographique sans dépendre exclusivement des interfaces officielles d'AWS.

UELes entreprises europeennes utilisant Amazon Bedrock, disponible dans plusieurs regions UE, beneficient indirectement de cet outil de comparaison, mais aucune mesure ou entite francaise n'est concernee specifiquement.

OutilsOutil
1 source
Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire
4The Decoder 

Un nouveau modèle vocal open source écoute en continu et décide toutes les 0,4 secondes de parler ou de se taire

Un nouveau modèle vocal open source baptisé Audio Interaction vient d'être publié avec ses poids, son code source et ses instructions de déploiement sur GitHub, sous licence Apache 2.0. Sa particularité technique est de prendre une décision toutes les 0,4 secondes : parler ou se taire. Contrairement à la plupart des assistants vocaux actuels, il n'attend pas la fin d'un enregistrement pour répondre, mais écoute en continu un flux audio pour transcrire, traduire, converser et détecter des sons du quotidien comme une toux. Les données d'entraînement seront publiées séparément dans un second temps. Cette approche représente un changement de paradigme pour les interfaces vocales. Les modèles comme GPT-4o ou Qwen3.5-Omni fonctionnent encore en mode tour par tour : ils attendent que l'utilisateur finisse de parler avant de traiter la demande. Audio Interaction brise cette contrainte en analysant le flux sonore en temps réel, ce qui ouvre la voie à des interactions bien plus naturelles, notamment pour les assistants embarqués, les outils d'accessibilité ou les applications de traduction simultanée. La licence Apache 2.0 le rend immédiatement utilisable par des développeurs et des entreprises sans restriction commerciale. Le modèle s'inscrit dans une course intense autour de l'audio nativement multimodal, accélérée par la présentation de GPT-4o en mai 2024. L'ouverture complète de la chaîne, des poids aux données, reste encore rare dans ce domaine dominé par des solutions propriétaires, et pourrait stimuler une vague de recherche indépendante sur les modèles vocaux en temps réel. La publication imminente des données d'entraînement permettra à la communauté de reproduire et d'affiner les résultats de manière transparente.

UELes développeurs et entreprises européens peuvent adopter librement ce modèle vocal sous licence Apache 2.0 pour intégrer des interfaces vocales temps réel dans leurs applications, sans restriction commerciale.

💬 0,4 secondes pour décider de parler ou se taire, c'est le détail qui change tout. Le mode tour par tour des assistants actuels casse l'illusion à chaque échange, et là on a enfin une alternative ouverte avec les poids, le code, et une Apache 2.0 qui ne bloque personne. Les données d'entraînement arrivent "dans un second temps", bon, j'attends de voir si c'est complet.

OutilsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic