Extraction PDF vers JSON structuré : guide des modèles open source en 2026
Les modèles ouverts pour transformer les PDF en JSON structuré se multiplient en ce début d'année, avec deux familles d'outils distinctes. Datalab, l'équipe derrière Marker et Surya, a lancé lift, un modèle de vision de 9 milliards de paramètres construit sur Qwen 3.5, capable de remplir un schéma JSON fourni par l'utilisateur grâce à un décodage contraint qui garantit une sortie valide. Sur un benchmark maison de 225 documents, lift atteint 90,2% de précision par champ avec une latence médiane de 9,5 secondes, devançant NuExtract3 (81,5%) et Qwen3.5-9B (76,3%), mais restant derrière Gemini Flash 3.5 (91,3%) et l'API hébergée de Datalab (95,9%). La précision sur un document entier reste toutefois faible, à 20,9% pour lift. De son côté, NuMind propose NuExtract 3, un modèle vision-langage de 4 milliards de paramètres qui combine extraction structurée et extraction de contenu (OCR vers Markdown) au sein d'un même outil, entraîné par renforcement pour ajouter un raisonnement spécifique à l'extraction, activable à la demande. Enfin, Docling, projet né chez IBM Research et désormais hébergé par la LF AI & Data Foundation, s'attaque à un autre problème : reconstruire la mise en page complète d'un document (PDF, DOCX, PPTX, XLSX, HTML, images) en JSON, Markdown, HTML ou DocTags, via sa représentation interne DoclingDocument.
Cette distinction entre extraction guidée par schéma et analyse complète de document compte parce que la plupart des données d'entreprise restent aujourd'hui prisonnières de PDF, de scans et de présentations, inutilisables telles quelles par les modèles de langage et les agents. Choisir la mauvaise catégorie d'outil fait perdre un temps considérable : l'extraction par schéma convient aux factures, formulaires et contrats où les champs sont connus à l'avance, tandis que l'analyse de document sert à préparer des corpus propres pour la génération augmentée par récupération (RAG) et les agents. L'argument économique est tout aussi concret : les API propriétaires peuvent coûter plusieurs milliers de dollars par million de pages traitées et imposent d'envoyer les documents hors des infrastructures internes, alors que les modèles locaux suppriment ces deux contraintes de coût et de confidentialité.
Cette vague d'outils s'inscrit dans une tendance plus large de rapprochement entre les performances des modèles ouverts et celles des API commerciales fermées, en particulier chez les acteurs spécialisés dans l'extraction de documents comme Datalab et NuMind. Les licences restent toutefois un point de vigilance : le code de lift est publié sous Apache-2.0, mais ses poids utilisent une licence OpenRAIL-M modifiée, gratuite pour la recherche, l'usage personnel et les startups générant moins de 5 millions de dollars de financement ou de revenus, mais soumise à licence payante pour un déploiement commercial en interne, sans possibilité de concurrencer l'API de Datalab elle-même. Pour les équipes techniques qui bâtissent des pipelines documentaires, la question n'est donc plus seulement technique mais aussi contractuelle, à mesure que ces modèles ouverts gagnent en maturité.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




