Aller au contenu principal
Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)
OutilsMarkTechPost12sem· 2 min de lecture

Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)

Source originale ↗·

Zhipu AI et l'université Tsinghua présentent GLM-OCR, un modèle multimodal compact de 0,9 milliard de paramètres conçu pour la reconnaissance de documents complexes et l'extraction d'informations structurées. Face aux limites des systèmes OCR traditionnels — efficaces sur du texte simple mais en difficulté dès qu'apparaissent tableaux, formules mathématiques, blocs de code ou sceaux — ce modèle propose une alternative légère aux grands modèles de vision-langage, trop coûteux pour un déploiement en production ou en environnement edge.

L'enjeu dépasse la simple reconnaissance de caractères : dans l'industrie, les documents réels mêlent mises en page complexes, données structurées et champs à extraire automatiquement. Les grands modèles multimodaux actuels améliorent la compréhension documentaire, mais leur taille et leur mode de décodage autorégressif classique les rendent prohibitifs à grande échelle. GLM-OCR s'impose donc comme une réponse d'ingénierie pragmatique, pensée dès le départ pour des contraintes de déploiement réelles plutôt qu'adaptée à l'OCR en second plan.

Architecturalement, le modèle combine un encodeur visuel CogViT de 0,4 milliard de paramètres, un connecteur cross-modal léger et un décodeur de langage GLM de 0,5 milliard de paramètres. Sa principale innovation technique est l'adoption de la prédiction multi-tokens (MTP) : au lieu de prédire un token à la fois, le modèle est entraîné à en prédire 10 par étape, et génère en pratique 5,2 tokens par étape à l'inférence, soit un gain de débit d'environ 50%. Le pipeline repose sur deux étages distincts : une analyse de mise en page via PP-DocLayout-V3, puis une reconnaissance parallèle des régions détectées. Pour le parsing, les sorties sont en Markdown ou JSON ; pour l'extraction d'informations clés (KIE), l'image complète est soumise au modèle avec un prompt de tâche, produisant directement un JSON structuré.

L'entraînement suit quatre étapes successives, allant du préentraînement vision-langage jusqu'à un affinage par apprentissage par renforcement via GRPO. Les récompenses sont adaptées à chaque sous-tâche : distance d'édition normalisée pour la reconnaissance de texte, score CDM pour les formules, score TEDS pour les tableaux, et F1 au niveau des champs pour la KIE. Cette approche modulaire et spécialisée distingue GLM-OCR des modèles généralistes et le positionne comme un outil de production sérieux pour les entreprises traitant de grands volumes de documents.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction
1MarkTechPost 

IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction

IBM a déployé Granite 4.0 1B Speech, un modèle linguistique de reconnaissance vocale compact conçu pour la reconnaissance automatique du discours multilingue (ASR) et la traduction automatique du discours bidirectionnel (AST). Ce modèle réduit la taille tout en maintenant les capacités attendues d'un système de traitement du langage moderne, avec la moitié des paramètres de son prédécesseur. Il inclut maintenant l'ASR japonais, un biais pour les mots-clés et une précision accrue dans la transcription anglaise. Le modèle est optimisé pour les déploiements d'entreprise et edge, en mettant l'accent sur la taille mémoire, le temps de latence et l'efficacité computationnelle. Il est disponible sous licence Apache 2.0 pour faciliter l'adoption ouverte. Granite 4.0 1B Speech a obtenu un classement #1 sur le tableau OpenASR avec une moyenne de WER de 5.52 et un RTFx de 280.02.

UELes entreprises européennes peuvent adopter ce modèle open-source (Apache 2.0) pour déployer de la reconnaissance vocale multilingue en local, sans dépendance cloud, ce qui facilite la conformité RGPD.

OutilsActu
1 source
Automatiser la génération de schémas pour le traitement intelligent de documents
2AWS ML Blog 

Automatiser la génération de schémas pour le traitement intelligent de documents

Amazon Web Services vient d'enrichir son IDP Accelerator, solution open-source et serverless dédiée au traitement automatisé de documents, d'une nouvelle fonctionnalité baptisée "multi-document discovery". Jusqu'ici, exploiter le traitement intelligent de documents (IDP) exigeait de constituer manuellement un schéma de configuration pour chaque type de document à analyser : définir les classes, identifier des exemples représentatifs, spécifier les champs à extraire. Une contrainte rédhibitoire dès lors qu'une organisation se retrouve avec des milliers de documents non étiquetés et aucune visibilité sur les catégories qui les composent. La nouvelle fonctionnalité répond directement à ce problème : elle analyse une collection de documents inconnus, les regroupe automatiquement par type, puis génère les schémas de configuration prêts à l'emploi. Le pipeline repose sur AWS Step Functions pour l'orchestration, AWS Lambda pour le calcul serverless, Amazon S3 pour le stockage, et les modèles disponibles via Amazon Bedrock pour la génération des schémas, dont le modèle d'embeddings Cohere Embed v4 utilisé par défaut. L'intérêt opérationnel est considérable pour les équipes qui traitent des volumes documentaires hétérogènes. Là où le module Discovery existant nécessitait de connaître ses classes de documents à l'avance et de fournir un exemple par classe, la nouvelle approche supprime ce prérequis. Le système génère d'abord un embedding visuel pour chaque document, en se basant sur la première page uniquement pour les documents multi-pages, puis utilise le score de silhouette pour déterminer automatiquement le nombre de clusters pertinents. Un agent construit avec Strands Agents et un LLM Bedrock analyse ensuite chaque cluster pour identifier le type de document et produire un schéma. Une étape de "réflexion" finale compare l'ensemble des schémas générés pour détecter les chevauchements et incohérences avant validation humaine. Cette approche réduit drastiquement le travail préparatoire qui, à grande échelle, pouvait représenter des semaines de labelling manuel. Le choix des embeddings visuels plutôt que textuels, via OCR, est une décision technique délibérée : la mise en page, le formatage et la structure visuelle d'un document permettent de distinguer des types documentaires même lorsque leur contenu textuel se ressemble. Ce positionnement s'inscrit dans la stratégie plus large d'AWS de faire de Bedrock un socle central pour les workflows d'IA en entreprise, en y adossant des briques comme Strands Agents pour la partie agentique. La solution reste open-source, disponible sur GitHub, ce qui permet aux équipes de l'adapter à leurs propres collections. L'enjeu sous-jacent est de rendre accessibles les initiatives IDP à des organisations qui ne disposent pas des ressources pour classifier manuellement leur patrimoine documentaire avant même de commencer à en extraire de la valeur.

OutilsOutil
1 source
3MarkTechPost 

L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres

L'équipe Baidu Qianfan a lancé Qianfan-OCR, un modèle de 4 milliards de paramètres capable d'analyser des documents, détecter la mise en page et extraire du texte en une seule passe, via une architecture vision-langage basée sur Qwen3-4B. Le modèle introduit un mécanisme "Layout-as-Thought" qui génère une représentation structurée de la mise en page avant de produire le résultat final, réduisant la longueur de sortie de 50 %. Sur les principaux benchmarks, il se classe premier parmi les modèles de bout en bout : 93,12 sur OmniDocBench v1.5, 880 sur OCRBench, et 87,9 de score moyen en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B.

OutilsActu
1 source
Zhipu AI présente GLM-5V-Turbo, un modèle qui convertit des maquettes en code front-end
4The Decoder 

Zhipu AI présente GLM-5V-Turbo, un modèle qui convertit des maquettes en code front-end

Zhipu AI, une startup chinoise spécialisée dans l'intelligence artificielle, a lancé GLM-5V-Turbo, un nouveau modèle multimodal capable de traiter simultanément des images, des vidéos et du texte. Sa particularité principale est de convertir des maquettes de design directement en code front-end exécutable, sans intervention manuelle intermédiaire. Le modèle est conçu pour s'intégrer dans des workflows agentiques, où des systèmes autonomes enchaînent des tâches complexes de façon automatisée. Cette capacité à transformer un visuel en code fonctionnel représente un gain de temps concret pour les équipes de développement web et d'interface utilisateur. Là où un développeur devait interpréter une maquette Figma ou Adobe XD puis écrire manuellement le HTML, CSS et JavaScript correspondant, GLM-5V-Turbo automatise cette conversion. Pour les startups, agences et équipes produit, cela peut accélérer significativement les cycles de prototypage et de livraison. Zhipu AI s'inscrit dans une course très serrée entre laboratoires chinois pour proposer des modèles multimodaux compétitifs face aux géants américains comme OpenAI ou Google. Des acteurs comme Baidu, Alibaba et ByteDance investissent massivement dans ce segment. GLM-5V-Turbo cible explicitement les usages agentiques, un domaine en pleine expansion où les modèles ne se contentent plus de répondre à des questions mais exécutent des séquences d'actions autonomes dans des environnements logiciels.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic