
Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)
Zhipu AI et l'université Tsinghua présentent GLM-OCR, un modèle multimodal compact de 0,9 milliard de paramètres conçu pour la reconnaissance de documents complexes et l'extraction d'informations structurées. Face aux limites des systèmes OCR traditionnels — efficaces sur du texte simple mais en difficulté dès qu'apparaissent tableaux, formules mathématiques, blocs de code ou sceaux — ce modèle propose une alternative légère aux grands modèles de vision-langage, trop coûteux pour un déploiement en production ou en environnement edge.
L'enjeu dépasse la simple reconnaissance de caractères : dans l'industrie, les documents réels mêlent mises en page complexes, données structurées et champs à extraire automatiquement. Les grands modèles multimodaux actuels améliorent la compréhension documentaire, mais leur taille et leur mode de décodage autorégressif classique les rendent prohibitifs à grande échelle. GLM-OCR s'impose donc comme une réponse d'ingénierie pragmatique, pensée dès le départ pour des contraintes de déploiement réelles plutôt qu'adaptée à l'OCR en second plan.
Architecturalement, le modèle combine un encodeur visuel CogViT de 0,4 milliard de paramètres, un connecteur cross-modal léger et un décodeur de langage GLM de 0,5 milliard de paramètres. Sa principale innovation technique est l'adoption de la prédiction multi-tokens (MTP) : au lieu de prédire un token à la fois, le modèle est entraîné à en prédire 10 par étape, et génère en pratique 5,2 tokens par étape à l'inférence, soit un gain de débit d'environ 50%. Le pipeline repose sur deux étages distincts : une analyse de mise en page via PP-DocLayout-V3, puis une reconnaissance parallèle des régions détectées. Pour le parsing, les sorties sont en Markdown ou JSON ; pour l'extraction d'informations clés (KIE), l'image complète est soumise au modèle avec un prompt de tâche, produisant directement un JSON structuré.
L'entraînement suit quatre étapes successives, allant du préentraînement vision-langage jusqu'à un affinage par apprentissage par renforcement via GRPO. Les récompenses sont adaptées à chaque sous-tâche : distance d'édition normalisée pour la reconnaissance de texte, score CDM pour les formules, score TEDS pour les tableaux, et F1 au niveau des champs pour la KIE. Cette approche modulaire et spécialisée distingue GLM-OCR des modèles généralistes et le positionne comme un outil de production sérieux pour les entreprises traitant de grands volumes de documents.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




