Aller au contenu principal
Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)
OutilsMarkTechPost6sem

Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)

Résumé IASource uniqueImpact UE
Source originale ↗·

Zhipu AI et l'université Tsinghua présentent GLM-OCR, un modèle multimodal compact de 0,9 milliard de paramètres conçu pour la reconnaissance de documents complexes et l'extraction d'informations structurées. Face aux limites des systèmes OCR traditionnels — efficaces sur du texte simple mais en difficulté dès qu'apparaissent tableaux, formules mathématiques, blocs de code ou sceaux — ce modèle propose une alternative légère aux grands modèles de vision-langage, trop coûteux pour un déploiement en production ou en environnement edge.

L'enjeu dépasse la simple reconnaissance de caractères : dans l'industrie, les documents réels mêlent mises en page complexes, données structurées et champs à extraire automatiquement. Les grands modèles multimodaux actuels améliorent la compréhension documentaire, mais leur taille et leur mode de décodage autorégressif classique les rendent prohibitifs à grande échelle. GLM-OCR s'impose donc comme une réponse d'ingénierie pragmatique, pensée dès le départ pour des contraintes de déploiement réelles plutôt qu'adaptée à l'OCR en second plan.

Architecturalement, le modèle combine un encodeur visuel CogViT de 0,4 milliard de paramètres, un connecteur cross-modal léger et un décodeur de langage GLM de 0,5 milliard de paramètres. Sa principale innovation technique est l'adoption de la prédiction multi-tokens (MTP) : au lieu de prédire un token à la fois, le modèle est entraîné à en prédire 10 par étape, et génère en pratique 5,2 tokens par étape à l'inférence, soit un gain de débit d'environ 50%. Le pipeline repose sur deux étages distincts : une analyse de mise en page via PP-DocLayout-V3, puis une reconnaissance parallèle des régions détectées. Pour le parsing, les sorties sont en Markdown ou JSON ; pour l'extraction d'informations clés (KIE), l'image complète est soumise au modèle avec un prompt de tâche, produisant directement un JSON structuré.

L'entraînement suit quatre étapes successives, allant du préentraînement vision-langage jusqu'à un affinage par apprentissage par renforcement via GRPO. Les récompenses sont adaptées à chaque sous-tâche : distance d'édition normalisée pour la reconnaissance de texte, score CDM pour les formules, score TEDS pour les tableaux, et F1 au niveau des champs pour la KIE. Cette approche modulaire et spécialisée distingue GLM-OCR des modèles généralistes et le positionne comme un outil de production sérieux pour les entreprises traitant de grands volumes de documents.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction
1MarkTechPost 

IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction

IBM a déployé Granite 4.0 1B Speech, un modèle linguistique de reconnaissance vocale compact conçu pour la reconnaissance automatique du discours multilingue (ASR) et la traduction automatique du discours bidirectionnel (AST). Ce modèle réduit la taille tout en maintenant les capacités attendues d'un système de traitement du langage moderne, avec la moitié des paramètres de son prédécesseur. Il inclut maintenant l'ASR japonais, un biais pour les mots-clés et une précision accrue dans la transcription anglaise. Le modèle est optimisé pour les déploiements d'entreprise et edge, en mettant l'accent sur la taille mémoire, le temps de latence et l'efficacité computationnelle. Il est disponible sous licence Apache 2.0 pour faciliter l'adoption ouverte. Granite 4.0 1B Speech a obtenu un classement #1 sur le tableau OpenASR avec une moyenne de WER de 5.52 et un RTFx de 280.02.

UELes entreprises européennes peuvent adopter ce modèle open-source (Apache 2.0) pour déployer de la reconnaissance vocale multilingue en local, sans dépendance cloud, ce qui facilite la conformité RGPD.

OutilsActu
1 source
L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres
2MarkTechPost 

L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres

L'équipe Baidu Qianfan a lancé Qianfan-OCR, un modèle de 4 milliards de paramètres capable d'analyser des documents, détecter la mise en page et extraire du texte en une seule passe, via une architecture vision-langage basée sur Qwen3-4B. Le modèle introduit un mécanisme "Layout-as-Thought" qui génère une représentation structurée de la mise en page avant de produire le résultat final, réduisant la longueur de sortie de 50 %. Sur les principaux benchmarks, il se classe premier parmi les modèles de bout en bout : 93,12 sur OmniDocBench v1.5, 880 sur OCRBench, et 87,9 de score moyen en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B.

OutilsActu
1 source
Zhipu AI présente GLM-5V-Turbo, un modèle qui convertit des maquettes en code front-end
3The Decoder 

Zhipu AI présente GLM-5V-Turbo, un modèle qui convertit des maquettes en code front-end

Zhipu AI, une startup chinoise spécialisée dans l'intelligence artificielle, a lancé GLM-5V-Turbo, un nouveau modèle multimodal capable de traiter simultanément des images, des vidéos et du texte. Sa particularité principale est de convertir des maquettes de design directement en code front-end exécutable, sans intervention manuelle intermédiaire. Le modèle est conçu pour s'intégrer dans des workflows agentiques, où des systèmes autonomes enchaînent des tâches complexes de façon automatisée. Cette capacité à transformer un visuel en code fonctionnel représente un gain de temps concret pour les équipes de développement web et d'interface utilisateur. Là où un développeur devait interpréter une maquette Figma ou Adobe XD puis écrire manuellement le HTML, CSS et JavaScript correspondant, GLM-5V-Turbo automatise cette conversion. Pour les startups, agences et équipes produit, cela peut accélérer significativement les cycles de prototypage et de livraison. Zhipu AI s'inscrit dans une course très serrée entre laboratoires chinois pour proposer des modèles multimodaux compétitifs face aux géants américains comme OpenAI ou Google. Des acteurs comme Baidu, Alibaba et ByteDance investissent massivement dans ce segment. GLM-5V-Turbo cible explicitement les usages agentiques, un domaine en pleine expansion où les modèles ne se contentent plus de répondre à des questions mais exécutent des séquences d'actions autonomes dans des environnements logiciels.

OutilsOutil
1 source
Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte
4MarkTechPost 

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion
1 source