L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres
L'équipe Baidu Qianfan a lancé Qianfan-OCR, un modèle de 4 milliards de paramètres capable d'analyser des documents, détecter la mise en page et extraire du texte en une seule passe, via une architecture vision-langage basée sur Qwen3-4B. Le modèle introduit un mécanisme "Layout-as-Thought" qui génère une représentation structurée de la mise en page avant de produire le résultat final, réduisant la longueur de sortie de 50 %. Sur les principaux benchmarks, il se classe premier parmi les modèles de bout en bout : 93,12 sur OmniDocBench v1.5, 880 sur OCRBench, et 87,9 de score moyen en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B.