Baidu lance Unlimited OCR, un modèle 3B qui stabilise le cache KV pour l'analyse de longs documents
Baidu a publié Unlimited OCR, un modèle de reconnaissance optique de caractères de 3 milliards de paramètres conçu pour analyser des documents longs sans que les performances ne se dégradent. Basé sur DeepSeek OCR par continue-training plutôt que par un entraînement from scratch, il adopte une architecture Mixture-of-Experts qui n'active que 500 millions de paramètres en inférence. Sur le benchmark OmniDocBench v1.5, il obtient un score de 93,23 points, soit 6,22 points de mieux que la référence DeepSeek OCR. Le modèle traite des dizaines de pages en une seule passe, dans une fenêtre maximale de 32 000 tokens, grâce notamment à un encodeur visuel qui compresse les images : une page PDF de 1024x1024 pixels est réduite à seulement 256 tokens visuels avant d'atteindre le décodeur.
Le problème central que résout Unlimited OCR est celui de la mémoire croissante dans les systèmes OCR traditionnels. Dans les modèles classiques, chaque token généré s'ajoute au KV cache, ce qui fait grossir la mémoire et ralentir la génération au fur et à mesure que le document s'allonge. Baidu remplace l'attention standard du décodeur par une architecture baptisée Reference Sliding Window Attention (R-SWA), qui maintient le cache à une taille fixe. Chaque nouveau token généré s'appuie sur tous les tokens visuels de référence, plus seulement les 128 derniers tokens produits, les autres étant évincés. La taille du cache devient ainsi bornée par une constante, indépendamment de la longueur de la sortie. Cette approche évite aussi le flou progressif observé dans les architectures à attention linéaire, car les tokens visuels ne subissent aucune mise à jour d'état.
Derrière cette publication, Baidu s'inscrit dans une compétition technique autour du traitement de documents à grande échelle, un marché stratégique pour les entreprises manipulant des contrats, des factures ou des archives volumineuses. L'OCR long-document est un goulot d'étranglement réel dans les pipelines RAG et d'automatisation documentaire, et plusieurs laboratoires cherchent à le lever. La solution R-SWA rappelle la métaphore d'un copiste qui consulte la source et les quelques derniers mots écrits, sans relire l'intégralité de ce qu'il a déjà transcrit. Unlimited OCR supporte deux modes de résolution : un mode "Base" à 1024x1024 pour le traitement multi-pages, et un mode "Gundam" en résolution dynamique pour les pages individuelles. Le modèle et son papier de recherche sont disponibles publiquement via arXiv, ce qui ouvre la voie à des adaptations et à une adoption dans des pipelines open-source.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




