Aller au contenu principal
OutilsMarkTechPost2h· 2 min de lecture

Baidu lance Unlimited OCR, un modèle 3B qui stabilise le cache KV pour l'analyse de longs documents

Source originale ↗·

Baidu a publié Unlimited OCR, un modèle de reconnaissance optique de caractères de 3 milliards de paramètres conçu pour analyser des documents longs sans que les performances ne se dégradent. Basé sur DeepSeek OCR par continue-training plutôt que par un entraînement from scratch, il adopte une architecture Mixture-of-Experts qui n'active que 500 millions de paramètres en inférence. Sur le benchmark OmniDocBench v1.5, il obtient un score de 93,23 points, soit 6,22 points de mieux que la référence DeepSeek OCR. Le modèle traite des dizaines de pages en une seule passe, dans une fenêtre maximale de 32 000 tokens, grâce notamment à un encodeur visuel qui compresse les images : une page PDF de 1024x1024 pixels est réduite à seulement 256 tokens visuels avant d'atteindre le décodeur.

Le problème central que résout Unlimited OCR est celui de la mémoire croissante dans les systèmes OCR traditionnels. Dans les modèles classiques, chaque token généré s'ajoute au KV cache, ce qui fait grossir la mémoire et ralentir la génération au fur et à mesure que le document s'allonge. Baidu remplace l'attention standard du décodeur par une architecture baptisée Reference Sliding Window Attention (R-SWA), qui maintient le cache à une taille fixe. Chaque nouveau token généré s'appuie sur tous les tokens visuels de référence, plus seulement les 128 derniers tokens produits, les autres étant évincés. La taille du cache devient ainsi bornée par une constante, indépendamment de la longueur de la sortie. Cette approche évite aussi le flou progressif observé dans les architectures à attention linéaire, car les tokens visuels ne subissent aucune mise à jour d'état.

Derrière cette publication, Baidu s'inscrit dans une compétition technique autour du traitement de documents à grande échelle, un marché stratégique pour les entreprises manipulant des contrats, des factures ou des archives volumineuses. L'OCR long-document est un goulot d'étranglement réel dans les pipelines RAG et d'automatisation documentaire, et plusieurs laboratoires cherchent à le lever. La solution R-SWA rappelle la métaphore d'un copiste qui consulte la source et les quelques derniers mots écrits, sans relire l'intégralité de ce qu'il a déjà transcrit. Unlimited OCR supporte deux modes de résolution : un mode "Base" à 1024x1024 pour le traitement multi-pages, et un mode "Gundam" en résolution dynamique pour les pages individuelles. Le modèle et son papier de recherche sont disponibles publiquement via arXiv, ce qui ouvre la voie à des adaptations et à une adoption dans des pipelines open-source.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte
1MarkTechPost 

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion
1 source
Mistral lance OCR 4, un outil d'extraction documentaire taillé pour l'IA en entreprise
2VentureBeat AI 

Mistral lance OCR 4, un outil d'extraction documentaire taillé pour l'IA en entreprise

Mistral AI a lancé mardi OCR 4, sa quatrième génération de technologie de reconnaissance optique de caractères en à peine quinze mois. Ce modèle de traitement documentaire dépasse la simple extraction de texte brut : il retourne une représentation structurée complète de chaque document, avec des boîtes de délimitation précises pour chaque bloc, une classification par type de contenu (titre, tableau, équation, signature) et des scores de confiance mot par mot. Le modèle supporte 170 langues, accepte les formats PDF, DOC, PPT et OpenDocument, et peut être déployé en conteneur autonome sur l'infrastructure interne d'une organisation. Il est disponible immédiatement via l'API Mistral, Document AI dans Mistral Studio, Amazon SageMaker et Microsoft Foundry, avec une intégration Snowflake annoncée prochainement. La tarification débute à 4 dollars pour 1 000 pages, ramenée à 2 dollars via l'API batch. Lors d'évaluations humaines indépendantes, les annotateurs ont préféré les sorties d'OCR 4 dans 72 % des cas face aux solutions concurrentes. Le changement central d'OCR 4 est architectural. Plutôt que de produire un flux plat de texte extrait, le modèle génère une carte sémantique du document : chaque bloc est localisé, typé et scoré. Cette traçabilité répond à une friction majeure des équipes qui construisent des pipelines RAG (retrieval-augmented generation) ou des workflows de conformité, où la question "d'où vient ce chiffre, sur quelle page ?" exige une réponse auditable. La classification des blocs permet en outre d'orienter automatiquement un tableau vers un pipeline de données structurées, un titre vers un découpage sémantique, ou une signature vers un workflow de caviardage. Packager ces sorties directement dans le modèle OCR supprime une couche d'analyse de mise en page que les équipes devaient jusqu'ici construire et maintenir séparément. Les scores de confiance permettent quant à eux de router programmatiquement les extractions incertaines vers des relecteurs humains, sans qu'une personne n'ait à vérifier chaque page de chaque document. Ce lancement intervient dans un contexte particulièrement porteur pour Mistral. La startup française, dont la proposition de souveraineté numérique européenne n'a jamais été aussi commercialement pertinente, cible explicitement les entreprises des secteurs réglementés, finance, santé, juridique, qui ne peuvent pas faire transiter leurs documents sensibles par des API cloud sous juridiction américaine. La capacité de déploiement on-premise en conteneur unique est le principal levier de différenciation face à des acteurs comme Google Document AI ou AWS Textract. Pour les développeurs, l'enjeu est aussi économique : dans les systèmes de production, l'OCR n'est que la première étape d'un pipeline plus large, et la reconstruction manuelle de la structure documentaire consomme souvent plus de temps d'ingénierie que la logique IA en aval. OCR 4 vise à éliminer cette étape, et si le modèle tient ses promesses, les gains se mesurent autant en heures d'ingénierie économisées qu'en coût d'extraction.

UEMistral AI, startup française, propose un déploiement on-premise en conteneur qui offre aux entreprises européennes des secteurs réglementés (finance, santé, juridique) une alternative souveraine aux solutions cloud sous juridiction américaine.

OutilsOutil
1 source
NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch
3MarkTechPost 

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch

NVIDIA a lancé AITune, un outil open source destiné à automatiser l'optimisation des modèles PyTorch pour l'inférence sur GPU. Disponible sous licence Apache 2.0 et installable via PyPI, cet outil s'adresse aux équipes qui déploient des modèles de deep learning en production et qui souhaitent éviter le travail d'ingénierie manuel habituellement requis pour choisir et configurer les backends d'optimisation. AITune prend en charge plusieurs frameworks, TensorRT, Torch-TensorRT, TorchAO et Torch Inductor, et les évalue automatiquement sur le matériel cible pour sélectionner le plus performant, sans que le développeur ait à intervenir. Il couvre une large gamme de cas d'usage : vision par ordinateur, traitement du langage naturel, reconnaissance vocale et IA générative. Le résultat de l'optimisation est sérialisé dans un fichier .ait, compilé une seule fois et rechargeable à chaque redéploiement sans temps de chauffe. L'outil répond à un problème concret qui ralentissait les équipes MLOps depuis des années : le fossé entre le modèle entraîné par un chercheur et le modèle réellement efficace en conditions de production. Jusqu'ici, comparer TensorRT, Torch-TensorRT ou TorchAO nécessitait de les configurer et tester séparément, souvent avec du code sur mesure. AITune effondre ce travail en une seule API Python. Il propose deux modes : un mode AOT (ahead-of-time), qui profile tous les backends, valide la correction des sorties et sélectionne le meilleur pour chaque sous-module du modèle ou de la pipeline, et un mode JIT (just-in-time), qui s'active via une variable d'environnement et optimise les modules à la volée sans modifier le code existant. Le mode AOT est le plus puissant : il détecte les axes dynamiques comme la longueur de séquence dans les LLMs, permet de mélanger différents backends dans une même pipeline, et met en cache les artefacts pour éviter de recompiler à chaque redéploiement. Ce lancement s'inscrit dans un effort plus large de NVIDIA pour simplifier le chemin entre la recherche et la production à mesure que la pression sur les coûts d'inférence s'intensifie. Avec la multiplication des modèles déployés à grande échelle, notamment des LLMs et des modèles de vision, le choix du backend d'optimisation est devenu un levier critique de rentabilité. TensorRT existe depuis plus d'une décennie, mais son intégration dans des pipelines PyTorch complexes restait laborieuse. En proposant une abstraction unifiée et automatisée, NVIDIA positionne AITune comme un outil de référence pour les équipes d'ingénierie ML, potentiellement en concurrence directe avec des solutions propriétaires ou des pipelines maison. La disponibilité en open source sous Apache 2.0 devrait favoriser une adoption rapide, notamment dans les entreprises qui cherchent à optimiser leurs coûts GPU sans investir dans des équipes spécialisées en compilation de modèles.

UELes équipes MLOps européennes peuvent adopter immédiatement cet outil open source via PyPI pour réduire leurs coûts d'inférence GPU en production, sans dépendance à des solutions propriétaires.

OutilsOutil
1 source
MagenticLite, MagenticBrain, Fara1.5 : une expérience à base d'agents optimisée pour les petits modèles
4Microsoft Research 

MagenticLite, MagenticBrain, Fara1.5 : une expérience à base d'agents optimisée pour les petits modèles

Microsoft Research AI Frontiers a publié MagenticLite, une application agentique expérimentale conçue pour fonctionner avec de petits modèles de langage. Successeur de Magentic-UI, MagenticLite opère simultanément dans le navigateur web et le système de fichiers local, au sein d'un seul workflow unifié. Elle repose sur deux modèles développés spécifiquement pour cette architecture : MagenticBrain, chargé du raisonnement, de la planification et de l'exécution de code en terminal, et Fara1.5, une famille de modèles dédiée aux tâches informatiques via le navigateur. Fara1.5 se décline en trois tailles, avec un modèle phare de 9 milliards de paramètres. Par rapport à son prédécesseur Fara-7B, il double presque les performances sur la navigation web et améliore significativement la gestion des formulaires, des sites nécessitant une authentification, et des tâches longues. Fara1.5 établit de nouveaux résultats de référence parmi les petits modèles de computer-use. L'enjeu central de cette publication est de démontrer qu'il est possible d'atteindre des performances agentiques élevées sans recourir à des modèles massifs et coûteux. En faisant tourner l'ensemble du système directement sur la machine de l'utilisateur, MagenticLite préserve la confidentialité des données et réduit drastiquement les coûts d'inférence. Le pari de Microsoft Research est que la capacité agentique repose davantage sur l'orchestration des outils et l'enchaînement d'actions que sur la quantité de connaissances encodées dans un modèle. Cette approche ouvre la voie à des agents capables d'automatiser des tâches réelles, recherche web, gestion de fichiers, remplissage de formulaires, sans dépendre d'une infrastructure cloud onéreuse ni exposer les données à des serveurs distants. Ce projet s'inscrit dans une course plus large que se livrent les grands acteurs de l'IA pour démocratiser les agents autonomes. Face à des systèmes comme Claude Computer Use d'Anthropic ou les agents de Google DeepMind, Microsoft Research mise sur la coconception intégrale : données d'entraînement, architecture des modèles, harnais d'exécution et interface utilisateur ont été repensés ensemble plutôt qu'en silos. Les évaluations ont été construites à partir de scénarios réels plutôt que de benchmarks standardisés seuls, ce qui reflète une volonté de mesurer l'utilité concrète plutôt que des scores abstraits. Les trois composants sont disponibles séparément mais conçus pour fonctionner ensemble, laissant entrevoir une trajectoire vers des agents compétents embarqués directement dans les appareils des utilisateurs finaux, sans connexion permanente au cloud.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic