OutilsMarkTechPost6sem

L'équipe Qianfan de Baidu publie Qianfan-OCR : un modèle unifié d'intelligence documentaire à 4 milliards de paramètres

Résumé IASource uniqueImpact UE

L'équipe Qianfan de Baidu vient de dévoiler Qianfan-OCR, un modèle de 4 milliards de paramètres capable de traiter intégralement la reconnaissance documentaire — parsing, analyse de mise en page et compréhension — au sein d'une architecture vision-langage unifiée. Contrairement aux pipelines OCR traditionnels qui enchaînent des modules séparés, le modèle effectue une conversion directe image-vers-Markdown et prend en charge des tâches pilotées par prompts, comme l'extraction de tableaux ou les questions-réponses sur documents.

L'enjeu est considérable pour le secteur de l'intelligence documentaire, où les approches multi-étapes souffrent d'un défaut structurel : chaque étape introduit des pertes d'information, en particulier le contexte visuel spatial. Les systèmes en deux temps — extraction de texte puis LLM — échouent notamment sur les tâches nécessitant un raisonnement spatial : tous les systèmes pipeline testés ont obtenu un score de 0,0 sur les benchmarks CharXiv, incapables d'interpréter des graphiques dont les axes et positions de données ont été effacés lors de l'extraction.

Sur le plan technique, Qianfan-OCR s'appuie sur un encodeur visuel Qianfan-ViT acceptant des images jusqu'en 4K (jusqu'à 4 096 tokens visuels par image), un adaptateur cross-modal léger, et le modèle de langage Qwen3-4B avec une fenêtre de contexte native de 32 000 tokens. Sa fonctionnalité phare, le mécanisme "Layout-as-Thought", déclenche une phase de réflexion structurée via des tokens <think> pour reconstruire explicitement la mise en page avant de générer la réponse finale. Les résultats sont probants : 93,12 sur OmniDocBench v1.5 (devant DeepSeek-OCR-v2 à 91,09 et Gemini-3 Pro à 90,33), 880 sur OCRBench (premier toutes catégories), et une moyenne de 87,9 en extraction d'informations clés — surpassant des modèles bien plus grands comme Qwen3-VL-235B (84,2) ou Gemini-3.1-Pro (79,2).

Côté déploiement, le modèle tourne sur un seul GPU NVIDIA A100 et atteint 1,024 pages par seconde avec quantification W8A8 (AWQ), soit un gain de vitesse de 2x par rapport à la baseline float16 sans perte significative de précision. Son architecture entièrement GPU-centrique élimine les goulots d'étranglement CPU propres aux pipelines hybrides, ce qui le rend particulièrement adapté à des inférences en large volume. Le modèle et le code sont disponibles en accès ouvert sur HuggingFace et arXiv.

Dans nos dossiers

DeepSeek Gemini NVIDIA

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)

Zhipu AI présente GLM-OCR, un modèle multimodal compact de 0.9 milliards de paramètres pour la compréhension des documents, qui combine un encodeur visuel CogViT de 0.4 milliard, un connecteur léger intermodal et un décodeur linguistique GLM de 0.5 milliard. Le modèle utilise la prédiction de multi-token (MTP) pour améliorer le traitement (50%), adapté aux contraintes des déploiements sur le bord, et adopte une architecture en deux étapes pour analyser la structure documentaire avant la reconnaissance. GLM-OCR traite les tâches de parse document et d'extraction des informations clés (KIE) via des chemins d'output distincts, optimisant ainsi l'efficacité et la robustesse sur des documents complexes.

OutilsActu

1 source

2MarkTechPost

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion

1 source

3The Decoder

Cohere publie un modèle open source qui domine les benchmarks de reconnaissance vocale

Cohere a publié un nouveau modèle de reconnaissance vocale open source qui surpasse l'ensemble de ses concurrents sur les benchmarks de référence du secteur, y compris Whisper d'OpenAI, le standard de facto depuis plusieurs années. Le modèle est disponible librement, ce qui permet à n'importe quelle équipe de le déployer, le modifier et l'intégrer sans restrictions de licence. Cette sortie représente un défi direct à la domination d'OpenAI dans le domaine de la transcription automatique. Whisper, lancé en 2022, s'est imposé comme la solution de référence pour des milliers d'applications professionnelles et open source. Qu'un acteur comme Cohere propose désormais une alternative plus performante et librement accessible change concrètement la donne pour les développeurs, les entreprises et les chercheurs qui cherchent à traiter de l'audio à grande échelle sans dépendance à un fournisseur propriétaire. Cohere, spécialisé dans les modèles de langage à destination des entreprises, élargit ainsi son périmètre au-delà du texte vers la modalité vocale, un segment en forte croissance. Cette publication s'inscrit dans une tendance plus large où les acteurs de l'IA rivalisent d'open source stratégique pour gagner en adoption et en crédibilité face aux géants comme OpenAI et Google. La qualité des benchmarks annoncés reste à confirmer par la communauté, mais le signal envoyé à l'industrie est clair.

UELes développeurs et entreprises européens peuvent adopter une alternative open source performante à Whisper pour la transcription vocale, réduisant leur dépendance aux solutions propriétaires américaines.

OutilsActu

1 source

4MarkTechPost

IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction

IBM a déployé Granite 4.0 1B Speech, un modèle linguistique de reconnaissance vocale compact conçu pour la reconnaissance automatique du discours multilingue (ASR) et la traduction automatique du discours bidirectionnel (AST). Ce modèle réduit la taille tout en maintenant les capacités attendues d'un système de traitement du langage moderne, avec la moitié des paramètres de son prédécesseur. Il inclut maintenant l'ASR japonais, un biais pour les mots-clés et une précision accrue dans la transcription anglaise. Le modèle est optimisé pour les déploiements d'entreprise et edge, en mettant l'accent sur la taille mémoire, le temps de latence et l'efficacité computationnelle. Il est disponible sous licence Apache 2.0 pour faciliter l'adoption ouverte. Granite 4.0 1B Speech a obtenu un classement #1 sur le tableau OpenASR avec une moyenne de WER de 5.52 et un RTFx de 280.02.

UELes entreprises européennes peuvent adopter ce modèle open-source (Apache 2.0) pour déployer de la reconnaissance vocale multilingue en local, sans dépendance cloud, ce qui facilite la conformité RGPD.

OutilsActu

1 source