Mistral veut bousculer la gestion des documents avec son modèle OCR 4
Mistral a lancé le 23 juin la quatrième version de son modèle OCR, baptisé Mistral OCR 4, marquant un virage significatif dans la façon dont l'entreprise française positionne cet outil. Là où les versions précédentes se contentaient de convertir du texte imprimé en texte numérique, OCR 4 se présente comme un parseur documentaire sémantique complet. Le modèle prend en charge tous les formats courants, PDF, DOC, PPT, ODF, et restitue une représentation structurée en couches de chaque document : chaque bloc de contenu est localisé dans une bounding box, classé par type (titre, tableau, équation, signature, etc.) et accompagné d'un score de confiance par page et par mot. Selon Mistral, des annotateurs indépendants ont préféré OCR 4 dans 72 % des cas face aux principaux systèmes OCR et IA documentaires testés, et le modèle atteint 85,20 % sur le benchmark OlmOCRBench, ce qui lui vaut la première place. Il prend en charge 170 langues réparties en 10 groupes linguistiques.
Ce changement de nature change concrètement la donne pour les équipes qui construisent des pipelines RAG, des systèmes de recherche sémantique ou des flux de travail agentiques sur des documents. Jusqu'ici, sans localisation spatiale ni typage sémantique, il était impossible de retracer un extrait vers sa source exacte dans un document, répondre à « d'où vient ce chiffre ? » nécessitait un travail d'ingénierie supplémentaire. OCR 4 résout ce problème en proposant nativement cette traçabilité : un texte étiqueté comme titre peut segmenter un document pour la recherche hiérarchique, une signature reconnue peut alimenter directement un flux de conformité, et les zones à faible confiance peuvent être automatiquement routées vers des vérificateurs humains. Mistral affirme ainsi supprimer toute une étape de reconstruction qui pesait jusqu'ici à la fois sur les coûts d'infrastructure OCR et sur les heures d'ingénierie nécessaires pour assembler le reste.
La sortie d'OCR 4 s'inscrit dans une stratégie plus large de Mistral pour s'imposer sur le marché de l'intelligence documentaire d'entreprise, un segment en forte croissance porté par l'essor des agents IA et de l'automatisation des processus métiers. La startup parisienne, qui concurrence à la fois des acteurs spécialisés comme Adobe ou ABBYY et des plateformes cloud généralistes comme AWS Textract ou Google Document AI, cherche à proposer une solution unifiée là où les entreprises devaient auparavant assembler plusieurs briques techniques. En intégrant localisation spatiale, typage sémantique et score de confiance dans un seul modèle accessible via API, Mistral parie que la friction d'intégration restait le principal frein à l'adoption, et que la lever suffira à convaincre les équipes data et les éditeurs de logiciels de migrer vers son offre.
Mistral, startup parisienne, renforce sa position sur le marché européen de l'intelligence documentaire d'entreprise en proposant une alternative souveraine aux plateformes américaines (AWS Textract, Google Document AI).
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




