OutilsNext INpact4h· 2 min de lecture

Mistral veut bousculer la gestion des documents avec son modèle OCR 4

Mistral a lancé le 23 juin la quatrième version de son modèle OCR, baptisé Mistral OCR 4, marquant un virage significatif dans la façon dont l'entreprise française positionne cet outil. Là où les versions précédentes se contentaient de convertir du texte imprimé en texte numérique, OCR 4 se présente comme un parseur documentaire sémantique complet. Le modèle prend en charge tous les formats courants, PDF, DOC, PPT, ODF, et restitue une représentation structurée en couches de chaque document : chaque bloc de contenu est localisé dans une bounding box, classé par type (titre, tableau, équation, signature, etc.) et accompagné d'un score de confiance par page et par mot. Selon Mistral, des annotateurs indépendants ont préféré OCR 4 dans 72 % des cas face aux principaux systèmes OCR et IA documentaires testés, et le modèle atteint 85,20 % sur le benchmark OlmOCRBench, ce qui lui vaut la première place. Il prend en charge 170 langues réparties en 10 groupes linguistiques.

Ce changement de nature change concrètement la donne pour les équipes qui construisent des pipelines RAG, des systèmes de recherche sémantique ou des flux de travail agentiques sur des documents. Jusqu'ici, sans localisation spatiale ni typage sémantique, il était impossible de retracer un extrait vers sa source exacte dans un document, répondre à « d'où vient ce chiffre ? » nécessitait un travail d'ingénierie supplémentaire. OCR 4 résout ce problème en proposant nativement cette traçabilité : un texte étiqueté comme titre peut segmenter un document pour la recherche hiérarchique, une signature reconnue peut alimenter directement un flux de conformité, et les zones à faible confiance peuvent être automatiquement routées vers des vérificateurs humains. Mistral affirme ainsi supprimer toute une étape de reconstruction qui pesait jusqu'ici à la fois sur les coûts d'infrastructure OCR et sur les heures d'ingénierie nécessaires pour assembler le reste.

La sortie d'OCR 4 s'inscrit dans une stratégie plus large de Mistral pour s'imposer sur le marché de l'intelligence documentaire d'entreprise, un segment en forte croissance porté par l'essor des agents IA et de l'automatisation des processus métiers. La startup parisienne, qui concurrence à la fois des acteurs spécialisés comme Adobe ou ABBYY et des plateformes cloud généralistes comme AWS Textract ou Google Document AI, cherche à proposer une solution unifiée là où les entreprises devaient auparavant assembler plusieurs briques techniques. En intégrant localisation spatiale, typage sémantique et score de confiance dans un seul modèle accessible via API, Mistral parie que la friction d'intégration restait le principal frein à l'adoption, et que la lever suffira à convaincre les équipes data et les éditeurs de logiciels de migrer vers son offre.

Impact France/UE

Mistral, startup parisienne, renforce sa position sur le marché européen de l'intelligence documentaire d'entreprise en proposant une alternative souveraine aux plateformes américaines (AWS Textract, Google Document AI).

Dans nos dossiers

AWS Mistral AI Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI

Mistral lance OCR 4, un outil d'extraction documentaire taillé pour l'IA en entreprise

Mistral AI a lancé mardi OCR 4, sa quatrième génération de technologie de reconnaissance optique de caractères en à peine quinze mois. Ce modèle de traitement documentaire dépasse la simple extraction de texte brut : il retourne une représentation structurée complète de chaque document, avec des boîtes de délimitation précises pour chaque bloc, une classification par type de contenu (titre, tableau, équation, signature) et des scores de confiance mot par mot. Le modèle supporte 170 langues, accepte les formats PDF, DOC, PPT et OpenDocument, et peut être déployé en conteneur autonome sur l'infrastructure interne d'une organisation. Il est disponible immédiatement via l'API Mistral, Document AI dans Mistral Studio, Amazon SageMaker et Microsoft Foundry, avec une intégration Snowflake annoncée prochainement. La tarification débute à 4 dollars pour 1 000 pages, ramenée à 2 dollars via l'API batch. Lors d'évaluations humaines indépendantes, les annotateurs ont préféré les sorties d'OCR 4 dans 72 % des cas face aux solutions concurrentes. Le changement central d'OCR 4 est architectural. Plutôt que de produire un flux plat de texte extrait, le modèle génère une carte sémantique du document : chaque bloc est localisé, typé et scoré. Cette traçabilité répond à une friction majeure des équipes qui construisent des pipelines RAG (retrieval-augmented generation) ou des workflows de conformité, où la question "d'où vient ce chiffre, sur quelle page ?" exige une réponse auditable. La classification des blocs permet en outre d'orienter automatiquement un tableau vers un pipeline de données structurées, un titre vers un découpage sémantique, ou une signature vers un workflow de caviardage. Packager ces sorties directement dans le modèle OCR supprime une couche d'analyse de mise en page que les équipes devaient jusqu'ici construire et maintenir séparément. Les scores de confiance permettent quant à eux de router programmatiquement les extractions incertaines vers des relecteurs humains, sans qu'une personne n'ait à vérifier chaque page de chaque document. Ce lancement intervient dans un contexte particulièrement porteur pour Mistral. La startup française, dont la proposition de souveraineté numérique européenne n'a jamais été aussi commercialement pertinente, cible explicitement les entreprises des secteurs réglementés, finance, santé, juridique, qui ne peuvent pas faire transiter leurs documents sensibles par des API cloud sous juridiction américaine. La capacité de déploiement on-premise en conteneur unique est le principal levier de différenciation face à des acteurs comme Google Document AI ou AWS Textract. Pour les développeurs, l'enjeu est aussi économique : dans les systèmes de production, l'OCR n'est que la première étape d'un pipeline plus large, et la reconstruction manuelle de la structure documentaire consomme souvent plus de temps d'ingénierie que la logique IA en aval. OCR 4 vise à éliminer cette étape, et si le modèle tient ses promesses, les gains se mesurent autant en heures d'ingénierie économisées qu'en coût d'extraction.

UEMistral AI, startup française, propose un déploiement on-premise en conteneur qui offre aux entreprises européennes des secteurs réglementés (finance, santé, juridique) une alternative souveraine aux solutions cloud sous juridiction américaine.

OutilsOutil

1 source

2MarkTechPost

Mistral OCR 4 apporte des sorties structurées prêtes à citer aux pipelines RAG, agents autonomes et recherche d'entreprise

Mistral AI a lancé le 24 juin 2026 OCR 4, la quatrième génération de son modèle de reconnaissance et de compréhension de documents. Contrairement à ses prédécesseurs qui se contentaient de convertir une page en texte brut, OCR 4 produit une représentation structurée de l'intégralité du document : chaque bloc de contenu est localisé par une boîte de délimitation précise, classifié par type (titre, tableau, équation, signature, etc.) et accompagné d'un score de confiance par mot et par page. Le modèle prend en charge 170 langues réparties en 10 groupes linguistiques, y compris les langues rares et peu dotées en ressources, et accepte les formats bureautiques courants comme PDF, DOC, PPT et OpenDocument. Il peut être déployé dans un seul conteneur pour les entreprises soumises à des contraintes de résidence des données ou de conformité réglementaire. La tarification est fixée à 4 dollars pour 1 000 pages, réduite à 2 dollars via l'API batch. Cette sortie change la donne pour les pipelines d'ingestion documentaire en entreprise. En fournissant non seulement ce que dit un document, mais aussi où se trouve chaque élément et à quel degré de certitude, OCR 4 facilite la génération augmentée par récupération (RAG) avec citations vérifiables, les flux agentiques capables d'agir sur des factures ou des contrats, et les processus de vérification humaine ciblée sur les zones à faible confiance. Les benchmarks indépendants sont convaincants : sur plus de 600 documents et 12 langues, des annotateurs humains ont préféré OCR 4 à tous les systèmes concurrents testés, avec un taux de victoire moyen de 72 %. Sur OlmOCRBench, le modèle obtient 85,20 points ; sur OmniDocBench, 93,07. Deux clients illustrent l'impact opérationnel : Rogo a mesuré une précision équivalente aux meilleurs parseurs agentiques du marché, pour un coût huit fois inférieur et une latence dix-sept fois plus faible ; Anaqua a constaté un traitement environ quatre fois plus rapide par page que son fournisseur précédent. OCR 4 s'inscrit dans une tendance de fond où les éditeurs de modèles cherchent à contrôler toute la chaîne de traitement documentaire, de l'ingestion brute jusqu'à la recherche sémantique. Mistral l'intègre dès aujourd'hui comme composant d'ingestion dans son Search Toolkit, un framework de recherche open source désormais en préversion publique, conçu pour alimenter des pipelines de récupération et d'évaluation avec des sorties structurées et prêtes pour la citation. La concurrence sur ce segment est vive : AWS Textract, Google Document AI et les parseurs agentiques spécialisés dominent l'espace entreprise depuis plusieurs années. Mistral parie que la combinaison prix-latence-multilingue, alliée à la possibilité de déploiement on-premise, lui ouvrira des marchés réglementés comme la finance, le droit et la santé, où les données ne peuvent pas quitter l'infrastructure interne.

UEMistral AI étant une entreprise française, OCR 4 renforce la souveraineté numérique européenne en proposant un déploiement on-premise conforme au RGPD, ciblant directement les secteurs réglementés (finance, santé, droit) en France et en Europe.

OutilsOpinion

1 source

3AWS ML Blog

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil

1 source

4AWS ML Blog

Développer des agents IA pour la gestion des effectifs avec Visier et Amazon Quick

Visier, plateforme d'intelligence des ressources humaines basée dans le cloud, et Amazon Quick, l'espace de travail agentique d'IA d'Amazon, ont annoncé une intégration technique permettant à leurs systèmes de fonctionner de concert via le Model Context Protocol (MCP), un standard ouvert d'interopérabilité pour agents IA. Concrètement, Visier centralise les données RH d'une organisation, SIRH, paie, gestion des talents, suivi des candidatures, et les rend accessibles en temps réel à travers son assistant IA interne appelé Vee. Amazon Quick, de son côté, sert d'interface unifiée où les collaborateurs posent leurs questions, automatisent des processus et construisent des agents travaillant en leur nom. Le MCP joue le rôle d'adaptateur universel entre les deux systèmes, sans nécessiter d'intégration personnalisée. L'intérêt concret de cette connexion est illustré par deux profils types : Maya, Business Partner RH qui prépare un bilan de santé organisationnel pour un comité de direction, et David, responsable financier qui suit l'évolution des effectifs par rapport aux budgets prévisionnels. Avant cette intégration, chacun devait interroger plusieurs outils séparément, recouper manuellement des données issues de sources hétérogènes, et passer d'un tableau de bord à l'autre. Désormais, depuis Amazon Quick, ils peuvent poser une question en langage naturel et obtenir une réponse qui croise simultanément les données live de Visier, les politiques internes de recrutement, les objectifs financiers et le contexte historique, sans changer d'outil. Pour Maya, cela signifie accéder instantanément aux taux d'attrition, aux performances moyennes par département ou à la durée de tenure. Pour David, obtenir les chiffres d'effectifs en temps réel mesurés contre les cibles budgétaires. Cette intégration s'inscrit dans une tendance de fond : la multiplication des architectures dites "multi-agents", où des plateformes spécialisées exposent leurs capacités via des protocoles standardisés plutôt que des connecteurs ad hoc. Le MCP, popularisé depuis fin 2024, est devenu le langage commun qui permet à des outils comme Visier de s'insérer dans des écosystèmes IA plus larges sans friction technique. Visier, qui s'appuie sur des données anonymisées de millions de salariés pour ses benchmarks sectoriels, cherche ainsi à étendre sa portée au-delà des équipes RH vers l'ensemble des décideurs de l'entreprise. Amazon Quick, en agrégeant ces sources d'intelligence métier dans un seul espace conversationnel, parie sur le fait que la valeur de l'IA en entreprise réside moins dans les modèles eux-mêmes que dans leur capacité à connecter des silos de données jusqu'ici cloisonnés.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic