OutilsAWS ML Blog · 11 juin 2026, 22:40· 2 min de lecture

Extraire des données dynamiquement avec des pipelines à la demande et par lots

Amazon Web Services propose une architecture de traitement intelligent de documents combinant deux modes d'inférence sur sa plateforme Bedrock : un pipeline à la demande, capable de traiter un document en quelques secondes, et un pipeline de traitement par lots, conçu pour absorber des volumes massifs à moindre coût. La solution s'appuie sur des modèles de langage large (LLM) pour extraire automatiquement des données structurées depuis des PDF numérisés ou des fichiers texte, y compris des documents aux formats hétérogènes. Le cas d'usage illustratif est parlant : un client disposant de plusieurs centaines de millions de baux fonciers au format PDF scanné, avec de nouveaux documents s'ajoutant chaque jour, peut désormais traiter ce backlog sans intervention humaine. Techniquement, chaque requête peut spécifier dynamiquement l'identifiant du modèle LLM, l'identifiant du prompt et sa version, ces paramètres étant récupérés depuis Amazon Bedrock Prompt Management au moment de l'exécution. Le pipeline temps réel repose sur une file SQS FIFO qui déclenche une fonction AWS Lambda : celle-ci récupère le PDF depuis S3, convertit chaque page en image PNG, compose le message à envoyer au LLM, puis stocke le résultat dans une table DynamoDB. Le pipeline batch, lui, regroupe les requêtes en un seul job d'inférence asynchrone sur Bedrock, ce qui réduit significativement les coûts.

L'enjeu concret est double : vitesse et économie. Les entreprises qui traitent des documents sensibles au facteur temps, comme des contrats ou des formulaires réglementaires, peuvent utiliser le mode à la demande et obtenir un résultat en quelques secondes. Pour les traitements différés, les grands volumes ou les migrations de données historiques, le mode batch réduit la facture d'inférence tout en libérant les équipes de toute supervision manuelle. La capacité à configurer le modèle et le prompt au niveau de chaque document est particulièrement significative : elle permet d'utiliser la même infrastructure pour des types de documents très différents, sans redéploiement ni modification du pipeline, simplement en changeant les paramètres de la requête entrante.

Cette solution s'inscrit dans une tendance de fond : l'automatisation de l'extraction d'information dans les secteurs très documentés, notamment l'immobilier, le droit, la finance et l'assurance, où des décennies de paperasse physique ou numérisée constituent un gisement de données encore inexploité. Amazon Bedrock, lancé en disponibilité générale en 2023, monte en puissance comme couche d'abstraction pour l'inférence LLM dans les entreprises, concurrençant directement les offres de Microsoft Azure AI et de Google Vertex AI. La gestion centralisée des prompts via Bedrock Prompt Management répond à un besoin croissant de gouvernance et de traçabilité des invocations IA en production, particulièrement dans les contextes réglementés. La prochaine étape logique pour AWS sera d'intégrer des capacités d'évaluation automatique de la qualité d'extraction directement dans ces pipelines.

Impact France/UE

AWS Bedrock étant disponible dans des régions européennes, les entreprises françaises et européennes des secteurs immobilier, juridique et financier peuvent déployer ces pipelines d'extraction documentaire en conservant leurs données sur l'infrastructure cloud européenne.

Dans nos dossiers

AWS Microsoft Azure Google Cloud

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS

Amazon Web Services a dévoilé une architecture complète de traitement intelligent de documents reposant sur ses services d'IA générative, notamment Amazon Bedrock Data Automation (BDA). Ce service unifié permet d'extraire des informations structurées depuis des documents multimodaux, PDF, images, vidéos, fichiers audio, avec une capacité allant jusqu'à 3 000 pages et 500 Mo par requête API. Contrairement aux solutions OCR classiques qui se limitent à l'extraction de texte brut, BDA analyse le contexte, classe automatiquement chaque section d'un document dans la bonne catégorie, l'associe au bon modèle de traitement, et fournit des scores de confiance sur les données extraites. L'architecture s'appuie sur quatre couches intégrées : ingestion des fichiers via Amazon S3, extraction et stockage avec DynamoDB, couche d'intelligence sémantique via Amazon Bedrock Knowledge Base, et coordination agentique par des agents spécialisés hébergés sur Amazon Bedrock AgentCore Runtime, orchestrés par AWS Step Functions. Pour les organisations qui traitent chaque jour des millions de documents, contrats juridiques, dossiers médicaux, factures, déclarations d'assurance, cette solution répond à un goulot d'étranglement majeur : l'intervention humaine obligatoire dans les pipelines traditionnels. En automatisant la classification, la normalisation et la validation des données, BDA réduit les coûts opérationnels, accélère les délais de traitement et limite les erreurs de saisie. La capacité à relier plusieurs documents entre eux via une base de connaissances sémantique permet également des analyses croisées impossibles avec les approches OCR conventionnelles, ouvrant la voie à des cas d'usage comme l'audit automatisé de contrats ou l'analyse comparative de rapports financiers. Ce lancement s'inscrit dans une course que se livrent les grands fournisseurs cloud, AWS, Microsoft Azure et Google Cloud, pour proposer des pipelines documentaires clé en main à destination des entreprises. AWS positionne BDA comme une réponse directe aux limites des solutions point-à-point qui nécessitaient jusqu'ici d'assembler manuellement des modèles OCR, des LLM et des orchestrateurs distincts. En intégrant l'ensemble dans une API unifiée au sein de Bedrock, Amazon cherche à réduire la friction technique pour les équipes data et à accélérer l'adoption de l'IA générative dans des secteurs très réglementés comme la finance, la santé et le droit. Les prochaines évolutions attendues concernent l'élargissement des formats supportés et le renforcement des capacités d'analyse de graphiques et de visualisations complexes embarqués dans les documents.

UELes entreprises européennes des secteurs réglementés (finance, santé, droit) peuvent adopter BDA via AWS pour automatiser leurs pipelines documentaires, sous réserve de conformité RGPD quant au stockage des données dans les régions AWS européennes.

OutilsOutil

1 source

2AWS ML Blog

Construire un pipeline de traitement des dossiers de santé avec des agents IA sur Amazon Bedrock et AWS HealthLake

Amazon Web Services vient de dévoiler une architecture de traitement automatisé des dossiers de remboursement médicaux, combinant Amazon Bedrock Data Automation, Amazon Bedrock AgentCore et AWS HealthLake. Le pipeline cible le formulaire CMS-1500, le standard américain de facturation médicale en format papier ou PDF. Concrètement, lorsqu'un prestataire de santé dépose un formulaire dans un bucket Amazon S3, une fonction AWS Lambda déclenche une chaîne de traitement : Bedrock Data Automation extrait les données structurées via une combinaison de reconnaissance optique de caractères, de modèles de machine learning et d'IA générative, puis produit un JSON normalisé avec scores de confiance et coordonnées des champs détectés. Un agent IA basé sur le framework Strands Agents, hébergé sur AgentCore, prend ensuite le relais pour valider les données extraites contre les enregistrements patients et prestataires stockés dans HealthLake, et crée si validation réussie une ressource FHIR (Fast Healthcare Interoperable Resources) standardisée. Le résultat est transmis via Amazon SNS, avec un résumé technique pour les gestionnaires de dossiers et une version simplifiée pour le patient. Les dossiers rejetés partent dans une file morte (dead letter queue) pour traitement humain. L'enjeu est considérable : le traitement manuel des formulaires papier représente encore un poste de coût majeur dans le secteur de la santé aux États-Unis, avec des erreurs de saisie, des extractions imprécises et des délais de validation qui ralentissent les remboursements. Ce pipeline réduit l'intervention humaine aux seuls cas d'exception, tout en maintenant une traçabilité complète grâce aux scores de confiance générés par Bedrock Data Automation. Pour les assureurs et les établissements de santé, l'adoption du standard FHIR est également stratégique : il facilite l'interopérabilité entre systèmes et répond aux exigences réglementaires croissantes en matière d'échange de données de santé. Cette annonce s'inscrit dans une tendance de fond où les grands fournisseurs cloud cherchent à capturer les flux de traitement documentaire des secteurs très réglementés, santé en tête. AWS positionne ici AgentCore comme une couche d'orchestration agentique prête à l'emploi, capable de gérer des workflows multi-étapes avec appels d'outils (ici createfhirclaim et searchfhirresources) sans infrastructure LLM à maintenir. La concurrence avec Azure Health Data Services et Google Cloud Healthcare API est directe. La prochaine étape logique sera l'extension à d'autres formats de formulaires médicaux et l'intégration de contrôles de conformité réglementaire automatisés, notamment autour du HIPAA, la loi américaine de protection des données de santé.

UELe standard FHIR est en cours d'adoption dans le secteur de la santé numérique européen, mais ce pipeline cible spécifiquement les formulaires de facturation américains (CMS-1500) et la réglementation HIPAA, sans impact direct sur la France ou l'UE.

OutilsOpinion

1 source

3AWS ML Blog

Rocket Close révolutionne le traitement des documents hypothécaires avec Amazon Bedrock et Amazon Textract

Rocket Close, filiale de gestion de titres et d'évaluations immobilières au sein du groupe Rocket Companies basée à Detroit, a automatisé le traitement de ses dossiers hypothécaires grâce à une solution développée en partenariat avec le AWS Generative AI Innovation Center (GenAIIC). L'entreprise traitait jusqu'à 2 000 dossiers par jour, chacun comptant en moyenne 75 pages, pour un total potentiel de plus de 500 000 documents par an. Le processus manuel exigeait jusqu'à 10 heures par dossier lors des pics de volume, soit environ 1 000 heures de travail humain quotidien, pour un coût annuel se chiffrant en millions de dollars. La nouvelle solution repose sur Amazon Textract pour la reconnaissance optique de caractères et Amazon Bedrock pour accéder à des modèles de fondation via une API unifiée. Elle atteint une précision globale de 90 % sur la segmentation, la classification et l'extraction de données, et rend le traitement 15 fois plus rapide qu'auparavant. L'impact opérationnel est considérable. En remplaçant un processus manuel chronophage par un pipeline automatisé, Rocket Close libère des ressources humaines pour des tâches à plus haute valeur ajoutée, réduit drastiquement ses coûts par dossier et élimine les goulots d'étranglement qui freinaient sa croissance. Pour les clients finaux, cela se traduit par des délais de traitement bien plus courts lors de l'achat ou du refinancement d'un bien immobilier. La solution est conçue pour absorber des volumes croissants sans dégradation de qualité, ce qui change fondamentalement les possibilités de mise à l'échelle dans un secteur où la vitesse d'instruction des prêts est un avantage concurrentiel direct. Le défi technique était loin d'être trivial : les dossiers hypothécaires sont des assemblages hétérogènes de plus de 60 types de documents différents, mêlant textes dactylographiés, notes manuscrites, tableaux, formulaires, tampons et signatures, avec une mise en forme et un ordre variables d'un dossier à l'autre. C'est précisément cette complexité structurelle qui avait jusqu'ici rendu l'automatisation difficile. L'essor des modèles de fondation multimodaux accessibles via des services managés comme Amazon Bedrock a changé la donne, en permettant une classification contextuelle robuste là où les approches règle-par-règle échouaient. Rocket Close s'inscrit ainsi dans une vague plus large de transformation documentaire dans les secteurs financiers et immobiliers, où les grands groupes cherchent à industrialiser des processus restés manuels faute d'outils suffisamment fiables. La prochaine étape pour l'entreprise sera probablement d'étendre ces capacités à d'autres types de documents tout au long de la chaîne de traitement des prêts.

OutilsOutil

1 source

4MarkTechPost

Guide de programmation pour créer des pipelines avancés d'analyse de documents avec Google LangExtract, OpenAI et visualisation interactive

Google a publié LangExtract, une bibliothèque Python conçue pour transformer des documents textuels non structurés en données exploitables par machine, en s'appuyant sur les modèles de langage d'OpenAI. L'outil s'intègre directement avec l'API OpenAI, notamment le modèle gpt-4o-mini, et permet d'analyser une large variété de documents : contrats juridiques, comptes-rendus de réunion, annonces produits ou journaux d'opérations. Le pipeline d'extraction repose sur des prompts configurables et des exemples annotés fournis par le développeur, à partir desquels LangExtract identifie des entités, des obligations, des délais, des risques ou des clauses spécifiques, tout en ancrant chaque résultat à sa position exacte dans le texte source via des intervalles de caractères. Les sorties sont générées en double format : JSONL pour le traitement programmatique, et HTML interactif pour la visualisation directe dans un environnement notebook. L'intérêt concret de LangExtract réside dans sa capacité à industrialiser l'analyse documentaire sans infrastructure lourde. Là où la lecture manuelle de centaines de contrats ou de rapports mobilise des équipes entières, un pipeline LangExtract peut extraire automatiquement les parties contractantes, les conditions de paiement, les pénalités ou les clauses de résiliation, et les organiser en tableaux Pandas directement exploitables pour des workflows d'automatisation ou des systèmes décisionnels. Pour les équipes juridiques, financières ou opérationnelles, cela représente un gain de temps considérable et une réduction des erreurs humaines sur des tâches répétitives à fort enjeu. La bibliothèque supporte également le traitement parallèle via un paramètre max_workers, ce qui rend l'approche viable à l'échelle. LangExtract s'inscrit dans une tendance plus large d'outillage autour des LLM pour l'extraction d'information structurée, un domaine en pleine expansion depuis que les modèles de fondation ont démontré leur capacité à comprendre des textes complexes. Google positionne ici un outil de niveau intermédiaire : plus accessible que de coder une chaîne d'extraction LLM from scratch, mais plus flexible que les solutions no-code. La dépendance à l'API OpenAI (et donc à gpt-4o-mini ou ses successeurs) implique des coûts variables selon le volume de documents traités, ce qui constitue une limite pour les déploiements à très grande échelle. La prochaine évolution attendue de ce type d'outil serait la compatibilité avec des modèles open-source locaux comme Ollama, afin de supprimer cette dépendance externe et de traiter des documents sensibles sans sortir les données du périmètre de l'entreprise.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic