Aller au contenu principal
Extraire des données dynamiquement avec des pipelines à la demande et par lots
OutilsAWS ML Blog10h· 2 min de lecture

Extraire des données dynamiquement avec des pipelines à la demande et par lots

Source originale ↗·

Amazon Web Services propose une architecture de traitement intelligent de documents combinant deux modes d'inférence sur sa plateforme Bedrock : un pipeline à la demande, capable de traiter un document en quelques secondes, et un pipeline de traitement par lots, conçu pour absorber des volumes massifs à moindre coût. La solution s'appuie sur des modèles de langage large (LLM) pour extraire automatiquement des données structurées depuis des PDF numérisés ou des fichiers texte, y compris des documents aux formats hétérogènes. Le cas d'usage illustratif est parlant : un client disposant de plusieurs centaines de millions de baux fonciers au format PDF scanné, avec de nouveaux documents s'ajoutant chaque jour, peut désormais traiter ce backlog sans intervention humaine. Techniquement, chaque requête peut spécifier dynamiquement l'identifiant du modèle LLM, l'identifiant du prompt et sa version, ces paramètres étant récupérés depuis Amazon Bedrock Prompt Management au moment de l'exécution. Le pipeline temps réel repose sur une file SQS FIFO qui déclenche une fonction AWS Lambda : celle-ci récupère le PDF depuis S3, convertit chaque page en image PNG, compose le message à envoyer au LLM, puis stocke le résultat dans une table DynamoDB. Le pipeline batch, lui, regroupe les requêtes en un seul job d'inférence asynchrone sur Bedrock, ce qui réduit significativement les coûts.

L'enjeu concret est double : vitesse et économie. Les entreprises qui traitent des documents sensibles au facteur temps, comme des contrats ou des formulaires réglementaires, peuvent utiliser le mode à la demande et obtenir un résultat en quelques secondes. Pour les traitements différés, les grands volumes ou les migrations de données historiques, le mode batch réduit la facture d'inférence tout en libérant les équipes de toute supervision manuelle. La capacité à configurer le modèle et le prompt au niveau de chaque document est particulièrement significative : elle permet d'utiliser la même infrastructure pour des types de documents très différents, sans redéploiement ni modification du pipeline, simplement en changeant les paramètres de la requête entrante.

Cette solution s'inscrit dans une tendance de fond : l'automatisation de l'extraction d'information dans les secteurs très documentés, notamment l'immobilier, le droit, la finance et l'assurance, où des décennies de paperasse physique ou numérisée constituent un gisement de données encore inexploité. Amazon Bedrock, lancé en disponibilité générale en 2023, monte en puissance comme couche d'abstraction pour l'inférence LLM dans les entreprises, concurrençant directement les offres de Microsoft Azure AI et de Google Vertex AI. La gestion centralisée des prompts via Bedrock Prompt Management répond à un besoin croissant de gouvernance et de traçabilité des invocations IA en production, particulièrement dans les contextes réglementés. La prochaine étape logique pour AWS sera d'intégrer des capacités d'évaluation automatique de la qualité d'extraction directement dans ces pipelines.

Impact France/UE

AWS Bedrock étant disponible dans des régions européennes, les entreprises françaises et européennes des secteurs immobilier, juridique et financier peuvent déployer ces pipelines d'extraction documentaire en conservant leurs données sur l'infrastructure cloud européenne.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Rocket Close révolutionne le traitement des documents hypothécaires avec Amazon Bedrock et Amazon Textract
1AWS ML Blog 

Rocket Close révolutionne le traitement des documents hypothécaires avec Amazon Bedrock et Amazon Textract

Rocket Close, filiale de gestion de titres et d'évaluations immobilières au sein du groupe Rocket Companies basée à Detroit, a automatisé le traitement de ses dossiers hypothécaires grâce à une solution développée en partenariat avec le AWS Generative AI Innovation Center (GenAIIC). L'entreprise traitait jusqu'à 2 000 dossiers par jour, chacun comptant en moyenne 75 pages, pour un total potentiel de plus de 500 000 documents par an. Le processus manuel exigeait jusqu'à 10 heures par dossier lors des pics de volume, soit environ 1 000 heures de travail humain quotidien, pour un coût annuel se chiffrant en millions de dollars. La nouvelle solution repose sur Amazon Textract pour la reconnaissance optique de caractères et Amazon Bedrock pour accéder à des modèles de fondation via une API unifiée. Elle atteint une précision globale de 90 % sur la segmentation, la classification et l'extraction de données, et rend le traitement 15 fois plus rapide qu'auparavant. L'impact opérationnel est considérable. En remplaçant un processus manuel chronophage par un pipeline automatisé, Rocket Close libère des ressources humaines pour des tâches à plus haute valeur ajoutée, réduit drastiquement ses coûts par dossier et élimine les goulots d'étranglement qui freinaient sa croissance. Pour les clients finaux, cela se traduit par des délais de traitement bien plus courts lors de l'achat ou du refinancement d'un bien immobilier. La solution est conçue pour absorber des volumes croissants sans dégradation de qualité, ce qui change fondamentalement les possibilités de mise à l'échelle dans un secteur où la vitesse d'instruction des prêts est un avantage concurrentiel direct. Le défi technique était loin d'être trivial : les dossiers hypothécaires sont des assemblages hétérogènes de plus de 60 types de documents différents, mêlant textes dactylographiés, notes manuscrites, tableaux, formulaires, tampons et signatures, avec une mise en forme et un ordre variables d'un dossier à l'autre. C'est précisément cette complexité structurelle qui avait jusqu'ici rendu l'automatisation difficile. L'essor des modèles de fondation multimodaux accessibles via des services managés comme Amazon Bedrock a changé la donne, en permettant une classification contextuelle robuste là où les approches règle-par-règle échouaient. Rocket Close s'inscrit ainsi dans une vague plus large de transformation documentaire dans les secteurs financiers et immobiliers, où les grands groupes cherchent à industrialiser des processus restés manuels faute d'outils suffisamment fiables. La prochaine étape pour l'entreprise sera probablement d'étendre ces capacités à d'autres types de documents tout au long de la chaîne de traitement des prêts.

OutilsOutil
1 source
Guide de programmation pour créer des pipelines avancés d'analyse de documents avec Google LangExtract, OpenAI et visualisation interactive
2MarkTechPost 

Guide de programmation pour créer des pipelines avancés d'analyse de documents avec Google LangExtract, OpenAI et visualisation interactive

Google a publié LangExtract, une bibliothèque Python conçue pour transformer des documents textuels non structurés en données exploitables par machine, en s'appuyant sur les modèles de langage d'OpenAI. L'outil s'intègre directement avec l'API OpenAI, notamment le modèle gpt-4o-mini, et permet d'analyser une large variété de documents : contrats juridiques, comptes-rendus de réunion, annonces produits ou journaux d'opérations. Le pipeline d'extraction repose sur des prompts configurables et des exemples annotés fournis par le développeur, à partir desquels LangExtract identifie des entités, des obligations, des délais, des risques ou des clauses spécifiques, tout en ancrant chaque résultat à sa position exacte dans le texte source via des intervalles de caractères. Les sorties sont générées en double format : JSONL pour le traitement programmatique, et HTML interactif pour la visualisation directe dans un environnement notebook. L'intérêt concret de LangExtract réside dans sa capacité à industrialiser l'analyse documentaire sans infrastructure lourde. Là où la lecture manuelle de centaines de contrats ou de rapports mobilise des équipes entières, un pipeline LangExtract peut extraire automatiquement les parties contractantes, les conditions de paiement, les pénalités ou les clauses de résiliation, et les organiser en tableaux Pandas directement exploitables pour des workflows d'automatisation ou des systèmes décisionnels. Pour les équipes juridiques, financières ou opérationnelles, cela représente un gain de temps considérable et une réduction des erreurs humaines sur des tâches répétitives à fort enjeu. La bibliothèque supporte également le traitement parallèle via un paramètre max_workers, ce qui rend l'approche viable à l'échelle. LangExtract s'inscrit dans une tendance plus large d'outillage autour des LLM pour l'extraction d'information structurée, un domaine en pleine expansion depuis que les modèles de fondation ont démontré leur capacité à comprendre des textes complexes. Google positionne ici un outil de niveau intermédiaire : plus accessible que de coder une chaîne d'extraction LLM from scratch, mais plus flexible que les solutions no-code. La dépendance à l'API OpenAI (et donc à gpt-4o-mini ou ses successeurs) implique des coûts variables selon le volume de documents traités, ce qui constitue une limite pour les déploiements à très grande échelle. La prochaine évolution attendue de ce type d'outil serait la compatibilité avec des modèles open-source locaux comme Ollama, afin de supprimer cette dépendance externe et de traiter des documents sensibles sans sortir les données du périmètre de l'entreprise.

OutilsOutil
1 source
Comment construire un système d'agents IA avec routage dynamique des outils, planification et injection de contexte
3MarkTechPost 

Comment construire un système d'agents IA avec routage dynamique des outils, planification et injection de contexte

Un tutoriel récemment publié détaille la construction complète d'un système d'agent IA de type MCP (Model Context Protocol) en Python, depuis la configuration jusqu'à l'exécution de tâches réelles. Le système repose sur un serveur d'outils modulaire qui expose des capacités structurées : recherche web via DuckDuckGo, récupération de documents locaux par similarité TF-IDF, chargement de jeux de données et exécution de code Python. Le tout s'appuie sur l'API OpenAI avec le modèle gpt-4.1-mini, et mobilise des bibliothèques comme Pydantic pour la validation des schémas, scikit-learn pour la recherche vectorielle, et Rich pour l'affichage console. Les paramètres globaux limitent volontairement l'agent à trois appels d'outils maximum par tâche, cinq résultats web, et trois documents récupérés, afin de maintenir des performances prévisibles. Ce que ce tutoriel apporte de concret, c'est une réponse au problème central des agents IA en production : comment éviter qu'un agent appelle n'importe quel outil dans n'importe quel contexte. Le système implémente un routeur hybride qui combine des heuristiques simples et du raisonnement LLM pour décider dynamiquement quels outils rendre visibles selon la tâche en cours. Un agent qui répond à une question factuelle simple ne voit pas les outils d'exécution de code ; un agent qui analyse des données n'a pas accès à la recherche web si elle est inutile. Cette exposition sélective réduit les coûts d'inférence, améliore la traçabilité des décisions, et limite la surface d'erreur, trois enjeux critiques pour quiconque déploie des agents dans un environnement professionnel. Le Model Context Protocol, popularisé par Anthropic en novembre 2024 comme standard ouvert pour connecter les LLM à des outils externes, cherche à résoudre un problème de fragmentation : chaque développeur réinventait sa propre façon de brancher des modèles à des APIs ou des bases de données. Ce tutoriel illustre comment les principes MCP, notamment l'injection de contexte structuré, les politiques de routage et le contrôle d'accès aux outils, peuvent être implémentés sans framework propriétaire, en Python pur. À mesure que les systèmes multi-agents se multiplient dans les entreprises, cette approche d'exposition minimale et contrôlée des capacités s'impose comme une bonne pratique d'architecture, opposée aux agents monolithiques qui ont accès à tout et dont le comportement devient difficile à auditer ou à reproduire.

💬 Le routage sélectif des outils, c'est exactement ce qui manque à 90% des démos d'agents qu'on voit tourner. Un agent qui n'expose que ce dont il a besoin pour la tâche en cours, c'est pas glamour, mais c'est ce qui fait la différence entre un prototype et quelque chose qu'on peut vraiment auditer en prod. Reste à voir si les gens implémentent ça sérieusement ou si c'est encore du "best practice" qu'on lit le dimanche et qu'on oublie le lundi.

OutilsTuto
1 source
Comment créer des pipelines de génération de graphes de connaissances à partir de texte avec kg-gen, NetworkX et des visualisations interactives
4MarkTechPost 

Comment créer des pipelines de génération de graphes de connaissances à partir de texte avec kg-gen, NetworkX et des visualisations interactives

Une équipe de chercheurs de l'Université Stanford a publié un tutoriel complet présentant kg-gen, une bibliothèque Python open source permettant de générer automatiquement des graphes de connaissances à partir de texte non structuré. Le workflow décrit s'appuie sur trois outils principaux : kg-gen pour l'extraction des entités et relations, NetworkX pour l'analyse des structures de graphes, et PyVis ainsi que Matplotlib pour la visualisation interactive. Le processus repose sur un modèle de langage configuré via LiteLLM, une couche d'abstraction qui permet de brancher indifféremment GPT-4o-mini d'OpenAI, Claude d'Anthropic, Gemini de Google ou des modèles locaux via Ollama. À partir d'un texte simple, « Linda est la mère de Josh, Ben est son frère, Andrew son père, Josh étudie à Stanford », kg-gen identifie automatiquement les entités (Linda, Josh, Ben, Stanford) et les relations sémantiques qui les lient sous forme de triplets sujet-prédicat-objet. Pour les passages plus longs, la bibliothèque intègre un mécanisme de découpage par chunks de 800 caractères et un algorithme de clustering qui regroupe les entités synonymes, évitant ainsi les doublons lorsqu'un même concept apparaît sous plusieurs formes dans le texte source. L'intérêt concret de cet outil réside dans sa capacité à transformer des corpus textuels volumineux et désordonnés en structures de données navigables et interrogeables. Pour les équipes data, les chercheurs ou les développeurs travaillant sur des bases documentaires, cela représente un gain significatif : là où il fallait annoter manuellement les relations entre concepts, kg-gen automatise l'extraction en quelques lignes de code. Le graphe résultant peut ensuite être analysé avec NetworkX pour identifier les nœuds les plus connectés, détecter des communautés thématiques, ou mesurer la centralité de certains acteurs dans un corpus. La visualisation interactive via PyVis permet de naviguer dans le graphe directement dans un notebook Jupyter ou un navigateur, ce qui ouvre des usages en veille technologique, en analyse de réseaux d'influence ou en construction de bases de connaissances pour des systèmes RAG. kg-gen a été développé à Stanford et s'appuie en interne sur DSPy, un framework de programmation déclarative pour les LLM, pour garantir des sorties structurées et reproductibles. LiteLLM, qui sert de couche de routage, supporte une quarantaine de fournisseurs de modèles, ce qui rend le pipeline indépendant d'un prestataire unique. Ce tutoriel s'inscrit dans une tendance plus large visant à combiner les grands modèles de langage avec des représentations symboliques du savoir, à mi-chemin entre les approches purement neuronales et les systèmes expert classiques. Plusieurs grandes entreprises tech explorent cette direction pour améliorer la fiabilité des réponses de leurs IA, notamment en réduisant les hallucinations en ancrant le raisonnement dans un graphe de faits vérifiables. La prochaine étape naturelle du projet consiste à fusionner des graphes issus de sources multiples, un problème d'alignement d'entités que kg-gen aborde également dans les sections avancées du tutoriel.

OutilsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic