Aller au contenu principal
Sun Finance automatise l'extraction d'identifiants et la détection de fraude avec l'IA générative sur AWS
OutilsAWS ML Blog6sem· 2 min de lecture

Sun Finance automatise l'extraction d'identifiants et la détection de fraude avec l'IA générative sur AWS

Source originale ↗·

Sun Finance, fintech lettone fondée en 2017, a déployé en janvier 2026 un pipeline de vérification d'identité entièrement repensé grâce à l'intelligence artificielle générative d'AWS. L'entreprise, active dans neuf pays, traite un dossier de prêt toutes les 0,63 secondes et réalise plus de 4 millions d'évaluations par mois. Sur son marché des microcrédits, quelque 80 000 demandes sont soumises chaque mois, dont 60 % aboutissaient jusqu'ici dans des files d'attente de révision manuelle. En partenariat avec l'AWS Generative AI Innovation Center, Sun Finance a reconstruit son pipeline en combinant Amazon Bedrock, Amazon Textract et Amazon Rekognition. Le projet a duré 107 jours ouvrés au total, du lancement le 26 août 2025 à la mise en production le 22 janvier 2026, incluant un gel de deux semaines pendant les fêtes. Résultat : la précision d'extraction des données documentaires est passée de 79,7 % à 90,8 %, le coût unitaire par document a chuté de 91 %, et le temps de traitement est tombé de 20 heures à moins de 5 secondes.

L'impact est immédiat et quantifiable. En éliminant la majorité des interventions manuelles, Sun Finance libère environ trois équivalents temps plein dédiés à la vérification dans une seule région. La réduction du coût par dossier rend désormais rentable l'expansion vers des segments de microcrédits à faible valeur unitaire, jusqu'ici bloqués par les contraintes économiques. Pour les clients, le passage de plusieurs heures d'attente à une réponse quasi instantanée transforme radicalement l'expérience de demande de prêt. Sur le plan de la fraude, la détection automatisée par recherche de similarité vectorielle permet d'identifier les schémas répétitifs utilisés par des demandeurs malveillants qui soumettaient de multiples dossiers avec des images légèrement modifiées, environ 10 % des demandes quotidiennes étaient frauduleuses.

La première version du système de vérification d'identité de Sun Finance datait de 2019, déjà bâtie sur Rekognition et Textract. L'expansion vers des marchés émergents a mis en évidence ses limites : les langues locales sont sous-représentées dans les corpus d'entraînement des OCR traditionnels, générant des erreurs fréquentes sur des documents bilingues. Parmi les 60 % de dossiers nécessitant une révision manuelle, 80 % étaient dus à des incohérences entre les données extraites et celles saisies par les clients, et dans 60 % de ces cas, la faute revenait à l'OCR, non à l'utilisateur. La solution actuelle, fondée sur une combinaison de reconnaissance de caractères spécialisée et de structuration par grand modèle de langage, surpasse chaque outil pris isolément. Ce projet illustre une tendance de fond dans la fintech : l'IA générative ne se substitue pas aux outils OCR classiques, elle les complète pour atteindre un niveau de fiabilité industrielle que ni l'un ni l'autre n'atteignent seuls.

Impact France/UE

Sun Finance, fintech lettone opérant dans neuf pays dont plusieurs en Europe, illustre concrètement comment des acteurs européens du crédit en ligne peuvent automatiser la vérification d'identité et réduire la fraude documentaire grâce à l'IA générative, avec des résultats mesurables (−91 % de coût unitaire, précision passée de 79,7 % à 90,8 %).

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon Finance automatise le traitement des demandes réglementaires grâce à l'IA générative sur AWS
1AWS ML Blog 

Amazon Finance automatise le traitement des demandes réglementaires grâce à l'IA générative sur AWS

Les équipes Finance Technology (FinTech) d'Amazon ont déployé un système automatisé de gestion des enquêtes réglementaires, construit sur Amazon Bedrock et plusieurs services AWS. Face à des milliers de documents à traiter, en formats PDF, Word, PowerPoint et CSV, et à des délais réglementaires stricts imposés par des autorités aux exigences très différentes selon les juridictions, les équipes ont développé une application basée sur la génération augmentée par récupération (RAG). Le coeur du système repose sur Amazon Bedrock Knowledge Bases couplé à Amazon OpenSearch Serverless pour le stockage vectoriel, Claude Sonnet 4.5 comme modèle de langage via l'API Converse Stream, et Amazon DynamoDB pour la gestion de l'historique des conversations. Chaque équipe FinTech maintient sa propre base de connaissances alimentée par ses documents spécifiques. Ce système change concrètement la façon dont des équipes internes traitent des demandes réglementaires complexes, qui nécessitent de croiser des milliers de précédents documentaires tout en maintenant le fil de conversations multi-tours sur plusieurs sessions. Avant cette solution, la fragmentation des connaissances entre différents systèmes d'infrastructure Amazon rendait la synthèse d'information lente et risquée. Désormais, les réponses sont contextuelles, s'appuient sur des données historiques précises, et s'affinent de manière itérative au fil des échanges. L'enjeu de conformité est central : une réponse inexacte ou basée sur une directive réglementaire obsolète peut exposer Amazon à des violations juridiques directes. La difficulté majeure que ce projet révèle est celle de l'observabilité des systèmes d'IA dans des contextes réglementés. Les équipes ont intégré OpenTelemetry et Langfuse en auto-hébergement pour monitorer en continu les décisions du modèle, détecter les hallucinations, c'est-à-dire les cas où le modèle génère des informations absentes des documents sources, et surveiller la dérive de précision dans le temps, inévitable à mesure que les prompts, les modèles et le corpus documentaire évoluent. Le choix de ne pas mettre en cache les réponses LLM est délibéré : les enquêtes réglementaires sont trop contextuelles pour bénéficier d'un cache, dont le taux d'utilisation serait trop faible pour justifier la complexité. Ce déploiement illustre une tendance croissante chez les grandes entreprises tech à internaliser leurs systèmes RAG sur des infrastructures cloud propriétaires, plutôt que de s'appuyer sur des solutions SaaS tierces, notamment pour garder le contrôle sur la traçabilité et la conformité des réponses générées.

UELes équipes techniques européennes confrontées aux enquêtes réglementaires (RGPD, AI Act) peuvent s'inspirer de cette architecture RAG multi-sources pour automatiser leur gestion de conformité.

OutilsActu
1 source
2AWS ML Blog 

L'IA générative d'AWS au service du commerce de détail

Amazon Web Services propose une solution complète de commerce en ligne basée sur l'intelligence artificielle générative, permettant aux enseignes de déployer un système d'essayage virtuel et de recommandation de produits. Construite autour d'Amazon Nova Canvas, Amazon Rekognition et Amazon OpenSearch Serverless, l'architecture repose entièrement sur des services sans serveur (serverless) et se déploie via une seule commande grâce au modèle AWS SAM. Cinq fonctions Lambda spécialisées orchestrent les différentes capacités : interface chatbot, traitement de l'essayage virtuel, génération de recommandations, ingestion de données et recherche intelligente. Le stockage s'appuie sur des buckets S3, la recherche vectorielle sur OpenSearch Serverless, et le suivi analytique en temps réel sur DynamoDB. La solution est disponible en open source sur GitHub et peut être déployée directement dans un compte AWS, de préférence en région us-east-1. Cette technologie s'attaque à un problème économique majeur du e-commerce : l'incertitude des acheteurs face à la taille et au rendu visuel des produits, qui génère des taux de retour élevés, des coûts opérationnels importants et une frustration client. En permettant aux consommateurs de visualiser de façon réaliste un vêtement ou un accessoire porté sur eux, le système améliore directement la confiance à l'achat et réduit les retours, avec un impact mesurable sur la rentabilité. Au-delà de l'essayage, la solution intègre une recherche en langage naturel comprenant l'intention client, des recommandations visuellement pertinentes basées sur Amazon Titan Multimodal Embeddings, et un tableau de bord analytique qui aide les retailers à optimiser leur inventaire et leurs décisions merchandising. Le commerce en ligne est sous pression croissante pour reproduire l'expérience sensorielle du magasin physique, un défi que les technologies de réalité augmentée et d'IA générative commencent seulement à résoudre à grande échelle. AWS positionne cette solution autant pour ses partenaires intégrateurs que pour les retailers qui souhaitent accélérer leur transformation numérique sans développer d'infrastructure propriétaire. La conception modulaire permet d'adopter une ou plusieurs fonctionnalités de façon indépendante, abaissant ainsi la barrière à l'entrée pour les enseignes de taille intermédiaire. À mesure que les modèles de fondation d'Amazon Bedrock gagnent en disponibilité régionale et en performance, ce type de solution hybride, combinant vision par ordinateur, embeddings multimodaux et génération d'images, devrait s'imposer comme standard dans les plateformes e-commerce de nouvelle génération.

UELes retailers français et européens peuvent déployer cette solution pour réduire leurs taux de retour e-commerce, mais au prix d'une dépendance totale à l'infrastructure cloud américaine d'AWS.

OutilsOutil
1 source
Automatiser la génération de schémas pour le traitement intelligent de documents
3AWS ML Blog 

Automatiser la génération de schémas pour le traitement intelligent de documents

Amazon Web Services vient d'enrichir son IDP Accelerator, solution open-source et serverless dédiée au traitement automatisé de documents, d'une nouvelle fonctionnalité baptisée "multi-document discovery". Jusqu'ici, exploiter le traitement intelligent de documents (IDP) exigeait de constituer manuellement un schéma de configuration pour chaque type de document à analyser : définir les classes, identifier des exemples représentatifs, spécifier les champs à extraire. Une contrainte rédhibitoire dès lors qu'une organisation se retrouve avec des milliers de documents non étiquetés et aucune visibilité sur les catégories qui les composent. La nouvelle fonctionnalité répond directement à ce problème : elle analyse une collection de documents inconnus, les regroupe automatiquement par type, puis génère les schémas de configuration prêts à l'emploi. Le pipeline repose sur AWS Step Functions pour l'orchestration, AWS Lambda pour le calcul serverless, Amazon S3 pour le stockage, et les modèles disponibles via Amazon Bedrock pour la génération des schémas, dont le modèle d'embeddings Cohere Embed v4 utilisé par défaut. L'intérêt opérationnel est considérable pour les équipes qui traitent des volumes documentaires hétérogènes. Là où le module Discovery existant nécessitait de connaître ses classes de documents à l'avance et de fournir un exemple par classe, la nouvelle approche supprime ce prérequis. Le système génère d'abord un embedding visuel pour chaque document, en se basant sur la première page uniquement pour les documents multi-pages, puis utilise le score de silhouette pour déterminer automatiquement le nombre de clusters pertinents. Un agent construit avec Strands Agents et un LLM Bedrock analyse ensuite chaque cluster pour identifier le type de document et produire un schéma. Une étape de "réflexion" finale compare l'ensemble des schémas générés pour détecter les chevauchements et incohérences avant validation humaine. Cette approche réduit drastiquement le travail préparatoire qui, à grande échelle, pouvait représenter des semaines de labelling manuel. Le choix des embeddings visuels plutôt que textuels, via OCR, est une décision technique délibérée : la mise en page, le formatage et la structure visuelle d'un document permettent de distinguer des types documentaires même lorsque leur contenu textuel se ressemble. Ce positionnement s'inscrit dans la stratégie plus large d'AWS de faire de Bedrock un socle central pour les workflows d'IA en entreprise, en y adossant des briques comme Strands Agents pour la partie agentique. La solution reste open-source, disponible sur GitHub, ce qui permet aux équipes de l'adapter à leurs propres collections. L'enjeu sous-jacent est de rendre accessibles les initiatives IDP à des organisations qui ne disposent pas des ressources pour classifier manuellement leur patrimoine documentaire avant même de commencer à en extraire de la valeur.

OutilsOutil
1 source
Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS
4AWS ML Blog 

Traiter des PDF et en extraire des insights : concevoir un pipeline intelligent avec les services IA générative d'AWS

Amazon Web Services a dévoilé une architecture complète de traitement intelligent de documents reposant sur ses services d'IA générative, notamment Amazon Bedrock Data Automation (BDA). Ce service unifié permet d'extraire des informations structurées depuis des documents multimodaux, PDF, images, vidéos, fichiers audio, avec une capacité allant jusqu'à 3 000 pages et 500 Mo par requête API. Contrairement aux solutions OCR classiques qui se limitent à l'extraction de texte brut, BDA analyse le contexte, classe automatiquement chaque section d'un document dans la bonne catégorie, l'associe au bon modèle de traitement, et fournit des scores de confiance sur les données extraites. L'architecture s'appuie sur quatre couches intégrées : ingestion des fichiers via Amazon S3, extraction et stockage avec DynamoDB, couche d'intelligence sémantique via Amazon Bedrock Knowledge Base, et coordination agentique par des agents spécialisés hébergés sur Amazon Bedrock AgentCore Runtime, orchestrés par AWS Step Functions. Pour les organisations qui traitent chaque jour des millions de documents, contrats juridiques, dossiers médicaux, factures, déclarations d'assurance, cette solution répond à un goulot d'étranglement majeur : l'intervention humaine obligatoire dans les pipelines traditionnels. En automatisant la classification, la normalisation et la validation des données, BDA réduit les coûts opérationnels, accélère les délais de traitement et limite les erreurs de saisie. La capacité à relier plusieurs documents entre eux via une base de connaissances sémantique permet également des analyses croisées impossibles avec les approches OCR conventionnelles, ouvrant la voie à des cas d'usage comme l'audit automatisé de contrats ou l'analyse comparative de rapports financiers. Ce lancement s'inscrit dans une course que se livrent les grands fournisseurs cloud, AWS, Microsoft Azure et Google Cloud, pour proposer des pipelines documentaires clé en main à destination des entreprises. AWS positionne BDA comme une réponse directe aux limites des solutions point-à-point qui nécessitaient jusqu'ici d'assembler manuellement des modèles OCR, des LLM et des orchestrateurs distincts. En intégrant l'ensemble dans une API unifiée au sein de Bedrock, Amazon cherche à réduire la friction technique pour les équipes data et à accélérer l'adoption de l'IA générative dans des secteurs très réglementés comme la finance, la santé et le droit. Les prochaines évolutions attendues concernent l'élargissement des formats supportés et le renforcement des capacités d'analyse de graphiques et de visualisations complexes embarqués dans les documents.

UELes entreprises européennes des secteurs réglementés (finance, santé, droit) peuvent adopter BDA via AWS pour automatiser leurs pipelines documentaires, sous réserve de conformité RGPD quant au stockage des données dans les régions AWS européennes.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic