OutilsAWS ML Blog2h· 2 min de lecture

Associer Nova 2 Lite à Claude pour un traitement de documents à moindre coût

Amazon a publié un retour d'expérience détaillé sur une architecture combinant deux modèles d'IA pour numériser des annuaires scolaires numérisés à grande échelle. Le pipeline, développé sur Amazon Bedrock, associe Amazon Nova 2 Lite et Claude Sonnet 4.6 d'Anthropic dans deux étapes séquentielles distinctes. Testé sur 336 pages d'annuaires scannées, le système a produit 3 122 associations nom-visage, avec 93 % des correspondances atteignant un score de confiance supérieur ou égal à 0,95. La première étape confie à Nova 2 Lite l'extraction multimodale native : via un seul appel API, le modèle détecte les photos avec leurs coordonnées, extrait les noms visibles sur la page avec leurs positions approximatives, et remonte les métadonnées de la page. Claude Sonnet 4.6 intervient ensuite uniquement pour le raisonnement spatial, c'est-à-dire déterminer quel nom correspond à quel visage selon la mise en page. Ce découpage permet de limiter la sortie de Nova 2 Lite à environ 1 000 tokens par page, contre 4 500 tokens pour une passe OCR complète. Le coût total est réduit de deux tiers par rapport à un modèle unique chargé de l'intégralité de la tâche.

L'intérêt concret de cette architecture va au-delà de la numérisation d'annuaires. Elle illustre une stratégie de décomposition de tâches visuelles complexes en sous-problèmes spécialisés, permettant d'affecter à chaque étape le modèle le mieux adapté et le moins coûteux. Nova 2 Lite est configuré en mode de raisonnement LOW, le niveau minimal, sans perte mesurable de précision sur cette tâche d'extraction structurée. Claude, lui, absorbe la variabilité des mises en page sans nécessiter de prompt engineering spécifique à chaque format, grâce à ce qu'Amazon appelle son "adaptive thinking". La tarification fixe par image de Nova 2 Lite rend également le coût prévisible à grande échelle, ce qui est déterminant pour des workflows traitant des centaines de milliers de pages.

Cette publication s'inscrit dans la montée en puissance d'Amazon Bedrock comme plateforme d'orchestration multi-modèles, où différents modèles d'éditeurs tiers coexistent et peuvent être combinés. Amazon positionne Nova 2 Lite comme un modèle économique pour les tâches d'extraction à haut volume, tandis que Claude occupe le rôle de raisonneur pour les étapes à plus forte valeur ajoutée. Ce type d'architecture hybride reflète une tendance plus large dans l'industrie : plutôt que de chercher le modèle universel le plus puissant, les équipes d'ingénierie construisent des pipelines spécialisés où le coût et la précision sont optimisés étape par étape. La question des droits sur les archives numérisées, notamment pour des annuaires privés, reste un angle peu abordé mais potentiellement sensible à mesure que ces techniques se généralisent.

Dans nos dossiers

AWS Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Automatiser la génération de schémas pour le traitement intelligent de documents

Amazon Web Services vient d'enrichir son IDP Accelerator, solution open-source et serverless dédiée au traitement automatisé de documents, d'une nouvelle fonctionnalité baptisée "multi-document discovery". Jusqu'ici, exploiter le traitement intelligent de documents (IDP) exigeait de constituer manuellement un schéma de configuration pour chaque type de document à analyser : définir les classes, identifier des exemples représentatifs, spécifier les champs à extraire. Une contrainte rédhibitoire dès lors qu'une organisation se retrouve avec des milliers de documents non étiquetés et aucune visibilité sur les catégories qui les composent. La nouvelle fonctionnalité répond directement à ce problème : elle analyse une collection de documents inconnus, les regroupe automatiquement par type, puis génère les schémas de configuration prêts à l'emploi. Le pipeline repose sur AWS Step Functions pour l'orchestration, AWS Lambda pour le calcul serverless, Amazon S3 pour le stockage, et les modèles disponibles via Amazon Bedrock pour la génération des schémas, dont le modèle d'embeddings Cohere Embed v4 utilisé par défaut. L'intérêt opérationnel est considérable pour les équipes qui traitent des volumes documentaires hétérogènes. Là où le module Discovery existant nécessitait de connaître ses classes de documents à l'avance et de fournir un exemple par classe, la nouvelle approche supprime ce prérequis. Le système génère d'abord un embedding visuel pour chaque document, en se basant sur la première page uniquement pour les documents multi-pages, puis utilise le score de silhouette pour déterminer automatiquement le nombre de clusters pertinents. Un agent construit avec Strands Agents et un LLM Bedrock analyse ensuite chaque cluster pour identifier le type de document et produire un schéma. Une étape de "réflexion" finale compare l'ensemble des schémas générés pour détecter les chevauchements et incohérences avant validation humaine. Cette approche réduit drastiquement le travail préparatoire qui, à grande échelle, pouvait représenter des semaines de labelling manuel. Le choix des embeddings visuels plutôt que textuels, via OCR, est une décision technique délibérée : la mise en page, le formatage et la structure visuelle d'un document permettent de distinguer des types documentaires même lorsque leur contenu textuel se ressemble. Ce positionnement s'inscrit dans la stratégie plus large d'AWS de faire de Bedrock un socle central pour les workflows d'IA en entreprise, en y adossant des briques comme Strands Agents pour la partie agentique. La solution reste open-source, disponible sur GitHub, ce qui permet aux équipes de l'adapter à leurs propres collections. L'enjeu sous-jacent est de rendre accessibles les initiatives IDP à des organisations qui ne disposent pas des ressources pour classifier manuellement leur patrimoine documentaire avant même de commencer à en extraire de la valeur.

OutilsOutil

1 source

2AWS ML Blog

Créer un système de traitement de documents financiers avec Pulse AI et Amazon Bedrock

Pulse AI et Amazon Bedrock s'associent pour proposer un pipeline de traitement intelligent des documents financiers complexes, ciblant les établissements bancaires, les fonds d'investissement privés et les grandes entreprises. Contrairement aux outils OCR traditionnels qui traitent les documents comme de simples images, la solution combine les modèles de langage visuels de Pulse avec des composants de machine learning classiques spécifiquement conçus pour comprendre la structure des documents financiers : bilans comptables, comptes de résultats, dépôts SEC, rapports de recherche et documents d'audit. Le résultat le plus concret : un lot d'environ 1 000 documents financiers complexes, qui nécessitait auparavant plusieurs jours de traitement, est désormais traité en moins de trois heures, produisant des sorties structurées et auditables prêtes pour l'analyse. La solution est déjà déployée chez Samsung, Cloudera, Howard Hughes, ainsi que dans plusieurs institutions financières du classement Fortune 500. L'enjeu est critique pour le secteur financier : une erreur OCR dans un bilan ou un tableau à cellules fusionnées ne reste pas isolée, elle se propage en cascade à travers les calculs interconnectés, faussant l'ensemble de l'analyse. Le pipeline Pulse-Bedrock extrait les données de façon structurée et sémantiquement consciente, puis utilise Amazon Bedrock pour affiner les modèles Nova d'Amazon sur ces données de haute qualité. L'organisation obtient ainsi un modèle de langage personnalisé, entraîné sur ses propres conventions financières, capable de traiter les nouveaux documents avec une compréhension spécifique à l'entreprise. La révision manuelle, qui prenait des jours, se réduit à quelques heures. Ce développement s'inscrit dans une course à l'automatisation documentaire dans laquelle les institutions financières investissent massivement, sous la pression de volumes croissants de rapports réglementaires et de due diligence. Amazon Bedrock se positionne ici comme infrastructure de fine-tuning clé en main, sans gestion d'infrastructure ML ni planification de capacité, ce qui réduit la barrière d'entrée pour les équipes sans expertise MLOps. Pour Pulse AI, ce partenariat valide son approche hybride vision-langage face aux acteurs OCR historiques comme ABBYY ou aux offres cloud génériques de Google Document AI et Azure Form Recognizer. La prochaine étape logique est l'extension à d'autres verticales documentaires lourdes, comme le juridique ou le médical, où les mêmes problèmes de structure complexe et de dépendances contextuelles se posent.

OutilsOutil

1 source

3AWS ML Blog

Popsa utilise Amazon Nova pour suggérer des titres personnalisés à ses clients

La société britannique Popsa, spécialisée dans la création automatisée de livres photo et présente dans plus de 50 pays en 12 langues, a refondu en profondeur sa fonctionnalité de suggestion de titres en intégrant les modèles d'Amazon Bedrock. Lancée en 2021, cette fonction génère automatiquement des titres et sous-titres pour la couverture des livres photo à partir des métadonnées des images (horodatage, géolocalisation) et d'une analyse visuelle par réseaux neuronaux convolutifs embarqués sur mobile. Dès juin 2024, l'équipe a identifié l'opportunité d'y injecter de l'IA générative pour dépasser les suggestions rigides issues de règles algorithmiques. La solution déployée combine Amazon Nova Lite, Amazon Nova Pro et Claude 3 Haiku d'Anthropic via l'API unifiée d'Amazon Bedrock, avec une approche de génération augmentée par récupération (RAG). Les contraintes techniques étaient strictes : titres et sous-titres limités à 36 caractères chacun pour s'adapter à la mise en page, catégorie valide parmi une liste prédéfinie pour déclencher l'affichage de l'icône correspondante, et réponse obligatoirement formatée en JSON avec les clés title, subtitle et category. En 2025, le système a produit plus de 5,5 millions de titres personnalisés. L'impact est concret et mesurable : Popsa enregistre une hausse de la satisfaction client, une amélioration du taux d'engagement et une progression du taux d'achat depuis le déploiement. La qualité des suggestions a augmenté, les coûts d'inférence ont diminué et les temps de réponse ont été réduits. Pour l'utilisateur, la différence est tangible : plutôt que de se contenter d'un générique "Photos France 2024", il reçoit des propositions créatives, personnalisées selon le contenu réel des photos, disponibles dans les 12 langues de l'application. Le tout sans aucune complexité supplémentaire côté interface, conformément à la philosophie fondatrice de Popsa : laisser la technologie faire le travail à la place de l'utilisateur. Popsa s'appuie sur une culture d'automatisation installée depuis 2016 avec son algorithme PrintAI, capable de concevoir un livre photo à l'aspect professionnel en moins de cinq minutes. Cette évolution vers l'IA générative s'inscrit dans une trajectoire naturelle pour une entreprise dont le modèle repose sur la réduction de la friction créative. Le choix d'Amazon Bedrock comme infrastructure centralisée permet de switcher entre modèles selon les besoins de coût, de vitesse ou de qualité, un avantage décisif pour un produit grand public à fort volume. La construction d'un pipeline d'évaluation rigoureux, avec plus de 100 livres photo de référence et des métriques vérifiables en code, illustre une approche industrielle sérieuse de l'intégration de l'IA générative, loin des expérimentations superficielles qui caractérisent encore beaucoup de déploiements dans le secteur.

UELes utilisateurs européens et francophones de Popsa bénéficient de suggestions de titres personnalisés dans leur langue, avec une amélioration mesurable de l'expérience produit.

OutilsOutil

1 source

4AWS ML Blog

Amazon Nova 2 appliqué à la modération de contenu

Amazon a publié un guide détaillé sur l'utilisation de son modèle Nova 2 Lite pour la modération de contenus générés par les utilisateurs, en s'appuyant sur des techniques de prompting structuré plutôt que sur un entraînement personnalisé. Le système repose sur Amazon Bedrock et intègre le standard MLCommons AILuminate v1.1, une taxonomie de 12 catégories de risques organisées en trois groupes : risques physiques (crimes violents, automutilation), non-physiques (haine, atteinte à la vie privée) et contextuels (conseils spécialisés). Le pipeline fonctionne en quatre étapes : le contenu entrant est enveloppé dans un prompt avec des définitions de politique et des exemples, envoyé au modèle, puis la réponse indique si une violation est détectée, quelle catégorie est concernée, et une explication optionnelle. La configuration recommandée est une température de 0,7 et un top-p de 0,9, bien qu'une température à 0 soit possible pour des sorties déterministes. Amazon précise également que le mode raisonnement peut être désactivé pour les pipelines à fort débit, réduisant latence et coûts. L'approche par prompting présente un avantage opérationnel majeur par rapport au fine-tuning : elle ne nécessite aucune donnée d'entraînement ni personnalisation du modèle. Mettre à jour une politique de modération revient simplement à modifier le prompt, sans réentraîner quoi que ce soit. Pour des équipes qui modèrent des millions de messages, forums ou commentaires, cela représente une réduction drastique du cycle de déploiement. Nova 2 Lite est présenté comme un modèle multimodal à faible coût et à inférence rapide, conçu précisément pour ces usages à haut volume. Amazon a benchmarké ses performances face à plusieurs modèles fondamentaux concurrents sur trois jeux de données publics, positionnant Nova 2 Lite comme une option compétitive pour les entreprises qui ne veulent pas internaliser des modèles lourds. Cette publication s'inscrit dans une stratégie plus large d'Amazon pour imposer Bedrock comme infrastructure de référence pour les cas d'usage IA en production. La modération de contenu est un marché critique : les grandes plateformes (réseaux sociaux, marketplaces, forums) font face à des obligations légales croissantes en Europe et aux États-Unis pour retirer contenus illicites et discours haineux dans des délais stricts. Le standard AILuminate de MLCommons, un consortium industriel cofondé par Meta, Google et d'autres, cherche à établir des bases communes d'évaluation pour éviter que chaque acteur redéfinisse les critères de nocivité à sa guise. En ancrant son guide sur ce référentiel, Amazon positionne Nova 2 Lite non seulement comme un outil technique, mais comme une solution alignée sur les standards émergents de l'industrie, à un moment où la pression réglementaire sur la modération automatisée s'intensifie des deux côtés de l'Atlantique.

UELes plateformes européennes soumises au DSA pourraient s'appuyer sur cette solution pour automatiser la modération de contenu et respecter les délais de retrait stricts imposés par la réglementation européenne.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic