LLMsAWS ML Blog3h· 2 min de lecture

Le réglage fin des modèles Amazon Nova pour une extraction précise des données d'e-mails

Voici l'article traduit et résumé en français :

Parcel Perform, plateforme d'expérience de livraison basée sur l'IA destinée aux entreprises d'ecommerce, a collaboré avec le AWS Generative AI Innovation Center (GenAIIC) pour résoudre un problème concret : extraire des données structurées à partir d'emails aux formats très divers, des simples notifications aux documents HTML complexes truffés d'éléments JavaScript. L'équipe a utilisé Amazon SageMaker AI pour affiner par fine-tuning les modèles Amazon Nova Micro et Nova Lite, en s'appuyant sur l'apprentissage supervisé (SFT) combiné à la technique PEFT (Parameter-Efficient Fine-Tuning) via LoRA (Low-Rank Adaptation), une méthode qui permet de personnaliser un modèle avec peu de données d'entraînement tout en limitant les ressources de calcul nécessaires. Selon Le Vy, responsable de l'équipe IA chez Parcel Perform, le modèle Nova Micro ainsi spécialisé a atteint jusqu'à 94,77 % de précision d'extraction sur le jeu de données de test, soit une amélioration de 16,6 points de pourcentage par rapport au modèle de référence, tout en réduisant la latence d'inférence de plus de 30 % et en divisant les coûts par deux par rapport à la solution précédemment utilisée par l'entreprise.

Ces gains ne sont pas anecdotiques pour une entreprise qui traite des millions de messages email par jour : les modèles génériques peinaient à distinguer des champs proches comme les numéros de commande et les numéros de suivi, produisaient des hallucinations, et le traitement d'emails au format HTML faisait exploser les coûts en tokens. En apprenant au modèle à reconnaître les schémas de données propres à Parcel Perform, le fine-tuning a permis de résoudre simultanément trois problèmes distincts, la précision, la latence et le coût, ce qui est rare puisque ces métriques s'améliorent rarement de concert. Résultat concret : la version optimisée de Nova Micro égale ou dépasse les performances de Nova Lite tout en coûtant moins cher, ce qui a permis à Parcel Perform de déployer la solution en production pour ses opérations logistiques.

Sur le plan technique, le workflow repose sur la préparation de données d'entraînement au format de conversation Amazon Bedrock, associant le contenu d'un email aux entités à en extraire, hébergées sur Amazon S3 avant le lancement du job de fine-tuning sur SageMaker AI à l'aide d'une configuration LoRA. Le modèle final est ensuite déployé sur Amazon Bedrock en inférence à la demande, facturée au token. Ce projet illustre une tendance plus large chez AWS : pousser les entreprises à personnaliser des modèles de taille réduite, via des "recettes" Nova au format YAML qui standardisent les hyperparamètres d'entraînement, plutôt que de s'appuyer sur des modèles génériques massifs, jugés plus coûteux et moins précis sur des tâches d'extraction très spécifiques au métier.

Dans nos dossiers

AWS

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

IBM publie Granite 4.0 3B Vision : un modèle de langage visuel pour l'extraction de données documentaires en entreprise

IBM a lancé Granite 4.0 3B Vision, un modèle de langage visuel (VLM) conçu spécifiquement pour l'extraction de données documentaires en entreprise. Contrairement aux grands modèles multimodaux monolithiques, ce modèle adopte une architecture modulaire : il se présente sous forme d'adaptateur LoRA d'environ 0,5 milliard de paramètres, conçu pour se greffer sur le modèle de base Granite 4.0 Micro (3,5 milliards de paramètres). Cette configuration permet un déploiement en « double mode » — le modèle texte fonctionne de manière autonome, et le composant visuel n'est activé qu'en cas de besoin. Pour traiter les images haute résolution, le modèle découpe les documents en tuiles de 384×384 pixels via l'encodeur visuel SigLIP2 de Google, tout en conservant une vue globale réduite de l'image. Les tokens visuels sont ensuite injectés dans le modèle de langage en 8 points d'ancrage distincts grâce à l'architecture DeepStack, assurant un alignement précis entre contenu sémantique et mise en page spatiale. En matière de performances, le modèle atteint 85,5 % de correspondance exacte en extraction de paires clé-valeur sur le benchmark VAREX (zéro-shot), et se classe troisième parmi les modèles de 2 à 4 milliards de paramètres sur ce leaderboard en mars 2026. L'enjeu principal de cette sortie est de permettre aux entreprises d'automatiser l'extraction structurée de données à partir de documents complexes — tableaux financiers, graphiques analytiques, formulaires — avec un modèle compact et déployable localement. Là où les grands modèles généralistes sacrifient la précision structurelle au profit de la polyvalence, Granite 4.0 3B Vision est entraîné spécifiquement sur la conversion de graphiques en CSV ou JSON, la reconnaissance de structures de tableaux en HTML, et l'extraction de paires clé-valeur. IBM a notamment utilisé ChartNet, un dataset multimodal à l'échelle du million d'exemples, ainsi qu'une pipeline d'entraînement « guidée par le code » qui aligne le code de génération d'un graphique, son rendu visuel et la table de données sous-jacente. Cette approche permet au modèle de comprendre la relation structurelle entre une représentation visuelle et sa source, plutôt que de simplement décrire une image. Ce lancement s'inscrit dans la stratégie d'IBM de positionner sa gamme Granite comme une alternative open-source et souveraine aux solutions propriétaires de Microsoft, Google ou Anthropic pour les usages entreprise. La tendance à l'architecture modulaire — un socle texte augmenté d'adaptateurs spécialisés — reflète une évolution plus large du secteur vers des modèles efficaces en ressources, déployables sur des infrastructures maîtrisées plutôt que dans le cloud public. Avec la prolifération des obligations réglementaires autour de la traçabilité des données (RGPD, AI Act européen), des modèles capables de traiter des documents sensibles en local représentent un avantage concurrentiel significatif. La prochaine étape pour IBM sera d'intégrer ce composant dans ses pipelines documentaires Watson et de le rendre accessible via watsonx, sa plateforme d'IA d'entreprise.

UELe déploiement local de Granite 4.0 3B Vision facilite la conformité RGPD et AI Act pour les entreprises européennes traitant des documents sensibles, en évitant tout transfert vers le cloud américain.

LLMsOpinion

1 source

2AWS ML Blog

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil

1 source

3AWS ML Blog

Série Nova Forge SDK, partie 2 : guide pratique pour affiner les modèles Nova avec le mélange de données

Amazon a publié la deuxième partie de sa série de guides pratiques sur le Nova Forge SDK, consacrée au fine-tuning de ses modèles Nova grâce à une technique appelée data mixing. Le processus se déroule en cinq étapes : configuration de l'environnement, préparation des données, configuration de l'entraînement, lancement du modèle, puis évaluation. L'infrastructure requise est conséquente : le guide utilise quatre instances ml.p5.48xlarge sur Amazon SageMaker HyperPod, des machines GPU haut de gamme, accompagnées d'un cluster Kubernetes (EKS), d'un suivi d'expériences via MLflow, et d'un stockage S3. Le SDK lui-même s'installe via pip sous le nom amzn-nova-forge et s'appuie sur des outils comme HuggingFace, pandas et PyArrow. L'enjeu central de cette approche est de préserver les capacités générales d'un modèle tout en l'adaptant à un domaine métier spécifique. Amazon illustre ce point avec des chiffres concrets : en mélangeant des données clients avec des jeux de données curés par Amazon, le modèle fine-tuné a maintenu des scores quasi identiques au MMLU (un benchmark de référence en compréhension générale) tout en gagnant 12 points de F1 sur une tâche de classification "Voice of Customer" portant sur 1 420 catégories. À l'inverse, un modèle open source fine-tuné uniquement sur les données clients a perdu presque toutes ses capacités générales, un résultat rédhibitoire pour un déploiement en production. Ce guide s'inscrit dans une tendance de fond : rendre le fine-tuning de grands modèles de langage accessible aux entreprises sans qu'elles aient à sacrifier la robustesse générale de ces systèmes. Amazon, comme ses concurrents Google et Microsoft, cherche à ancrer ses clients dans son écosystème cloud en proposant des outils clés en main pour personnaliser ses modèles propriétaires. Le Nova Forge SDK est encore en accès restreint, nécessitant un onboarding spécifique et un bucket S3 privé fourni par Amazon. La complexité de l'infrastructure requise, notamment la mise en place d'un cluster HyperPod avec des instances p5, place clairement cette solution dans le segment entreprise plutôt que dans celui des équipes indépendantes. La suite de la série devrait aborder l'évaluation approfondie et le déploiement des modèles fine-tunés.

LLMsOutil

1 source

4VentureBeat AI

Le LFM2.5-230M de Liquid AI surpasse des modèles 4 fois plus grands en extraction de données et tourne partout

Liquid AI, une startup fondée par d'anciens chercheurs du MIT, a lancé le 26 juin 2026 son modèle de langage le plus compact à ce jour : LFM2.5-230M. Avec seulement 230 millions de paramètres, ce modèle de fondation est conçu pour fonctionner directement sur les appareils, smartphones, ordinateurs portables, systèmes robotiques, sans connexion permanente au cloud. Malgré sa taille réduite, il surpasse à la tâche d'extraction de données des modèles jusqu'à quatre fois plus grands, notamment le Qwen3.5-0.8B d'Alibaba (800 millions de paramètres) et le Gemma 3 1B de Google (1 milliard de paramètres). Sur un Samsung Galaxy S25 Ultra équipé d'un Snapdragon Gen4, il atteint 213 tokens par seconde en décodage ; sur un Raspberry Pi 5, il maintient 42 tokens par seconde. Sa fenêtre de contexte de 32 000 tokens lui permet d'ingérer de longs documents ou des flux continus de données de télémétrie robotique. Son empreinte mémoire reste inférieure à 400 Mo. Le modèle est entraîné sur 19 000 milliards de tokens et proposé sous licence duale : gratuit pour les entreprises générant moins de 10 millions de dollars de revenus annuels, payant au-delà. Pour les équipes data et les développeurs d'applications embarquées, l'enjeu est concret. Les entreprises s'appuient encore largement sur des pipelines ETL (Extract, Transform, Load) rigides et basés sur des règles fixes, des systèmes qui se brisent dès qu'un document change de format ou qu'un schéma évolue. LFM2.5-230M ouvre la voie à un « AI ETL » capable d'inférer automatiquement les correspondances de données, de détecter les dérives de schéma et de structurer des sources non structurées, PDF, e-mails, formulaires web, en JSON sans intervention humaine. Ce type de flux agentique léger peut désormais s'exécuter localement, sans dépendance au cloud, ce qui réduit la latence, les coûts d'infrastructure et les risques liés à la confidentialité des données. Cette sortie illustre une fracture croissante dans l'industrie de l'IA. D'un côté, Anthropic, OpenAI, Google, Microsoft et Meta poussent leurs modèles vers des centaines de milliards, voire des milliers de milliards de paramètres pour atteindre les performances dites frontier. De l'autre, une course parallèle s'intensifie autour de l'efficience architecturale pour l'inférence locale. Liquid AI mise sur son architecture LFM2, un système hybride combinant convolutions à courte portée et mécanismes d'attention groupée, qui contourne les coûts quadratiques en mémoire des transformers classiques. Cette approche permet d'obtenir des vitesses d'inférence élevées sur du matériel contraint, là où les transformers purs s'essoufflent. Le positionnement de Liquid AI, efficience plutôt que mise à l'échelle brutale, pourrait séduire un segment d'entreprises que les géants du cloud peinent à servir : celles qui ont besoin d'IA performante sans exposer leurs données ni investir dans une infrastructure coûteuse.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic