Building une NER bilingue pour la logistique cargo avec Amazon Bedrock
IBS Software, fournisseur de solutions logicielles pour l'industrie du transport aérien, a développé avec Amazon Bedrock un système de reconnaissance d'entités nommées (NER) bilingue capable de traiter automatiquement des milliers de messages de logistique cargo en anglais et en japonais. L'objectif était d'extraire 23 types d'informations différentes depuis ces emails, notamment les numéros de lettre de transport aérien (AWB), les détails de vol, les poids, dimensions, descriptions de marchandises, informations sur expéditeurs et destinataires, ou encore les instructions de livraison spéciales. Une équipe de neuf chercheurs et ingénieurs a travaillé environ quatre mois sur le projet : un premier mois consacré à l'annotation de 500 emails bilingues (350 en anglais, 150 en japonais), un deuxième mois marqué par des tentatives infructueuses avec des frameworks open source comme PyTorch et la bibliothèque TextBrewer, un troisième mois de distillation réussie via Amazon Bedrock, et un dernier mois de déploiement en production. La méthode retenue consiste à distiller les connaissances du modèle Amazon Nova Pro vers le modèle plus léger Amazon Nova Lite, entraîné sur 4 époques et 70 étapes, avec une perte ramenée de 0,05 à 0,008. Résultat : une précision de 95,085% en F1-Score, pour un coût d'inférence réduit d'un facteur 14.
Cette performance change concrètement la donne pour IBS Software et ses clients du secteur aérien, où le traitement manuel des emails cargo ralentissait les opérations et où le choix d'un modèle plus puissant se heurtait systématiquement à des coûts d'exploitation prohibitifs à grande échelle. En s'appuyant sur les capacités de distillation managée d'Amazon Bedrock plutôt que sur une infrastructure de calcul personnalisée, l'entreprise a pu déployer un pipeline de traitement en temps réel des fichiers .eml sans avoir à gérer elle-même l'hébergement des modèles. Pour l'industrie du fret aérien, dépendante de flux documentaires denses et multilingues, ce type d'automatisation réduit les délais de traitement et limite les erreurs de saisie qui peuvent retarder des expéditions.
Le projet illustre aussi les limites des approches open source pour la distillation de modèles bilingues à l'échelle de la production : configuration complexe des pipelines, absence d'infrastructure managée pour l'entraînement et le déploiement, difficulté à ajuster les hyperparamètres pour une distillation au niveau des tokens, et incompatibilité avec les flux de travail existants. Ces obstacles ont poussé IBS Software à se tourner vers Amazon Bedrock Model Distillation, une fonctionnalité qui permet de transférer les capacités de modèles avancés vers des versions plus rapides et économiques sans sacrifier la précision. Ce cas d'usage s'inscrit dans une tendance plus large où les entreprises cherchent à concilier performance des grands modèles de langage et maîtrise des coûts d'inférence à grande échelle, notamment dans des secteurs à fort volume documentaire comme la logistique.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



