
Formation de modèles de langage en azerbaïdjanais sur Amazon SageMaker AI
Azercell Telecom LLC, principal opérateur télécom d'Azerbaïdjan, a développé en six semaines un grand modèle de langage (LLM) en azerbaïdjanais sur la plateforme Amazon SageMaker AI, en partenariat avec le AWS Generative AI Innovation Center. L'objectif : doter l'entreprise d'un chatbot client et d'outils spécialisés pour les usages télécoms, en partant de zéro dans une langue pour laquelle aucun blueprint d'entraînement n'existait. Le cadre technique mis en place repose sur trois étapes séquentielles : la création d'un tokenizer sur mesure, un pré-entraînement continu à partir du modèle Llama 3.2 1B de Meta, puis un affinage supervisé via la méthode LoRA. Sur une instance ml.p5.48xlarge, les optimisations au niveau noyau permises par la bibliothèque Liger Kernels ont abouti à un débit d'entraînement supérieur de 23 % et une consommation mémoire GPU au pic réduite de 58 %. Le tokenizer azerbaïdjanais personnalisé, quant à lui, divise par deux le nombre de tokens nécessaires par mot, ce qui double concrètement la quantité de texte exploitable dans la fenêtre de contexte du modèle.
Ces résultats illustrent un défi bien réel pour l'IA appliquée aux langues à faibles ressources : l'azerbaïdjanais est une langue agglutinante, dans laquelle un seul mot peut encoder des informations grammaticales qu'une phrase anglaise exprime par plusieurs mots distincts. Les tokenizers optimisés pour l'anglais fragmentent ces formes complexes de façon inefficace, dégradant les performances et augmentant les coûts de calcul. En construisant un tokenizer monolingue sur mesure, Azercell et AWS ont résolu ce problème structurel avant même de commencer l'entraînement proprement dit, ce qui améliore chacune des étapes suivantes. Pour les entreprises qui opèrent dans des marchés linguistiques non dominants, cette approche modulaire représente un modèle reproductible : chaque composant (tokenizer, pré-entraînement, affinage) peut être optimisé indépendamment et réutilisé sur des tâches différentes.
Le projet s'inscrit dans un mouvement plus large de souveraineté linguistique numérique, alors que les LLM généralistes peinent à performer dans les dizaines de langues mal représentées dans leurs données d'entraînement. L'azerbaïdjanais partage des caractéristiques morphologiques avec le turc, le kazakh ou l'ouzbek, ce qui rend cette méthodologie potentiellement transférable à tout un ensemble de langues turcophones d'Asie centrale. Azercell prévoit de passer à des modèles de plus grande taille, pour lesquels l'entraînement distribué sur SageMaker deviendra indispensable, alors que le proof-of-concept actuel à 1 milliard de paramètres n'en avait pas encore besoin. La collaboration avec le AWS Generative AI Innovation Center suit un modèle désormais courant : un géant du cloud apporte l'ingénierie d'infrastructure, l'entreprise locale apporte la donnée et la connaissance métier, et le résultat est un actif IA propriétaire impossible à obtenir via un modèle généraliste.
La méthodologie de tokenizer sur mesure pour langues agglutinantes pourrait inspirer des initiatives similaires pour les langues régionales européennes sous-représentées (basque, hongrois, finnois), sans impact direct sur la France ou l'UE.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




