
IBM publie Grandite 4.0 : 1 milliard de locutions pour un modèle vocal multilingue compact destiné à l'IA edge et aux pipelines de traduction
IBM vient de publier Granite 4.0 1B Speech, un modèle de reconnaissance et de traduction vocale multilingue conçu pour les déploiements en conditions contraintes — edge computing, faible latence, empreinte mémoire réduite. La particularité de cette version : elle divise par deux le nombre de paramètres de son prédécesseur granite-speech-3.3-2b, tout en étendant les capacités du modèle.
Cette sortie s'inscrit dans une tendance de fond dans l'industrie : l'optimisation des modèles pour des environnements hors cloud ou à ressources limitées. Pour les entreprises cherchant à intégrer de la transcription ou de la traduction vocale sans dépendre d'une API externe — pour des raisons de confidentialité, de coût ou de connectivité — un modèle compact et performant sous licence Apache 2.0 représente une alternative crédible aux solutions propriétaires.
Le modèle prend en charge la reconnaissance automatique de la parole (ASR) en anglais, français, allemand, espagnol, portugais et japonais, ainsi que la traduction bidirectionnelle (AST) depuis et vers l'anglais pour ces langues, avec des scénarios supplémentaires vers l'italien et le mandarin. Sur le plan des performances, Granite 4.0 1B Speech a récemment décroché la première place du classement OpenASR, avec un taux d'erreur moyen (WER) de 5,52 et un score de vitesse temps réel (RTFx) de 280,02. Sur le corpus de référence LibriSpeech Clean, le WER tombe à 1,42. Techniquement, le modèle repose sur une architecture à deux passes : la transcription audio d'abord, puis un appel séparé au modèle de langage Granite 4.0 pour tout traitement textuel en aval.
Le déploiement est supporté nativement via transformers ≥ 4.52.1 et vLLM, avec une interface compatible OpenAI API pour la mise en production. L'ajout du keyword biasing — permettant de guider la transcription vers un vocabulaire métier spécifique directement dans le prompt — et du décodage spéculatif pour accélérer l'inférence renforce l'attrait du modèle pour des usages industriels. IBM positionne ainsi Granite Speech comme une brique modulaire dans des pipelines voix-vers-texte d'entreprise, sans enfermement propriétaire.
Les entreprises européennes peuvent adopter ce modèle open-source (Apache 2.0) pour déployer de la reconnaissance vocale multilingue en local, sans dépendance cloud, ce qui facilite la conformité RGPD.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




