Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale
Google et ses collaborateurs lancent WAXAL, un jeu de données vocal multilingue open-source couvrant 24 langues africaines, conçu pour entraîner des modèles de reconnaissance vocale (ASR) et de synthèse vocale (TTS). Le volet ASR s'appuie sur des enregistrements naturels guidés par images, avec transcriptions réalisées par des experts linguistiques locaux, tandis que le volet TTS repose sur des enregistrements studio de haute qualité (~16h par locuteur), avec 72 acteurs vocaux et des scripts phonétiquement équilibrés d'environ 108 500 mots par langue. Ce projet vise à combler le manque criant de données pour les langues africaines, encore très sous-représentées dans les corpus ouverts.