
Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale
Google AI vient de publier WAXAL, un jeu de données vocales ouvert couvrant 24 langues africaines, conçu pour entraîner des systèmes de reconnaissance automatique de la parole (ASR) et de synthèse vocale (TTS). Ce corpus multilingue représente une avancée significative pour des langues jusqu'ici quasi absentes des grandes bases de données ouvertes, malgré les progrès spectaculaires de la technologie vocale pour les langues dites "à haute ressource".
L'enjeu est considérable : les systèmes ASR et TTS modernes performent excellemment pour l'anglais, le mandarin ou l'espagnol, mais restent très limités pour la majorité des langues africaines, faute de données d'entraînement accessibles. En rendant WAXAL public, Google et ses collaborateurs comblent partiellement ce vide et offrent à la communauté de recherche un point de départ solide pour développer des outils vocaux adaptés à des centaines de millions de locuteurs.
La force de WAXAL réside dans son architecture duale, pensée pour répondre aux exigences techniques distinctes de chaque tâche. Le volet ASR s'appuie sur une collecte en conditions réelles : les locuteurs décrivaient des images dans leur langue maternelle, dans leur environnement naturel, produisant ainsi une parole spontanée et variée. Seuls 10 % de l'audio total ont été transcrits, par des experts linguistiques locaux rémunérés. Le volet TTS, lui, repose sur des enregistrements studio avec 72 acteurs vocaux (parité hommes-femmes), à partir de scripts phonétiquement équilibrés d'environ 108 500 mots par langue, pour un objectif d'environ 16 heures d'audio propre par locuteur.
Cette distinction méthodologique — souvent négligée dans d'autres corpus — est précisément ce qui rend WAXAL pertinent pour la recherche appliquée. En séparant clairement les données de reconnaissance et de synthèse, le projet évite le piège du "tout-en-un" et propose des ressources directement exploitables par les équipes travaillant sur l'inclusion linguistique en Afrique subsaharienne.
La France, en tant qu'acteur majeur de la francophonie africaine, pourrait bénéficier de ces ressources pour développer des outils vocaux adaptés aux communautés africaines présentes sur son territoire.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



