Aller au contenu principal
Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale
RechercheMarkTechPost12sem· 1 min de lecture

Google AI publie WAXAL : un jeu de données vocales africaines multilingues pour entraîner des modèles de reconnaissance automatique de la parole et de synthèse vocale

Source originale ↗·

Google AI vient de publier WAXAL, un jeu de données vocales ouvert couvrant 24 langues africaines, conçu pour entraîner des systèmes de reconnaissance automatique de la parole (ASR) et de synthèse vocale (TTS). Ce corpus multilingue représente une avancée significative pour des langues jusqu'ici quasi absentes des grandes bases de données ouvertes, malgré les progrès spectaculaires de la technologie vocale pour les langues dites "à haute ressource".

L'enjeu est considérable : les systèmes ASR et TTS modernes performent excellemment pour l'anglais, le mandarin ou l'espagnol, mais restent très limités pour la majorité des langues africaines, faute de données d'entraînement accessibles. En rendant WAXAL public, Google et ses collaborateurs comblent partiellement ce vide et offrent à la communauté de recherche un point de départ solide pour développer des outils vocaux adaptés à des centaines de millions de locuteurs.

La force de WAXAL réside dans son architecture duale, pensée pour répondre aux exigences techniques distinctes de chaque tâche. Le volet ASR s'appuie sur une collecte en conditions réelles : les locuteurs décrivaient des images dans leur langue maternelle, dans leur environnement naturel, produisant ainsi une parole spontanée et variée. Seuls 10 % de l'audio total ont été transcrits, par des experts linguistiques locaux rémunérés. Le volet TTS, lui, repose sur des enregistrements studio avec 72 acteurs vocaux (parité hommes-femmes), à partir de scripts phonétiquement équilibrés d'environ 108 500 mots par langue, pour un objectif d'environ 16 heures d'audio propre par locuteur.

Cette distinction méthodologique — souvent négligée dans d'autres corpus — est précisément ce qui rend WAXAL pertinent pour la recherche appliquée. En séparant clairement les données de reconnaissance et de synthèse, le projet évite le piège du "tout-en-un" et propose des ressources directement exploitables par les équipes travaillant sur l'inclusion linguistique en Afrique subsaharienne.

Impact France/UE

La France, en tant qu'acteur majeur de la francophonie africaine, pourrait bénéficier de ces ressources pour développer des outils vocaux adaptés aux communautés africaines présentes sur son territoire.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières
1The Decoder 

Naver utilise des données Street View réelles pour que son modèle IA ne fabrique pas de villes entières

Naver, le géant sud-coréen d'internet concurrent de Google en Corée du Sud, a présenté le "Seoul World Model", un modèle vidéo capable de simuler des environnements urbains réalistes à partir de données géométriques concrètes. Pour l'entraîner, l'entreprise a exploité plus d'un million d'images issues de son propre service Street View, permettant au modèle de s'ancrer dans la structure réelle des villes plutôt que dans des représentations approximatives. L'enjeu central est celui des hallucinations géographiques : les modèles génératifs ont tendance à inventer des bâtiments, des rues ou des configurations urbaines qui n'existent pas, rendant leur usage peu fiable pour des applications comme la navigation autonome, la simulation urbaine ou la planification architecturale. En contraignant le modèle avec des données de Street View réelles, Naver ancre les générations visuelles dans une géométrie vérifiable. Autre avantage notable : le modèle se généralise à d'autres villes sans nécessiter de fine-tuning spécifique, ce qui réduit considérablement les coûts de déploiement dans de nouveaux contextes géographiques. Cette approche s'inscrit dans une course plus large entre les acteurs de la cartographie et ceux de l'IA générative pour produire des jumeaux numériques urbains fiables. Naver, qui gère l'une des infrastructures cartographiques les plus denses d'Asie, dispose d'un avantage structurel rare : des données propriétaires à grande échelle. Google, avec Street View mondial, et des startups spécialisées comme Wayve ou Waymo sont également actifs sur ce terrain, où la qualité des données d'entraînement devient le facteur différenciant principal.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
2MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
3MarkTechPost 

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément. Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite. La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

UEL'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
4MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic