Vos morceaux préférés ont-ils servi à entraîner l’IA ? Cet outil a la réponse
The Atlantic a lancé un outil public baptisé AI Watchdog, développé par le journaliste Alex Reisner, permettant à n'importe qui de rechercher si ses morceaux préférés ont été utilisés pour entraîner des modèles d'intelligence artificielle. Reisner a mis la main sur quatre bases de données musicales employées dans l'entraînement de ces systèmes, deux d'entre elles étant particulièrement massives : l'une contient environ 12 millions de titres, l'autre près de 9 millions. Les deux restantes dépassent chacune les 100 000 chansons. Ces ensembles ont été téléchargés des milliers de fois par des développeurs. On y retrouve des artistes aussi divers que Lady Gaga, Radiohead, Aphex Twin, Wu-Tang Clan, Fred again.. ou Bruce Springsteen, mais aussi des compositeurs expérimentaux comme Hainbach. L'outil permet également d'explorer les livres et autres œuvres présents dans ces corpus, même si, pour l'heure, il ne précise pas quelles entreprises ont utilisé chaque jeu de données, seuls Google et Stability AI ont reconnu publiquement en avoir exploité certains.
Cette transparence inédite met en lumière une pratique jusqu'ici peu visible : la collecte massive de contenus protégés sans accord explicite des ayants droit. Certaines sources sont accessibles gratuitement, comme la Free Music Archive, qui autorise l'écoute personnelle mais exige une licence pour tout usage commercial. Or, entraîner un modèle d'IA génératif est bien un usage commercial. Pire, trois des quatre bases ne contiennent pas directement des fichiers audio, mais des listes de liens pointant vers YouTube ou Spotify ; les développeurs recourent ensuite à des outils automatisés pour aspirer les fichiers, contournant parfois les systèmes publicitaires et les mécanismes de monétisation qui rémunèrent les artistes, en violation des conditions d'utilisation de ces plateformes.
Ce travail d'investigation s'inscrit dans un bras de fer qui oppose depuis plusieurs années artistes, labels et développeurs d'IA générative musicale. Des startups comme Suno et Udio font face à des poursuites judiciaires de la part de grandes maisons de disques, qui leur reprochent exactement ce type de pratiques. La question du consentement et de la rémunération des créateurs n'est toujours pas résolue, ni dans la musique, ni dans l'écrit ou l'image. AI Watchdog ne prouve pas en soi qu'un acte illégal a été commis, l'utilisation de données pour l'entraînement fait l'objet de débats juridiques actifs dans plusieurs pays, mais il offre aux artistes, aux avocats et aux régulateurs un outil concret pour documenter l'étendue du phénomène, à un moment où les procès se multiplient et où la pression politique sur les géants de l'IA s'intensifie.
Les artistes français et européens peuvent désormais vérifier si leurs œuvres ont été utilisées sans consentement pour entraîner des IA génératives, dans un contexte où l'exception de fouille de données prévue par l'AI Act reste un enjeu législatif actif en Europe.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




