ÉthiqueLe Big Data1h· 2 min de lecture

Vos morceaux préférés ont-ils servi à entraîner l’IA ? Cet outil a la réponse

The Atlantic a lancé un outil public baptisé AI Watchdog, développé par le journaliste Alex Reisner, permettant à n'importe qui de rechercher si ses morceaux préférés ont été utilisés pour entraîner des modèles d'intelligence artificielle. Reisner a mis la main sur quatre bases de données musicales employées dans l'entraînement de ces systèmes, deux d'entre elles étant particulièrement massives : l'une contient environ 12 millions de titres, l'autre près de 9 millions. Les deux restantes dépassent chacune les 100 000 chansons. Ces ensembles ont été téléchargés des milliers de fois par des développeurs. On y retrouve des artistes aussi divers que Lady Gaga, Radiohead, Aphex Twin, Wu-Tang Clan, Fred again.. ou Bruce Springsteen, mais aussi des compositeurs expérimentaux comme Hainbach. L'outil permet également d'explorer les livres et autres œuvres présents dans ces corpus, même si, pour l'heure, il ne précise pas quelles entreprises ont utilisé chaque jeu de données, seuls Google et Stability AI ont reconnu publiquement en avoir exploité certains.

Cette transparence inédite met en lumière une pratique jusqu'ici peu visible : la collecte massive de contenus protégés sans accord explicite des ayants droit. Certaines sources sont accessibles gratuitement, comme la Free Music Archive, qui autorise l'écoute personnelle mais exige une licence pour tout usage commercial. Or, entraîner un modèle d'IA génératif est bien un usage commercial. Pire, trois des quatre bases ne contiennent pas directement des fichiers audio, mais des listes de liens pointant vers YouTube ou Spotify ; les développeurs recourent ensuite à des outils automatisés pour aspirer les fichiers, contournant parfois les systèmes publicitaires et les mécanismes de monétisation qui rémunèrent les artistes, en violation des conditions d'utilisation de ces plateformes.

Ce travail d'investigation s'inscrit dans un bras de fer qui oppose depuis plusieurs années artistes, labels et développeurs d'IA générative musicale. Des startups comme Suno et Udio font face à des poursuites judiciaires de la part de grandes maisons de disques, qui leur reprochent exactement ce type de pratiques. La question du consentement et de la rémunération des créateurs n'est toujours pas résolue, ni dans la musique, ni dans l'écrit ou l'image. AI Watchdog ne prouve pas en soi qu'un acte illégal a été commis, l'utilisation de données pour l'entraînement fait l'objet de débats juridiques actifs dans plusieurs pays, mais il offre aux artistes, aux avocats et aux régulateurs un outil concret pour documenter l'étendue du phénomène, à un moment où les procès se multiplient et où la pression politique sur les géants de l'IA s'intensifie.

Impact France/UE

Les artistes français et européens peuvent désormais vérifier si leurs œuvres ont été utilisées sans consentement pour entraîner des IA génératives, dans un contexte où l'exception de fouille de données prévue par l'AI Act reste un enjeu législatif actif en Europe.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Next INpact

☕️ Meta veut regarder tout ce que font ses employés pour entraîner ses IA

Meta a discrètement déployé un outil de surveillance baptisé Model Capability Initiative (MCI) sur les ordinateurs de ses employés, révèlent des mémos internes obtenus par Reuters. Concrètement, le dispositif enregistre l'intégralité des interactions des salariés avec leurs applications et sites web, mouvements de curseur, clics, frappes clavier, et effectue des captures d'écran à intervalles réguliers. L'entreprise précise que MCI n'a pas vocation à évaluer la productivité des employés ni à les surveiller au sens disciplinaire du terme, et affirme avoir mis en place des protections pour les "contenus sensibles", sans en détailler la nature. Andrew Bosworth, directeur technique du groupe, a exposé l'ambition derrière l'initiative dans un mémo interne : construire un environnement où les agents IA réalisent l'essentiel du travail pendant que les humains les dirigent, les évaluent et les corrigent. L'enjeu est précis : les modèles d'IA de Meta peinent à reproduire fidèlement les comportements humains face à un ordinateur, sélectionner une option dans un menu déroulant, enchaîner des raccourcis clavier, naviguer intuitivement entre applications. Ces lacunes limitent directement les capacités des agents IA qui prennent le contrôle d'un poste de travail à la place de l'utilisateur. En collectant des données comportementales réelles en conditions de travail, Meta espère combler ces angles morts et produire des agents capables, selon les mots de Bosworth, "d'identifier automatiquement les moments où nous avons ressenti le besoin d'intervenir, afin de faire mieux la fois suivante". C'est un pari industriel majeur : la course aux agents autonomes se joue désormais sur la qualité des données d'entraînement comportementales, et Meta entend utiliser ses propres effectifs comme terrain d'expérimentation. L'initiative se heurtera probablement à des obstacles juridiques significatifs en Europe. Le RGPD encadre strictement la collecte de données personnelles, y compris en contexte professionnel, et plusieurs législations nationales vont plus loin encore. En Italie, la surveillance électronique de la productivité des salariés est explicitement interdite. En France, si l'employeur peut accéder au matériel informatique mis à disposition des salariés, il doit préalablement informer les employés concernés et consulter les représentants du personnel, comité d'entreprise et comité social et économique. La CNIL a rappelé à plusieurs reprises que tout dispositif de surveillance doit être "strictement proportionné à l'objectif suivi" et ne peut servir à une surveillance permanente ; les keyloggers sont d'ailleurs explicitement cités parmi les outils prohibés. Meta devra donc adapter ou suspendre MCI dans plusieurs pays européens, sous peine de sanctions qui pourraient compromettre l'ensemble du programme.

UEMeta devra suspendre ou adapter son outil MCI en France et dans l'UE, où le RGPD, la CNIL (qui interdit explicitement les keyloggers) et le droit du travail français (consultation obligatoire du CSE) s'opposent à une surveillance permanente des salariés à des fins d'entraînement IA.

💬 Le problème des agents IA, c'est pas l'intelligence, c'est les micro-gestes : savoir qu'après ce menu tu fais Tab et pas clic, que ce champ se remplit dans tel ordre. Pour combler ça, Meta filme ses propres employés en permanence. Bon, sur le papier c'est du bon sens industriel, mais en Europe c'est un keylogger permanent sur du matériel pro, et la CNIL a été très claire là-dessus : non.

ÉthiqueReglementation

1 source

2IEEE Spectrum AI

Comment les musiciens peuvent être rémunérés pour l'entraînement de l'IA

Warner Music Group a récemment acquis la startup Sureel, spécialisée dans la gestion des droits musicaux à l'ère de l'intelligence artificielle. Sureel s'est associée à l'agence suédoise de droits d'auteur STIM pour explorer un système de rémunération des artistes lorsque leur musique sert à entraîner des modèles d'IA générative. Concrètement, le logiciel de Sureel appose des métadonnées sur les fichiers audio afin d'indiquer si une entreprise d'IA est autorisée à utiliser le fichier librement, de manière limitée ou pas du tout, puis suit l'utilisation réelle pour calculer les redevances correspondantes. De son côté, la société d'IA musicale SoundVerse a publié un livre blanc en 2025 pour rejeter les rachats uniques de droits et défendre une participation continue des artistes à chaque génération d'output par un modèle. Le co-président de Sureel, Benji Rogers, et son PDG, Tamay Aykut, portent le projet, tandis que Simon Gozzi, directeur du développement chez STIM, évalue comment les rapports d'attribution de Sureel pourraient fonder de nouveaux accords de licence entre musiciens et entreprises d'IA. L'enjeu est considérable pour l'ensemble de l'industrie musicale, qui dispose depuis des décennies de mécanismes précis pour rémunérer l'utilisation des œuvres, ventes physiques, streaming, radio, reprises, karaoké. L'IA générative a fracturé cette logique en rendant floue la notion d'utilisation : une chanson utilisée une seule fois pour l'entraînement d'un modèle continue d'influencer chaque output produit par ce modèle. Sureel propose d'aller plus loin qu'une simple mesure de similarité entre la donnée d'entraînement et l'output généré, en cherchant à établir un lien de causalité réel entre les deux. Si le modèle produit du jazz, les enregistrements jazz du corpus auraient davantage contribué que les pièces folk, et seraient rémunérés en proportion. Rogers résume l'ambition : "L'attribution ne cherche pas à recréer l'ancienne économie, mais à mesurer pour la première fois ce que l'ancienne économie ne faisait qu'approximer." Ce chantier s'inscrit dans un contexte de tension croissante entre l'industrie créative et les géants de l'IA, accusés par certains de commettre "le plus grand acte de vol de droits d'auteur de l'histoire". La question de l'attribution causale reste techniquement non résolue et pourrait nécessiter des outils issus de la théorie de l'information ou une modélisation de l'impact historique des œuvres individuelles. Le risque existe aussi de voir naître une musique conçue pour maximiser les redevances d'entraînement, comme le streaming a déjà poussé les artistes à raccourcir leurs intros. Aykut suggère néanmoins que des systèmes d'attribution bien conçus pourraient valoriser les œuvres rares et originales davantage que les tubes radiophoniques, ouvrant la possibilité que l'IA devienne un vecteur de diversité musicale plutôt qu'un facteur d'uniformisation.

UELa participation de l'agence suédoise STIM à ce système d'attribution ouvre la voie à de nouveaux cadres de licence pour les artistes européens, en cohérence avec les exigences de l'AI Act sur la transparence des données d'entraînement.

💬 Ce que Sureel essaie de faire, c'est mesurer l'influence réelle d'une œuvre sur un modèle, pas juste vérifier si elle était dans le corpus de départ. Ça paraît évident dit comme ça, mais c'est techniquement non résolu, et si ça marche, ça change tout à la logique des licences forfaitaires. Le vrai risque après, c'est l'effet streaming : des artistes qui composent pour maximiser leurs redevances d'entraînement plutôt que pour les oreilles.

ÉthiqueReglementation

1 source

3Le Big Data

Ces avocats ont laissé l’IA rédiger leurs dossiers, la juge les sanctionne et annule le procès

Une juge fédérale du Mississippi, Sharion Aycock, a annulé un procès et sanctionné quatre avocats après avoir découvert que les deux parties avaient utilisé des outils d'intelligence artificielle pour rédiger leurs mémoires juridiques, sans vérifier les contenus produits. L'affaire opposait l'avocat Tom Withers à la ville d'Aberdeen dans l'État du Mississippi, Withers réclamant des honoraires impayés. Les représentants des deux camps ont reconnu avoir délégué une partie de leur travail de recherche juridique à des systèmes automatisés, et avoir soumis ces documents au tribunal sans contrôle sérieux. La juge a suspendu la procédure, interdit deux des avocats de plaider pendant deux ans et infligé des amendes allant de 1 000 à 3 500 dollars selon le niveau de responsabilité de chacun. Ce qui rend cette affaire particulièrement grave, c'est qu'elle ne concerne pas des particuliers sans formation juridique tentant maladroitement de se défendre seuls, mais des professionnels du droit expérimentés. Depuis l'émergence de modèles comme ChatGPT, les tribunaux américains voient se multiplier les dossiers contenant des références juridiques inventées, des citations inexistantes et des faits erronés générés par des intelligences artificielles. Que des avocats professionnels commettent les mêmes erreurs que des justiciables non formés envoie un signal alarmant à toute la profession. Dans son ordonnance, la juge Aycock a expressément évoqué les « délires liés à l'intelligence artificielle », une formule qui traduit son exaspération face à la fréquence croissante de tels incidents. La simultanéité des fautes des deux parties est par ailleurs exceptionnelle : il est rarissime que des avocats adverses soient sanctionnés en même temps pour des comportements identiques. Le phénomène s'inscrit dans une tendance documentée à grande échelle. Le juriste Damien Charlotin, qui recense les cas de documents judiciaires contenant des éléments fabriqués par l'IA, a déjà répertorié 1 598 cas. Les juges américains sont désormais contraints d'exercer une vigilance accrue pour détecter les références fictives avant qu'elles ne s'intègrent dans des décisions de justice et ne créent des précédents corrompus. Car une citation inventée, si elle passe inaperçue, peut influencer durablement l'interprétation du droit. Cette affaire soulève une question qui dépasse les prétoires : à mesure que les outils d'IA s'imposent dans les professions réglementées, qui est responsable de la vérification des contenus produits ? La réponse de la juge Aycock est claire : l'avocat qui signe le document, quels que soient les outils qu'il a utilisés pour le préparer.

UELes avocats et professionnels du droit français et européens sont exposés aux mêmes risques liés aux hallucinations IA dans les documents judiciaires, bien qu'aucune sanction équivalente n'ait encore été prononcée dans l'UE.

ÉthiqueOpinion

1 source

4Next INpact

Les joueurs de Pokémon GO ont-ils entraîné une IA utilisée par l’armée américaine ?

Depuis 2016, les joueurs de Pokémon GO ont effectué plus de 30 milliards de scans en réalité augmentée de lieux réels dans le cadre de missions in-game : filmer un monument, tourner autour d'une statue ou d'une fontaine pour débloquer des récompenses. Ces vidéos, collectées par Niantic, la société fondée en spin-off de Google, ont alimenté un système de positionnement visuel (VPS) capable de localiser précisément des appareils sans recourir au GPS. Or, fin 2024, Niantic Spatial, la branche dédiée à la cartographie spatiale, a annoncé un partenariat avec Vantor, une entreprise spécialisée en navigation dans des environnements où le signal GPS est brouillé ou indisponible. Vantor compte parmi ses clients la NGA (National Geospatial-Intelligence Agency) et l'armée américaine, et se présente ouvertement comme un acteur des secteurs de la défense et du renseignement. C'est le site néerlandais Trouw qui a mis en lumière cette chaîne de continuité technologique, sans affirmer pour autant que des scans de joueurs pilotent aujourd'hui des drones militaires. L'affaire soulève une question de fond sur le consentement éclairé des utilisateurs. En acceptant les conditions d'utilisation de Pokémon GO, des millions de joueurs ont contribué, souvent sans en avoir conscience, à construire une carte 3D du monde réel d'une précision inégalée. Ce type de système VPS est stratégiquement précieux dans des contextes de guerre électronique, où le brouillage GPS est une tactique courante. Si le lien entre les scans des joueurs et les drones militaires reste à ce stade hypothétique, la plausibilité technologique de cette connexion suffit à alimenter une controverse légitime sur l'usage détourné de données récoltées dans un cadre ludique. En mars 2025, Niantic a revendu sa branche jeux à Scopely, filiale du fonds saoudien Savvy Games, en conservant ses actifs de cartographie au sein de la nouvelle entité indépendante Niantic Spatial. L'entreprise assure que depuis ce transfert, les données de Pokémon GO ne sont plus partagées avec Niantic Spatial, et que les scans avaient été fournis volontairement par les joueurs ayant activé la fonction. Vantor confirme de son côté ne pas utiliser les données Pokémon GO dans le cadre actuel du partenariat, mais refuse de préciser si les modèles déjà entraînés incorporent ces données historiques. Ce silence partiel illustre une zone grise réglementaire plus large : la réutilisation de données grand public à des fins militaires ou de sécurité nationale, sans mécanisme d'information ou d'opposition pour les utilisateurs d'origine.

UEDes millions de joueurs européens protégés par le RGPD pourraient être concernés par la réutilisation de leurs scans AR à des fins militaires sans consentement explicite, créant un précédent que la CNIL et les autorités de protection des données européennes pourraient être amenées à examiner.

💬 30 milliards de scans collectés en échange de Poké Balls, et personne n'a signé pour alimenter un VPS de navigation militaire. Ce que tu dois retenir, c'est pas la théorie du drone Pokémon GO (c'est du scénario pour l'instant), c'est que Vantor refuse de préciser si les modèles déjà entraînés incorporent ces données historiques. Ce silence, c'est à peu près la réponse.

ÉthiqueReglementation

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic