Aller au contenu principal
ÉthiqueNext INpact1h· 1 min de lecture

☕️ Accusée d’acheter de vieux livres pour entrainer des IA, Zoom Books nie

Source originale ↗·

Depuis plusieurs semaines, des libraires alertent sur Reddit à propos de Zoom Books, une entreprise canadienne qui passerait commande en masse de vieux ouvrages dans plusieurs pays simultanément : Allemagne, Espagne, États-Unis, Nouvelle-Zélande, Australie, Bulgarie et Grande-Bretagne. L'affaire a été révélée par les médias suisses RTS et SRF ainsi que par le quotidien allemand taz. Les libraires soupçonnent Zoom Books de numériser le contenu de ces livres pour entraîner des modèles d'intelligence artificielle générative, avant de détruire les exemplaires physiques. La société affirme, elle, n'acheter que des "invendus poussiéreux" datant de 1970 ou après, dotés d'un numéro ISBN, à raison d'un seul exemplaire par titre, et nie formellement numériser ou détruire quoi que ce soit. Sur la question de savoir à qui les livres sont revendus, un responsable de l'entreprise refuse de donner toute information sur les acheteurs.

Ce type de pratique, si elle était confirmée, ouvrirait une voie juridique inédite pour contourner le droit d'auteur dans l'entraînement des IA. En achetant légalement des ouvrages physiques puis en les numérisant, une entreprise pourrait invoquer le "fair use", doctrine juridique américaine souvent mobilisée par les acteurs de l'IA générative pour légitimer l'utilisation massive de contenus protégés. Pour les éditeurs et les auteurs déjà fragilisés par la montée des IA, cette approche représente une menace supplémentaire : elle contourne les plateformes de licences numériques en s'attaquant directement au stock physique.

L'affaire s'inscrit dans un contexte de tensions croissantes autour des données d'entraînement des grands modèles de langage. Plusieurs géants du secteur font face à des procès intentés par des auteurs et des éditeurs qui leur reprochent d'avoir ingéré leurs œuvres sans autorisation ni compensation. La stratégie consistant à passer par des intermédiaires discrets pour constituer des corpus d'entraînement à moindre risque juridique est déjà documentée. Le refus de Zoom Books de nommer ses acheteurs alimente les soupçons d'une chaîne d'approvisionnement délibérément opaque, conçue pour alimenter des acteurs de l'IA tout en maintenant une distance plausible avec les questions de droits.

Impact France/UE

Les achats documentés en Allemagne, Espagne et Bulgarie exposent cette pratique au droit d'auteur européen (directive DSM) et aux futures obligations de transparence sur les données d'entraînement prévues par l'AI Act.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta accusée d’avoir piraté des millions de livres pour entraîner son IA
1Siècle Digital 

Meta accusée d’avoir piraté des millions de livres pour entraîner son IA

Cinq géants de l'édition mondiale, Hachette, Macmillan, McGraw-Hill, Elsevier et Cengage, ont déposé une plainte collective contre Meta devant un tribunal fédéral américain, accusant l'entreprise d'avoir utilisé des millions d'ouvrages protégés par le droit d'auteur pour entraîner ses modèles d'intelligence artificielle LLaMA. L'auteur de thrillers Scott Turow, ancien président de l'Authors Guild et avocat de formation, s'est joint à l'action. Selon les plaignants, Meta aurait eu recours à LibGen, un site pirate qui héberge illégalement des millions de livres, pour constituer son corpus d'entraînement à grande échelle, sans autorisation ni compensation. Ce procès marque un tournant dans les litiges sur le droit d'auteur et l'IA : pour la première fois, ce ne sont plus des auteurs isolés mais des maisons d'édition pesant collectivement des milliards de dollars qui s'attaquent frontalement à un géant technologique. Si les plaignants obtiennent gain de cause, les dommages et intérêts pourraient atteindre des montants records et contraindre l'ensemble de l'industrie à revoir radicalement ses pratiques d'acquisition de données d'entraînement. Cette affaire s'inscrit dans un contexte de tensions croissantes entre l'industrie de l'IA et les ayants droit, après les poursuites déjà engagées contre OpenAI, Stability AI et Google. Des preuves internes évoquées dans d'autres dossiers suggèrent que Meta était consciente des risques juridiques liés à l'utilisation de LibGen mais a néanmoins choisi de procéder. La décision de justice pourrait établir une jurisprudence déterminante sur ce que les entreprises d'IA ont le droit d'utiliser pour former leurs modèles.

UEHachette et Elsevier, maisons d'édition présentes en Europe, sont plaignantes ; une jurisprudence américaine sur l'entraînement des LLM influencera directement les pratiques des acteurs IA opérant sous l'AI Act et les litiges en cours devant les tribunaux européens.

💬 Des auteurs isolés, ça pouvait encore se gérer. Là, ce sont des éditeurs pesant des milliards qui ont les reins solides pour tenir un procès pendant dix ans, et des preuves internes qui montrent que Meta savait très bien ce qu'elle faisait en utilisant LibGen. Ça va coûter cher.

ÉthiqueReglementation
1 source
Après les livres générés par IA, les noms d’auteurs détournés pour promouvoir de l’AI slop
2Next INpact 

Après les livres générés par IA, les noms d’auteurs détournés pour promouvoir de l’AI slop

L'écrivain français Julien Blanc-Gras, connu pour ses récits de voyage comme Gringoland (2005) ou Bungalow (2024), a découvert début 2026 que son nom était associé sur Amazon à un ouvrage qu'il n'a jamais écrit : Guide complet d'aventure : le manuel de survie du voyageur moderne, vendu 17,05 euros. Mis en ligne le 20 mars, le livre de 134 pages se présentait comme l'oeuvre de « l'auteur baroudeur et écrivain Julien Blanc-Gras ». L'auteur, dans une chronique publiée dans Le Monde, raconte avoir acheté l'objet « dans un geste masochiste » pour en examiner le contenu : couverture « hideuse », quatrième de couverture en bullet points, numéro ISBN « bidon », et des pages truffées de termes inventés comme l'« inflatrooting », le tout rédigé dans ce qu'il appelle une « novlangue de camelot sous ayahuasca refourguant des investissements en cryptomonnaies sur Instagram ». Il s'agit du premier cas documenté en langue française, mais des autrices anglophones comme Jane Friedman ou Vanessa Fox O'Loughlin avaient déjà subi le même traitement dès 2023. Ce type d'usurpation constitue une attaque directe contre la réputation d'auteurs réels, dont le nom sert à conférer une apparence de légitimité à du contenu généré automatiquement. L'IA générative abaisse le coût de production de ces livres fantômes à presque zéro, rendant l'arnaque massivement scalable. Amazon, pour sa part, avait initialement refusé d'agir dans le cas Jane Friedman, arguant que son nom n'était pas une marque déposée et donc pas protégé juridiquement, les livres n'ont disparu qu'après une prise de parole publique de l'autrice. Cette logique expose une faille systémique : les plateformes d'e-commerce ne sont pas équipées pour arbitrer entre un auteur légitime et un imposteur algorithmique, et les mécanismes de réclamation existants n'ont pas été conçus pour ce type de fraude à l'identité. La mécanique derrière ces arnaques est précise : selon David-Julien Rahmil, rédacteur en chef adjoint de l'ADN, des acteurs issus de la mouvance « hustle bros » ciblent des niches éditoriales spécifiques, ici le voyage, puis associent un nom d'auteur crédible pour faire remonter leur produit dans les algorithmes de recommandation d'Amazon. Le livre sert moins à être lu qu'à exister comme preuve d'une « méthode » revendue ensuite à prix fort sur les réseaux sociaux. Avec la démocratisation des outils de génération de texte, ce phénomène risque de s'accélérer et de s'étendre à d'autres langues et d'autres domaines, posant une question inédite sur la capacité des plateformes et du droit à protéger l'identité et l'oeuvre des créateurs face à des acteurs qui opèrent dans les angles morts des systèmes en place.

UEUn auteur français est directement victime d'usurpation d'identité éditoriale par IA, exposant une faille juridique systémique en France et en Europe : ni les plateformes ni le droit actuel ne protègent efficacement les créateurs contre cette fraude algorithmique à l'identité.

💬 Ce bouquin n'est pas fait pour être lu : c'est un support marketing, la preuve physique d'une "méthode" que des hustle bros vont revendre en story Instagram à 497 euros. Le nom de Blanc-Gras, c'est du référencement humain, rien de plus. Et quand Amazon explique qu'il ne peut pas agir parce que son nom n'est pas une marque déposée, ça dit tout sur l'angle mort dans lequel ces plateformes laissent les créateurs.

ÉthiqueOpinion
1 source
Une école voulait filmer des enfants pour entraîner l’IA : les parents pètent les plombs
3Le Big Data 

Une école voulait filmer des enfants pour entraîner l’IA : les parents pètent les plombs

L'Université de Washington a dû abandonner un projet de recherche après une levée de boucliers de parents d'élèves. L'étude prévoyait d'équiper des enseignants de maternelle de caméras embarquées et d'installer des dispositifs fixes dans les salles de classe, afin de capter les interactions quotidiennes entre professeurs et enfants. Ces enregistrements devaient alimenter des modèles d'intelligence artificielle capables d'analyser la qualité pédagogique des échanges en classe. Le dispositif reposait sur un opt-out qui incluait automatiquement tous les enfants, sauf refus explicite des parents. Selon 404 Media, qui a consulté les documents transmis aux familles, les vidéos pouvaient être traitées via des services d'IA hébergés dans le cloud, sans que les entreprises impliquées ni les modèles utilisés ne soient nommément identifiés. Face aux protestations, l'université a confirmé l'arrêt du programme peu après les premières réactions négatives. Les parents ont soulevé des questions concrètes restées sans réponse satisfaisante : que devenait l'image d'un enfant dont la famille refusait de participer, dans une classe où tous les autres élèves étaient filmés ? Les chercheurs promettaient de masquer visages et noms "dans la mesure du possible", une formulation jugée nettement insuffisante. S'y ajoutaient des problèmes d'accessibilité : de nombreuses familles issues de l'immigration ne parlaient pas anglais, et aucun formulaire traduit n'était disponible. Faith Boninger, codirectrice du National Education Policy Center, a également pointé l'opacité du dispositif, notamment l'absence de réponse claire sur qui pouvait accéder aux données, combien de temps elles seraient conservées, et qui finançait réellement la recherche. Un parent interrogé anonymement par 404 Media résumait l'inquiétude collective : "Je suis troublé par l'idée que l'image de mon enfant soit utilisée dans des outils d'IA inconnus." Cet incident s'inscrit dans un mouvement de fond : l'IA s'impose rapidement dans l'éducation, portée par des investissements massifs d'entreprises comme OpenAI, Anthropic et Microsoft, qui multiplient partenariats universitaires et accès gratuits aux outils génératifs pour les étudiants et enseignants. Mais développer des modèles spécialisés dans l'éducation nécessite des volumes considérables de données réelles, et c'est précisément là que le bât blesse. Les établissements scolaires, qui accueillent des mineurs dans un cadre légalement protégé, deviennent des terrains convoités pour la collecte de données d'entraînement. L'échec du projet de l'Université de Washington illustre la tension croissante entre les besoins de l'industrie IA et les droits fondamentaux des familles, en particulier autour du consentement éclairé. À mesure que ces projets se multiplient, la gouvernance des données issues des environnements scolaires ne peut plus être reléguée en note de bas de page d'un formulaire incompréhensible.

UELe RGPD impose en Europe un consentement explicite pour le traitement des données de mineurs, rendant un dispositif d'opt-out similaire illégal, mais l'incident souligne la vigilance nécessaire face aux projets de recherche en IA dans les établissements scolaires européens.

ÉthiqueOpinion
1 source
Comment les musiciens peuvent être rémunérés pour l'entraînement de l'IA
4IEEE Spectrum AI 

Comment les musiciens peuvent être rémunérés pour l'entraînement de l'IA

Warner Music Group a récemment acquis la startup Sureel, spécialisée dans la gestion des droits musicaux à l'ère de l'intelligence artificielle. Sureel s'est associée à l'agence suédoise de droits d'auteur STIM pour explorer un système de rémunération des artistes lorsque leur musique sert à entraîner des modèles d'IA générative. Concrètement, le logiciel de Sureel appose des métadonnées sur les fichiers audio afin d'indiquer si une entreprise d'IA est autorisée à utiliser le fichier librement, de manière limitée ou pas du tout, puis suit l'utilisation réelle pour calculer les redevances correspondantes. De son côté, la société d'IA musicale SoundVerse a publié un livre blanc en 2025 pour rejeter les rachats uniques de droits et défendre une participation continue des artistes à chaque génération d'output par un modèle. Le co-président de Sureel, Benji Rogers, et son PDG, Tamay Aykut, portent le projet, tandis que Simon Gozzi, directeur du développement chez STIM, évalue comment les rapports d'attribution de Sureel pourraient fonder de nouveaux accords de licence entre musiciens et entreprises d'IA. L'enjeu est considérable pour l'ensemble de l'industrie musicale, qui dispose depuis des décennies de mécanismes précis pour rémunérer l'utilisation des œuvres, ventes physiques, streaming, radio, reprises, karaoké. L'IA générative a fracturé cette logique en rendant floue la notion d'utilisation : une chanson utilisée une seule fois pour l'entraînement d'un modèle continue d'influencer chaque output produit par ce modèle. Sureel propose d'aller plus loin qu'une simple mesure de similarité entre la donnée d'entraînement et l'output généré, en cherchant à établir un lien de causalité réel entre les deux. Si le modèle produit du jazz, les enregistrements jazz du corpus auraient davantage contribué que les pièces folk, et seraient rémunérés en proportion. Rogers résume l'ambition : "L'attribution ne cherche pas à recréer l'ancienne économie, mais à mesurer pour la première fois ce que l'ancienne économie ne faisait qu'approximer." Ce chantier s'inscrit dans un contexte de tension croissante entre l'industrie créative et les géants de l'IA, accusés par certains de commettre "le plus grand acte de vol de droits d'auteur de l'histoire". La question de l'attribution causale reste techniquement non résolue et pourrait nécessiter des outils issus de la théorie de l'information ou une modélisation de l'impact historique des œuvres individuelles. Le risque existe aussi de voir naître une musique conçue pour maximiser les redevances d'entraînement, comme le streaming a déjà poussé les artistes à raccourcir leurs intros. Aykut suggère néanmoins que des systèmes d'attribution bien conçus pourraient valoriser les œuvres rares et originales davantage que les tubes radiophoniques, ouvrant la possibilité que l'IA devienne un vecteur de diversité musicale plutôt qu'un facteur d'uniformisation.

UELa participation de l'agence suédoise STIM à ce système d'attribution ouvre la voie à de nouveaux cadres de licence pour les artistes européens, en cohérence avec les exigences de l'AI Act sur la transparence des données d'entraînement.

💬 Ce que Sureel essaie de faire, c'est mesurer l'influence réelle d'une œuvre sur un modèle, pas juste vérifier si elle était dans le corpus de départ. Ça paraît évident dit comme ça, mais c'est techniquement non résolu, et si ça marche, ça change tout à la logique des licences forfaitaires. Le vrai risque après, c'est l'effet streaming : des artistes qui composent pour maximiser leurs redevances d'entraînement plutôt que pour les oreilles.

ÉthiqueReglementation
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic