Aller au contenu principal
ÉthiqueSiècle Digital22min

Meta accusée d’avoir piraté des millions de livres pour entraîner son IA

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Cinq géants de l'édition mondiale, Hachette, Macmillan, McGraw-Hill, Elsevier et Cengage, ont déposé une plainte collective contre Meta devant un tribunal fédéral américain, accusant l'entreprise d'avoir utilisé des millions d'ouvrages protégés par le droit d'auteur pour entraîner ses modèles d'intelligence artificielle LLaMA. L'auteur de thrillers Scott Turow, ancien président de l'Authors Guild et avocat de formation, s'est joint à l'action. Selon les plaignants, Meta aurait eu recours à LibGen, un site pirate qui héberge illégalement des millions de livres, pour constituer son corpus d'entraînement à grande échelle, sans autorisation ni compensation.

Ce procès marque un tournant dans les litiges sur le droit d'auteur et l'IA : pour la première fois, ce ne sont plus des auteurs isolés mais des maisons d'édition pesant collectivement des milliards de dollars qui s'attaquent frontalement à un géant technologique. Si les plaignants obtiennent gain de cause, les dommages et intérêts pourraient atteindre des montants records et contraindre l'ensemble de l'industrie à revoir radicalement ses pratiques d'acquisition de données d'entraînement.

Cette affaire s'inscrit dans un contexte de tensions croissantes entre l'industrie de l'IA et les ayants droit, après les poursuites déjà engagées contre OpenAI, Stability AI et Google. Des preuves internes évoquées dans d'autres dossiers suggèrent que Meta était consciente des risques juridiques liés à l'utilisation de LibGen mais a néanmoins choisi de procéder. La décision de justice pourrait établir une jurisprudence déterminante sur ce que les entreprises d'IA ont le droit d'utiliser pour former leurs modèles.

Impact France/UE

Hachette et Elsevier, maisons d'édition présentes en Europe, sont plaignantes ; une jurisprudence américaine sur l'entraînement des LLM influencera directement les pratiques des acteurs IA opérant sous l'AI Act et les litiges en cours devant les tribunaux européens.

💬 Le point de vue du dev

Des auteurs isolés, ça pouvait encore se gérer. Là, ce sont des éditeurs pesant des milliards qui ont les reins solides pour tenir un procès pendant dix ans, et des preuves internes qui montrent que Meta savait très bien ce qu'elle faisait en utilisant LibGen. Ça va coûter cher.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA
1The Verge 

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA

Meta installe en ce moment un outil de surveillance sur les ordinateurs de ses employés basés aux États-Unis, selon une information révélée par Reuters. L'outil, baptisé Model Capability Initiative (MCI), tourne en arrière-plan dans les applications et sites web liés au travail et enregistre les mouvements de souris, les clics, les frappes au clavier ainsi que des captures d'écran ponctuelles. L'objectif affiché par l'entreprise est d'utiliser ces données comportementales pour entraîner ses modèles d'intelligence artificielle à interagir avec les ordinateurs de la même façon que le font les humains au quotidien. Meta précise que les données collectées ne seront pas utilisées à des fins d'évaluation des performances des salariés. Cette initiative s'inscrit dans la course aux agents IA capables d'automatiser des tâches informatiques complexes, remplir des formulaires, naviguer dans des interfaces, exécuter des workflows bureautiques. En capturant directement les gestes réels de travailleurs qualifiés, Meta cherche à constituer un jeu de données d'entraînement à haute valeur, bien plus représentatif que des données synthétiques. Pour les employés concernés, cela soulève des questions concrètes sur la frontière entre contribution au produit et surveillance au travail. La démarche rappelle celle d'autres géants tech qui collectent des données humaines pour affiner leurs systèmes d'automatisation, comme Google ou Microsoft avec leurs outils Copilot. Meta, qui développe activement ses propres agents IA sous l'impulsion de Mark Zuckerberg, considère visiblement ses équipes internes comme un terrain d'entraînement privilégié. Le fait que le programme soit pour l'instant limité aux États-Unis suggère des contraintes légales en Europe, où le RGPD encadre strictement ce type de collecte en milieu professionnel.

UELe RGPD protège directement les salariés européens de Meta contre ce type de surveillance systématique, ce qui explique que le programme soit pour l'instant limité aux États-Unis et soulève des questions sur la conformité des pratiques de collecte de données en milieu professionnel au sein de l'UE.

ÉthiqueActu
1 source
Meta transforme ses salariés en « rats de laboratoire » pour son futur agent IA
2Le Big Data 

Meta transforme ses salariés en « rats de laboratoire » pour son futur agent IA

Meta surveille les habitudes informatiques de ses employés pour entraîner son futur agent IA. Selon des notes internes révélées par Reuters, l'entreprise a déployé un logiciel de suivi intégré à certains outils professionnels internes, capable d'enregistrer les mouvements de souris, les clics, les frappes clavier et de capturer régulièrement des captures d'écran. Ces données sont collectées sur des applications internes et des sites web professionnels, avec pour objectif de documenter précisément comment les humains interagissent avec leur machine au quotidien. Un porte-parole de Meta confirme que ces informations servent à améliorer la capacité des agents IA à réaliser des tâches concrètes : naviguer dans des menus, cliquer sur des boutons, reproduire des séquences d'actions basiques mais essentielles. L'entreprise assure également que ces données ne seront pas utilisées pour évaluer la performance individuelle des salariés. L'enjeu est considérable pour le développement des agents IA dits "computer use", capables d'opérer directement sur un ordinateur comme le ferait un humain. Les textes, images et vidéos disponibles sur internet sont déjà massivement exploités pour entraîner les grands modèles de langage, mais les données d'interaction réelle avec une interface restent rares et difficiles à obtenir à grande échelle. Des entreprises concurrentes ont recours à des environnements simulés pour générer ce type de données comportementales, une approche coûteuse et imparfaite. En mobilisant directement ses propres employés, Meta accède à des flux de comportements authentiques, dans des contextes de travail réels, ce qui représente un avantage compétitif significatif pour entraîner des agents performants sur des tâches professionnelles. Cette initiative s'inscrit dans un contexte de pression croissante chez Meta autour de l'IA. L'entreprise, qui a massivement investi dans le développement de ses modèles Llama et de ses agents conversationnels, cherche à combler son retard sur des acteurs comme OpenAI ou Google dans le domaine des agents autonomes. En parallèle, Reuters rapporte que Meta envisage de fixer des objectifs d'usage de l'IA à certains de ses personnels, et réfléchirait à une réduction potentielle de ses effectifs mondiaux pouvant atteindre 10 %. La collecte de données sur les employés soulève néanmoins des questions éthiques sur le consentement et la surveillance au travail, même si Meta la présente comme une contribution collective au progrès technologique interne. La frontière entre outil d'entraînement et surveillance professionnelle reste floue, et cette démarche pourrait alimenter les débats réglementaires sur les droits des travailleurs à l'ère de l'IA.

UELe RGPD encadre strictement la surveillance des salariés en Europe, rendant une pratique similaire juridiquement risquée pour toute entreprise opérant dans l'UE, et pourrait accélérer les débats législatifs sur les droits des travailleurs face à l'IA générative.

ÉthiqueActu
1 source
☕️ Meta veut regarder tout ce que font ses employés pour entraîner ses IA
3Next INpact 

☕️ Meta veut regarder tout ce que font ses employés pour entraîner ses IA

Meta a discrètement déployé un outil de surveillance baptisé Model Capability Initiative (MCI) sur les ordinateurs de ses employés, révèlent des mémos internes obtenus par Reuters. Concrètement, le dispositif enregistre l'intégralité des interactions des salariés avec leurs applications et sites web, mouvements de curseur, clics, frappes clavier, et effectue des captures d'écran à intervalles réguliers. L'entreprise précise que MCI n'a pas vocation à évaluer la productivité des employés ni à les surveiller au sens disciplinaire du terme, et affirme avoir mis en place des protections pour les "contenus sensibles", sans en détailler la nature. Andrew Bosworth, directeur technique du groupe, a exposé l'ambition derrière l'initiative dans un mémo interne : construire un environnement où les agents IA réalisent l'essentiel du travail pendant que les humains les dirigent, les évaluent et les corrigent. L'enjeu est précis : les modèles d'IA de Meta peinent à reproduire fidèlement les comportements humains face à un ordinateur, sélectionner une option dans un menu déroulant, enchaîner des raccourcis clavier, naviguer intuitivement entre applications. Ces lacunes limitent directement les capacités des agents IA qui prennent le contrôle d'un poste de travail à la place de l'utilisateur. En collectant des données comportementales réelles en conditions de travail, Meta espère combler ces angles morts et produire des agents capables, selon les mots de Bosworth, "d'identifier automatiquement les moments où nous avons ressenti le besoin d'intervenir, afin de faire mieux la fois suivante". C'est un pari industriel majeur : la course aux agents autonomes se joue désormais sur la qualité des données d'entraînement comportementales, et Meta entend utiliser ses propres effectifs comme terrain d'expérimentation. L'initiative se heurtera probablement à des obstacles juridiques significatifs en Europe. Le RGPD encadre strictement la collecte de données personnelles, y compris en contexte professionnel, et plusieurs législations nationales vont plus loin encore. En Italie, la surveillance électronique de la productivité des salariés est explicitement interdite. En France, si l'employeur peut accéder au matériel informatique mis à disposition des salariés, il doit préalablement informer les employés concernés et consulter les représentants du personnel, comité d'entreprise et comité social et économique. La CNIL a rappelé à plusieurs reprises que tout dispositif de surveillance doit être "strictement proportionné à l'objectif suivi" et ne peut servir à une surveillance permanente ; les keyloggers sont d'ailleurs explicitement cités parmi les outils prohibés. Meta devra donc adapter ou suspendre MCI dans plusieurs pays européens, sous peine de sanctions qui pourraient compromettre l'ensemble du programme.

UEMeta devra suspendre ou adapter son outil MCI en France et dans l'UE, où le RGPD, la CNIL (qui interdit explicitement les keyloggers) et le droit du travail français (consultation obligatoire du CSE) s'opposent à une surveillance permanente des salariés à des fins d'entraînement IA.

💬 Le problème des agents IA, c'est pas l'intelligence, c'est les micro-gestes : savoir qu'après ce menu tu fais Tab et pas clic, que ce champ se remplit dans tel ordre. Pour combler ça, Meta filme ses propres employés en permanence. Bon, sur le papier c'est du bon sens industriel, mais en Europe c'est un keylogger permanent sur du matériel pro, et la CNIL a été très claire là-dessus : non.

ÉthiqueReglementation
1 source
4Siècle Digital 

Des YouTubeurs accusent Apple d’avoir utilisé leurs vidéos pour entraîner son IA

Le fondateur de h3h3Productions, la chaîne YouTube comptant plusieurs millions d'abonnés, a déposé une action collective devant un tribunal fédéral de Californie contre Apple. Il est rejoint par deux chaînes spécialisées dans le golf, MrShortGame Golf et Golfholics. Les plaignants accusent Apple d'avoir utilisé leurs vidéos sans autorisation ni compensation pour entraîner les modèles de langage qui alimentent Apple Intelligence, le système d'IA intégré à iOS 18, iPadOS 18 et macOS Sequoia. Cette affaire illustre une tension croissante entre les créateurs de contenu numérique et les grandes entreprises technologiques qui aspirent des volumes massifs de données pour construire leurs modèles d'IA. Si le recours aboutit, il pourrait contraindre Apple à indemniser des milliers de créateurs dont les œuvres ont été ingérées sans consentement, et potentiellement redéfinir les obligations légales des entreprises en matière de collecte de données d'entraînement. Pour les YouTubeurs, dont les revenus dépendent directement de la valorisation de leur contenu, l'enjeu est autant financier que symbolique. Cette plainte s'inscrit dans une vague de litiges similaires qui secouent l'industrie de l'IA depuis 2023 : des auteurs, artistes, journaux comme le New York Times, et désormais des créateurs vidéo contestent devant les tribunaux l'utilisation de leurs œuvres par OpenAI, Meta, Google ou Stability AI. Apple, longtemps discret sur ses pratiques d'entraînement, se retrouve pour la première fois en première ligne de ces batailles juridiques qui pourraient remodeler les règles du jeu pour tout le secteur.

UEL'AI Act européen impose des obligations de transparence sur les données d'entraînement, et ce procès pourrait renforcer les revendications des créateurs de contenu européens face aux pratiques similaires des grandes plateformes opérant en Europe.

RégulationReglementation
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour