Résumé IA
Encyclopædia Britannica et Merriam-Webster ont poursuivi OpenAI en justice le 13 mars pour violation massive du copyright, alléguant que ChatGPT a utilisé sans autorisation près de 100 000 de leurs articles pour entraîner ses modèles LLM et alimenter son système RAG. La plainte accuse GPT-4 d'avoir mémorisé du contenu protégé au point de pouvoir le reproduire quasi mot pour mot. Les plaignants soutiennent que ChatGPT leur fait concurrence directement en substituant ses réponses à leur contenu, les privant ainsi de revenus.
Impact France/UECe procès renforce le débat européen sur le droit d'auteur et l'entraînement des IA, susceptible d'influencer l'application de l'AI Act et de la directive copyright en Europe.
Encyclopædia Britannica et sa filiale Merriam-Webster ont attaqué en justice OpenAI ce vendredi 13 mars. « D’après les informations dont nous disposons et ce que nous avons pu constater, ChatGPT a copié, et continue de copier, à très grande échelle les contenus protégés par le copyright des plaignants, tant pour entraîner les modèles LLM qui alimentent ChatGPT que pour compléter ou étayer la base de connaissances de ces modèles, notamment par le biais d’un modèle de génération à enrichissement contextuel [retrieval-augmented generation,RAG] », affirme la plainte [ PDF ]. Le document évoque « près de 100 000 articles en ligne » qui seraient utilisés sans l’accord des ayants droits. Les deux entreprises font remarquer que le chatbot d’OpenAI ressort « parfois des reproductions entières ou partielles des verbatims » de leurs articles et « d’autres fois, ChatGPT reformule des textes qui ressemblent, paraphrasent ou résument » leurs travaux copyrightés. « GPT-4 a lui-même « mémorisé » une grande partie du contenu protégé par le copyright de Britannica et est capable de reproduire, sur simple demande, des copies quasi mot pour mot de passages importants », ajoute la plainte. « ChatGPT prive les éditeurs web [comme Encyclopædia Britannica et sa filiale Merriam-Webster] de revenus en générant des réponses aux requêtes des utilisateurs qui se substituent au contenu de ces éditeurs et lui font directement concurrence », assurent leurs avocats. Plusieurs auteurs ont déjà porté plainte contre OpenAI pour violation du Copyright ainsi que Le New York Times , par exemple.