ÉthiqueNext INpact · 2 juin 2026, 17:10· 2 min de lecture

Amnesty appelle à interdire les IA génératives entraînées sur du pillage de données

Résumé IASource uniqueImpact UE Take éditorial

Amnesty International a publié un rapport détaillé sur les violations des droits humains causées par l'intelligence artificielle générative, appelant explicitement à interdire les modèles entraînés sur du scraping de données non consenti. L'organisation analyse l'ensemble de la chaîne de production de l'IA, des fabricants de puces GPU jusqu'aux contenus générés, en passant par la constitution des jeux de données. Elle cible directement les outils grand public les plus utilisés : ChatGPT, DALL-E, Gemini, Midjourney, LLaMA, Stable Diffusion et DeepSeek. Selon Amnesty, ces modèles ont été construits à partir de données collectées "sans la connaissance ni le consentement des personnes à l'origine des données", qu'il s'agisse d'utilisateurs de réseaux sociaux ou d'artistes. La conclusion est sans appel : le scraping massif et non consenti est "fondamentalement incompatible avec le droit international relatif aux droits humains", notamment le Pacte international relatif aux droits civils et politiques adopté par l'ONU en 1966.

L'impact dépasse la seule question de la vie privée. Amnesty identifie des violations du droit à la non-discrimination, à la liberté d'expression et à la liberté de pensée. Le rapport pointe également les coûts environnementaux de l'IA générative, dont l'augmentation continue de la taille des modèles et des volumes de données nécessaires à leur entraînement affecte de manière disproportionnée les pays du Sud global. À cela s'ajoute une domination culturelle et linguistique anglophone structurelle, intégrée dès la phase de collecte des données. Pour l'ONG, derrière l'apparence de sophistication technologique se cache "une réalité faite de principes de conception qui bafouent les droits humains", comparables aux dérives des outils d'IA antérieurs à la générative.

Ce rapport s'inscrit dans un mouvement plus large de contestation juridique et institutionnelle du modèle économique des grandes plateformes d'IA. En Europe, l'organisation noyb a déjà menacé Meta d'une class action pour l'entraînement de ses modèles sur des données d'utilisateurs européens, et plusieurs artistes ainsi que des éditeurs de presse ont engagé des procédures similaires aux États-Unis contre OpenAI et Google. Le règlement européen sur l'IA impose des obligations de transparence sur les données d'entraînement, mais les ONG estiment ces mesures insuffisantes. En demandant une interdiction pure et simple des systèmes bâtis sur du scraping non consenti, Amnesty franchit un cap rhétorique notable : il ne s'agit plus de réguler ces pratiques, mais de les proscrire au nom du droit international, ce qui pourrait alimenter de nouvelles stratégies judiciaires et législatives dans les mois à venir.

Impact France/UE

L'AI Act impose déjà des obligations de transparence sur les données d'entraînement, et noyb menace Meta d'une class action pour l'exploitation des données d'utilisateurs européens, la position d'Amnesty pourrait renforcer ces procédures et peser sur les stratégies législatives et judiciaires dans l'UE dans les mois à venir.

💬 L'analyse de Mathieu

La position d'Amnesty est radicale, et c'est exactement là son intérêt : plus de régulation molle, on interdit ce qui viole les droits humains, point. Interdire ChatGPT et Gemini du jour au lendemain c'est pas pour demain, mais ancrer ce débat dans le droit international plutôt que dans la soft law de l'AI Act, c'est un changement de registre qui peut nourrir des procédures vraiment musclées. Reste à voir si les juges suivront.

Dans nos dossiers

OpenAI DeepSeek Gemini Meta IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Next INpact

Meta : les données du projet de surveillance des employés étaient accessibles en interne

Meta a suspendu son programme interne de surveillance des employés, baptisé Model Capability Initiative (MCI), après la découverte d'une faille de sécurité majeure. Lancé en avril 2026, cet outil enregistrait les mouvements de curseur, les clics, les frappes clavier et réalisait des captures d'écran périodiques sur les machines des salariés de l'entreprise. L'objectif affiché était de collecter des données comportementales pour entraîner les modèles d'intelligence artificielle de Meta, notamment pour améliorer les fonctionnalités d'agents IA. Le problème : les données ainsi récoltées se sont révélées accessibles à l'ensemble du personnel de l'entreprise. Business Insider a consulté des captures d'écran confirmant qu'il était possible d'accéder à des discussions privées, des données de performance et des transcriptions. Selon un avis de sécurité interne obtenu par Wired, les données de 45 000 tables Hive étaient exposées. Meta a classé l'incident au niveau 2 de son échelle de sévérité interne, dont le degré 0 représente la criticité maximale. L'exposition concerne des informations hautement sensibles. Des employés indiquent avoir eu accès depuis leur poste de travail à des données fiscales et médicales personnelles de leurs collègues, en violation directe des garanties formulées par l'entreprise lors du déploiement du programme. La réaction en interne a été vive : sur les canaux de messagerie interne, certains salariés ont exprimé leur colère ouvertement, l'un d'eux partageant un mème de la série The Office avec la pancarte « 0 jour depuis notre dernière bêtise ». Le CTO de Meta, Andrew Bosworth, a reconnu dans un message interne une mauvaise configuration des listes de contrôle d'accès (ACL) et annoncé une analyse complète des causes, incluant la traçabilité de chaque accès aux données compromises. Des employés réclament désormais qu'une réunion post-mortem soit organisée avec toutes les personnes concernées. Cette faille intervient dans un contexte déjà tendu autour du programme MCI. Dès son lancement, le projet avait suscité une fronde interne, contraignant Meta à introduire une fonctionnalité de pause de 30 minutes, insuffisante aux yeux de nombreux salariés qui réclamaient un bouton de désactivation complet. La suspension actuelle du programme, présentée comme temporaire le temps de l'enquête, ravive des questions plus larges sur les pratiques de collecte de données des grandes entreprises technologiques sur leurs propres employés au nom de l'entraînement de l'IA. Si Meta affirme ne pas avoir de preuve d'accès malveillant, l'incident illustre les risques concrets que font peser ces dispositifs massifs de collecte interne, et la difficulté à concilier ambitions en IA et respect élémentaire de la vie privée des travailleurs.

UELes employés de Meta en France et dans l'UE sont potentiellement concernés par ce dispositif de surveillance ; l'incident pourrait déclencher une enquête de la CNIL et met en lumière les tensions entre le RGPD, le droit du travail européen et les pratiques de collecte massive de données internes au nom de l'IA.

ÉthiqueActu

1 source

2Next INpact

L’intégration des IA génératives dans les réseaux sociaux influence l’opinion

Des chercheurs, dont les travaux ont été publiés sur la plateforme de prépublication arXiv et acceptés à la conférence ICML 2026 selon un communiqué de l'université d'Oxford, montrent que les suggestions de reformulation proposées par les IA génératives sur les réseaux sociaux peuvent biaiser durablement les débats collectifs. LinkedIn propose depuis 2024 une fonction permettant de reformuler ses publications via un grand modèle de langage avant publication, tandis que Grok, l'IA intégrée à X, propose d'ajouter du contexte à des messages publiés par d'autres utilisateurs. Pour mesurer l'ampleur du phénomène, l'équipe a d'abord testé plusieurs modèles de langage ouverts en leur demandant de rédiger et d'améliorer des publications portant sur 13 sujets politiques, à partir d'arguments originaux et de textes rédigés par des humains : tous les modèles ont introduit des biais, parfois différents de ceux exprimés lors d'une simple conversation avec le même modèle, comme sur le thème de l'athéisme. Les chercheurs ont ensuite appliqué un modèle mathématique de dynamique d'opinion établi en 1990 pour simuler l'effet de ces biais à l'échelle d'un réseau social entier. En rejouant, avec le modèle gemma-3-12b-it de Google, des données issues de Twitter, Facebook et Google+ datant de 2012 sur le thème de l'avortement, la simulation montre qu'une population initialement anti-avortement peut basculer vers une opinion majoritairement pro-choix dès que les suggestions de reformulation générées par IA entrent en jeu. Ce résultat concerne directement des centaines de millions d'utilisateurs de plateformes proposant déjà ce type d'assistance à l'écriture. Un biais individuellement minime, presque imperceptible pour l'utilisateur qui accepte une suggestion parce qu'elle lui semble « plus convaincante », peut se propager et s'amplifier via les mécanismes d'influence interpersonnelle propres aux réseaux sociaux, jusqu'à faire basculer une opinion collective sur des sujets aussi sensibles que l'avortement, l'éducation ou la religion. Contrairement à une manipulation frontale, cette influence agit sans que l'utilisateur en ait conscience : il continue de croire qu'il exprime son propre point de vue, alors que le choix des mots, effectué par le modèle de la plateforme, a orienté le sens du message. Pour LinkedIn comme pour X, cela pose la question de la transparence de ces outils, en particulier à l'approche d'échéances électorales où la formation de l'opinion publique est un enjeu majeur. Les biais des grands modèles de langage sont documentés depuis plusieurs années, mais cette étude est l'une des premières à modéliser mathématiquement leur propagation à l'échelle d'un réseau social plutôt que d'une seule conversation. Les chercheurs se sont notamment penchés sur la fonction « explique ce message » de Grok sur X, qui ajoute du contexte à une publication sans jamais réécrire le texte de son auteur, une caractéristique qui la rend, selon eux, particulièrement difficile à détecter. L'enjeu dépasse les deux plateformes étudiées : à mesure que les fonctions d'aide à l'écriture par IA se généralisent sur les messageries professionnelles et les outils de productivité, la neutralité politique et culturelle de ces systèmes devient centrale pour les régulateurs et les entreprises qui les déploient. Les auteurs appellent à davantage de transparence sur ces biais et à des audits réguliers, avant que ces outils ne deviennent un vecteur d'influence à l'échelle de millions de conversations quotidiennes.

UELes fonctions de reformulation par IA de plateformes tres utilisees en France et en Europe (LinkedIn, X) pourraient orienter subtilement l'opinion publique lors de debats sensibles ou d'echeances electorales, posant un enjeu de transparence pour les regulateurs europeens.

ÉthiquePaper

1 source

3The Verge

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA

Meta installe en ce moment un outil de surveillance sur les ordinateurs de ses employés basés aux États-Unis, selon une information révélée par Reuters. L'outil, baptisé Model Capability Initiative (MCI), tourne en arrière-plan dans les applications et sites web liés au travail et enregistre les mouvements de souris, les clics, les frappes au clavier ainsi que des captures d'écran ponctuelles. L'objectif affiché par l'entreprise est d'utiliser ces données comportementales pour entraîner ses modèles d'intelligence artificielle à interagir avec les ordinateurs de la même façon que le font les humains au quotidien. Meta précise que les données collectées ne seront pas utilisées à des fins d'évaluation des performances des salariés. Cette initiative s'inscrit dans la course aux agents IA capables d'automatiser des tâches informatiques complexes, remplir des formulaires, naviguer dans des interfaces, exécuter des workflows bureautiques. En capturant directement les gestes réels de travailleurs qualifiés, Meta cherche à constituer un jeu de données d'entraînement à haute valeur, bien plus représentatif que des données synthétiques. Pour les employés concernés, cela soulève des questions concrètes sur la frontière entre contribution au produit et surveillance au travail. La démarche rappelle celle d'autres géants tech qui collectent des données humaines pour affiner leurs systèmes d'automatisation, comme Google ou Microsoft avec leurs outils Copilot. Meta, qui développe activement ses propres agents IA sous l'impulsion de Mark Zuckerberg, considère visiblement ses équipes internes comme un terrain d'entraînement privilégié. Le fait que le programme soit pour l'instant limité aux États-Unis suggère des contraintes légales en Europe, où le RGPD encadre strictement ce type de collecte en milieu professionnel.

UELe RGPD protège directement les salariés européens de Meta contre ce type de surveillance systématique, ce qui explique que le programme soit pour l'instant limité aux États-Unis et soulève des questions sur la conformité des pratiques de collecte de données en milieu professionnel au sein de l'UE.

ÉthiqueActu

1 source

4Next INpact

Booster les sondages avec l’IA générative, une (fausse) bonne idée ?

En 2024, l'Ifop a publié un sondage sur l'intention de vote des enseignants aux élections européennes en s'associant avec la start-up française Fairgen, spécialisée dans la donnée synthétique. Le sondage affichait un échantillon de 8 000 personnes et 580 enseignants de collège et lycée, mais en réalité, seuls 116 enseignants avaient été interrogés. Les 464 réponses restantes avaient été générées artificiellement via la technologie "DataBoostAI" de Fairgen, décrite comme une IA générative permettant "la mise en relation holistique des données recueillies" pour produire des "échantillons synthétiques". L'information figurait dans la notice méthodologique, mais l'Ifop n'avait pas jugé utile de mentionner explicitement l'usage de l'IA générative dans ses avertissements habituels. Interrogé par Next, l'Ifop n'a pas répondu. Fairgen se présente toujours comme "pionniers de la donnée synthétique" et revendique un partenariat avec l'Ifop "depuis 2023". L'enjeu est considérable pour l'industrie du sondage : si l'IA générative permettait de multiplier virtuellement les réponses à partir d'un petit échantillon réel, les coûts d'enquête s'effondreraient et les délais de production aussi. Les instituts pourraient théoriquement sonder des sous-populations très ciblées, les enseignants, les artisans, les jeunes ruraux, sans avoir à recruter des centaines de profils rares et coûteux. Mais les statisticiens Arthur Charpentier et Guillaume Chauvet pointent le risque fondamental : les données synthétiques reproduisent les biais et corrélations du jeu d'entraînement. Interroger 116 personnes puis en "générer" 464 autres ne produit pas de nouveaux faits, cela amplifie les patterns existants, avec une illusion de précision statistique. La transparence vis-à-vis du public et des régulateurs reste aussi entière : comment évaluer la fiabilité d'un sondage électoral si les réponses ont été en partie fabriquées ? La question va bien au-delà de l'Ifop. Tous les grands instituts lorgent sur ces techniques, mais peu ont franchi le pas publiquement. Chez Ipsos/BVA, le directeur d'études Mathieu Gallard assure que les sondages d'opinion politique et électorale n'utilisent pas encore ces méthodes, tout en reconnaissant que des tests sont en cours, notamment sur des applications marketing ou dans d'autres pays. L'élection présidentielle française de 2027 pourrait devenir un terrain d'expérimentation grandeur nature pour ces technologies, dans un contexte où la défiance envers les sondages est déjà élevée. Si la tentation économique est réelle, le risque de voir des résultats électoraux influencés par des données partiellement synthétiques, sans que le grand public en soit clairement informé, pose une question de fond sur la légitimité démocratique de ces outils.

UEL'usage de données synthétiques par l'Ifop pour des sondages électoraux, et la possible généralisation de ces pratiques avant la présidentielle française de 2027, interpelle directement le cadre légal français sur la transparence des sondages d'opinion.

💬 116 personnes interrogées, 464 inventées, et l'Ifop appelle ça un sondage de 8 000 individus. Le problème, c'est pas l'IA en soi, c'est qu'on habille une économie de moyens avec un vernis de précision statistique. Avec 2027 en ligne de mire, si les instituts s'y mettent sans règles claires, on va avoir des intentions de vote basées sur des patterns amplifiés, pas sur ce que les gens pensent vraiment.

ÉthiqueActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic