Aller au contenu principal
Amnesty appelle à interdire les IA génératives entraînées sur du pillage de données
ÉthiqueNext INpact1sem

Amnesty appelle à interdire les IA génératives entraînées sur du pillage de données

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Amnesty International a publié un rapport détaillé sur les violations des droits humains causées par l'intelligence artificielle générative, appelant explicitement à interdire les modèles entraînés sur du scraping de données non consenti. L'organisation analyse l'ensemble de la chaîne de production de l'IA, des fabricants de puces GPU jusqu'aux contenus générés, en passant par la constitution des jeux de données. Elle cible directement les outils grand public les plus utilisés : ChatGPT, DALL-E, Gemini, Midjourney, LLaMA, Stable Diffusion et DeepSeek. Selon Amnesty, ces modèles ont été construits à partir de données collectées "sans la connaissance ni le consentement des personnes à l'origine des données", qu'il s'agisse d'utilisateurs de réseaux sociaux ou d'artistes. La conclusion est sans appel : le scraping massif et non consenti est "fondamentalement incompatible avec le droit international relatif aux droits humains", notamment le Pacte international relatif aux droits civils et politiques adopté par l'ONU en 1966.

L'impact dépasse la seule question de la vie privée. Amnesty identifie des violations du droit à la non-discrimination, à la liberté d'expression et à la liberté de pensée. Le rapport pointe également les coûts environnementaux de l'IA générative, dont l'augmentation continue de la taille des modèles et des volumes de données nécessaires à leur entraînement affecte de manière disproportionnée les pays du Sud global. À cela s'ajoute une domination culturelle et linguistique anglophone structurelle, intégrée dès la phase de collecte des données. Pour l'ONG, derrière l'apparence de sophistication technologique se cache "une réalité faite de principes de conception qui bafouent les droits humains", comparables aux dérives des outils d'IA antérieurs à la générative.

Ce rapport s'inscrit dans un mouvement plus large de contestation juridique et institutionnelle du modèle économique des grandes plateformes d'IA. En Europe, l'organisation noyb a déjà menacé Meta d'une class action pour l'entraînement de ses modèles sur des données d'utilisateurs européens, et plusieurs artistes ainsi que des éditeurs de presse ont engagé des procédures similaires aux États-Unis contre OpenAI et Google. Le règlement européen sur l'IA impose des obligations de transparence sur les données d'entraînement, mais les ONG estiment ces mesures insuffisantes. En demandant une interdiction pure et simple des systèmes bâtis sur du scraping non consenti, Amnesty franchit un cap rhétorique notable : il ne s'agit plus de réguler ces pratiques, mais de les proscrire au nom du droit international, ce qui pourrait alimenter de nouvelles stratégies judiciaires et législatives dans les mois à venir.

Impact France/UE

L'AI Act impose déjà des obligations de transparence sur les données d'entraînement, et noyb menace Meta d'une class action pour l'exploitation des données d'utilisateurs européens, la position d'Amnesty pourrait renforcer ces procédures et peser sur les stratégies législatives et judiciaires dans l'UE dans les mois à venir.

💬 Le point de vue du dev

La position d'Amnesty est radicale, et c'est exactement là son intérêt : plus de régulation molle, on interdit ce qui viole les droits humains, point. Interdire ChatGPT et Gemini du jour au lendemain c'est pas pour demain, mais ancrer ce débat dans le droit international plutôt que dans la soft law de l'AI Act, c'est un changement de registre qui peut nourrir des procédures vraiment musclées. Reste à voir si les juges suivront.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA
1The Verge 

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA

Meta installe en ce moment un outil de surveillance sur les ordinateurs de ses employés basés aux États-Unis, selon une information révélée par Reuters. L'outil, baptisé Model Capability Initiative (MCI), tourne en arrière-plan dans les applications et sites web liés au travail et enregistre les mouvements de souris, les clics, les frappes au clavier ainsi que des captures d'écran ponctuelles. L'objectif affiché par l'entreprise est d'utiliser ces données comportementales pour entraîner ses modèles d'intelligence artificielle à interagir avec les ordinateurs de la même façon que le font les humains au quotidien. Meta précise que les données collectées ne seront pas utilisées à des fins d'évaluation des performances des salariés. Cette initiative s'inscrit dans la course aux agents IA capables d'automatiser des tâches informatiques complexes, remplir des formulaires, naviguer dans des interfaces, exécuter des workflows bureautiques. En capturant directement les gestes réels de travailleurs qualifiés, Meta cherche à constituer un jeu de données d'entraînement à haute valeur, bien plus représentatif que des données synthétiques. Pour les employés concernés, cela soulève des questions concrètes sur la frontière entre contribution au produit et surveillance au travail. La démarche rappelle celle d'autres géants tech qui collectent des données humaines pour affiner leurs systèmes d'automatisation, comme Google ou Microsoft avec leurs outils Copilot. Meta, qui développe activement ses propres agents IA sous l'impulsion de Mark Zuckerberg, considère visiblement ses équipes internes comme un terrain d'entraînement privilégié. Le fait que le programme soit pour l'instant limité aux États-Unis suggère des contraintes légales en Europe, où le RGPD encadre strictement ce type de collecte en milieu professionnel.

UELe RGPD protège directement les salariés européens de Meta contre ce type de surveillance systématique, ce qui explique que le programme soit pour l'instant limité aux États-Unis et soulève des questions sur la conformité des pratiques de collecte de données en milieu professionnel au sein de l'UE.

ÉthiqueActu
1 source
Booster les sondages avec l’IA générative, une (fausse) bonne idée ?
2Next INpact 

Booster les sondages avec l’IA générative, une (fausse) bonne idée ?

En 2024, l'Ifop a publié un sondage sur l'intention de vote des enseignants aux élections européennes en s'associant avec la start-up française Fairgen, spécialisée dans la donnée synthétique. Le sondage affichait un échantillon de 8 000 personnes et 580 enseignants de collège et lycée, mais en réalité, seuls 116 enseignants avaient été interrogés. Les 464 réponses restantes avaient été générées artificiellement via la technologie "DataBoostAI" de Fairgen, décrite comme une IA générative permettant "la mise en relation holistique des données recueillies" pour produire des "échantillons synthétiques". L'information figurait dans la notice méthodologique, mais l'Ifop n'avait pas jugé utile de mentionner explicitement l'usage de l'IA générative dans ses avertissements habituels. Interrogé par Next, l'Ifop n'a pas répondu. Fairgen se présente toujours comme "pionniers de la donnée synthétique" et revendique un partenariat avec l'Ifop "depuis 2023". L'enjeu est considérable pour l'industrie du sondage : si l'IA générative permettait de multiplier virtuellement les réponses à partir d'un petit échantillon réel, les coûts d'enquête s'effondreraient et les délais de production aussi. Les instituts pourraient théoriquement sonder des sous-populations très ciblées, les enseignants, les artisans, les jeunes ruraux, sans avoir à recruter des centaines de profils rares et coûteux. Mais les statisticiens Arthur Charpentier et Guillaume Chauvet pointent le risque fondamental : les données synthétiques reproduisent les biais et corrélations du jeu d'entraînement. Interroger 116 personnes puis en "générer" 464 autres ne produit pas de nouveaux faits, cela amplifie les patterns existants, avec une illusion de précision statistique. La transparence vis-à-vis du public et des régulateurs reste aussi entière : comment évaluer la fiabilité d'un sondage électoral si les réponses ont été en partie fabriquées ? La question va bien au-delà de l'Ifop. Tous les grands instituts lorgent sur ces techniques, mais peu ont franchi le pas publiquement. Chez Ipsos/BVA, le directeur d'études Mathieu Gallard assure que les sondages d'opinion politique et électorale n'utilisent pas encore ces méthodes, tout en reconnaissant que des tests sont en cours, notamment sur des applications marketing ou dans d'autres pays. L'élection présidentielle française de 2027 pourrait devenir un terrain d'expérimentation grandeur nature pour ces technologies, dans un contexte où la défiance envers les sondages est déjà élevée. Si la tentation économique est réelle, le risque de voir des résultats électoraux influencés par des données partiellement synthétiques, sans que le grand public en soit clairement informé, pose une question de fond sur la légitimité démocratique de ces outils.

UEL'usage de données synthétiques par l'Ifop pour des sondages électoraux, et la possible généralisation de ces pratiques avant la présidentielle française de 2027, interpelle directement le cadre légal français sur la transparence des sondages d'opinion.

💬 116 personnes interrogées, 464 inventées, et l'Ifop appelle ça un sondage de 8 000 individus. Le problème, c'est pas l'IA en soi, c'est qu'on habille une économie de moyens avec un vernis de précision statistique. Avec 2027 en ligne de mire, si les instituts s'y mettent sans règles claires, on va avoir des intentions de vote basées sur des patterns amplifiés, pas sur ce que les gens pensent vraiment.

ÉthiqueActu
1 source
La confidentialité de l'IA d'Apple est maintenue même sur les serveurs de Google, affirme l'entreprise
3Ars Technica AI 

La confidentialité de l'IA d'Apple est maintenue même sur les serveurs de Google, affirme l'entreprise

Apple a confirmé à sa conférence mondiale des développeurs (WWDC) que "Siri AI", la refonte longtemps attendue de son assistant vocal, s'appuie sur les modèles de langage Gemini de Google et tourne sur du matériel Nvidia installé dans les centres de données de Google. Cette annonce, faite à Cupertino, marque un tournant significatif : pour la première fois, une partie substantielle du traitement IA d'Apple s'effectue sur une infrastructure qu'elle ne contrôle pas directement. Malgré ce changement d'architecture, Apple maintient les mêmes engagements de confidentialité qu'elle formulait quand ses modèles tournaient exclusivement sur ses propres appareils ou serveurs. Cette évolution soulève des questions concrètes pour des centaines de millions d'utilisateurs Apple. L'entreprise a construit pendant des années une réputation commerciale autour de la protection des données personnelles : chiffrement de bout en bout, traitement local sur l'appareil pour éviter que les données ne quittent l'iPhone ou le Mac, services cloud conçus pour que même les ingénieurs d'Apple ne puissent pas lire les contenus des utilisateurs. Si ces garanties restent valables lorsque le traitement migre vers l'infrastructure d'un concurrent direct comme Google, c'est toute la crédibilité de cet argumentaire marketing qui est en jeu. Le recours aux serveurs Google n'est pas une décision prise à la légère. Apple avait développé Private Cloud Compute, un système de cloud privé reposant sur ses propres serveurs, comme solution intermédiaire pour les requêtes dépassant les capacités locales des appareils. Mais les modèles de langage puissants capables de rivaliser avec ChatGPT ou Gemini nécessitent une puissance de calcul considérable, et construire des centres de données à la hauteur des ambitions de Siri AI aurait exigé des investissements massifs qu'Apple a préféré éviter. En externalisant vers Google, Apple gagne en capacité mais s'expose à un paradoxe structurel : vendre la confidentialité comme avantage différenciant, tout en confiant une partie du traitement à un acteur dont le modèle économique repose historiquement sur la valorisation des données.

UELes centaines de millions d'utilisateurs Apple en Europe pourraient voir leurs données traitées sur l'infrastructure Google, soulevant des questions de conformité au RGPD et remettant en cause la validité des engagements de confidentialité d'Apple en droit européen.

ÉthiqueOpinion
1 source
4The Verge AI 

L'article sur l'IA n'a pas besoin d'illustrations générées par l'IA

Le New Yorker a publié un portrait de Sam Altman, PDG d'OpenAI, illustré par une image générée avec l'intelligence artificielle, signée de l'artiste David Szauder. L'illustration montre Altman entouré de visages flottants aux expressions diverses, certains à peine reconnaissables. La mention "Generated using A.I." figure en bas de page, dans une transparence qui n'est pas passée inaperçue dans le milieu de l'illustration professionnelle. Ce choix éditorial relance le débat sur l'utilisation de l'IA générative dans les médias de prestige. Pour les illustrateurs et artistes, voir une publication aussi établie que le New Yorker recourir à l'IA pour illustrer un article sur... le PDG d'OpenAI lui-même, représente une forme d'ironie doublée d'une menace concrète. Cela normalise le recours à ces outils dans des contextes où des artistes humains auraient traditionnellement été commissionnés, pesant directement sur leurs revenus et leur visibilité. David Szauder n'est pas un novice en la matière : il travaille depuis plus d'une décennie avec des processus d'art génératif et de collage vidéo, antérieurs aux outils commerciaux d'IA. Son profil brouille donc la frontière entre artiste établi et simple utilisateur d'IA. Ce cas illustre une tension croissante dans les rédactions : comment encadrer l'usage de l'IA dans la création visuelle, à qui en attribuer la paternité, et quand ce choix est-il justifié face à l'alternative humaine disponible ?

UELe recours à l'IA générative par des médias de prestige accentue la pression économique sur les illustrateurs européens et alimente le débat sur les droits d'auteur dans le cadre de l'AI Act.

💬 Illustrer un article sur Sam Altman avec de l'IA générative, c'est soit du second degré assumé, soit une erreur de jugement assez flagrante. Le vrai sujet, c'est que le New Yorker valide le geste, et quand une publication comme ça normalise le truc, les commandes perdues pour les illustrateurs ne sont plus une abstraction. Szauder a un vrai parcours d'artiste, d'accord, mais le signal envoyé, lui, est limpide.

ÉthiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour