ÉthiqueVentureBeat AI · 27 mai 2026, 19:00· 2 min de lecture

DataGrail : vos fournisseurs envoient peut-être vos données à des modèles d'IA sans votre accord

Résumé IASource uniqueImpact UE Take éditorial

DataGrail, plateforme de protection de la vie privée basée à San Francisco, a publié son Privacy and AI Trends Report 2026 après avoir analysé 2 400 logiciels d'entreprise parmi les plus répandus. Le constat est sévère : 63,6 % des éditeurs qui mettent en avant leurs fonctionnalités d'intelligence artificielle ne mentionnent aucun sous-traitant IA tiers dans leurs contrats de traitement des données (DPA). Ces documents juridiques constituent pourtant la base sur laquelle les équipes juridiques et de conformité évaluent les risques liés à leurs fournisseurs. Pour établir ce chiffre, les chercheurs ne se sont pas contentés de lire les contrats : ils ont croisé les DPA avec la documentation produit, les dépôts GitHub, les connexions API et les supports marketing de chacun des 2 400 éditeurs. Résultat : un DPA peut mentionner Claude comme modèle utilisé, tandis que la documentation technique révèle en parallèle des intégrations avec OpenAI et Gemini, sans que cela soit reflété dans aucun document contractuel.

Les conséquences concrètes de ce décalage sont potentiellement graves. Une entreprise qui adopte un outil de recrutement basé sur l'IA, effectue un audit de sécurité d'Anthropic sur la foi du DPA, et ignore que l'outil transmet en réalité des milliers de CV contenant adresses, données financières et numéros de sécurité sociale à des modèles jamais évalués, s'expose à des violations réglementaires sérieuses, notamment les règles de la FTC sur la prise de décision automatisée en matière d'emploi. Plus largement, selon le rapport IBM 2025 sur le coût des violations de données, les organisations confrontées à du "shadow AI" affichent un coût moyen de violation de 4,63 millions de dollars, soit 670 000 dollars de plus que celles sans IA non déclarée. Aux États-Unis, les amendes liées à la vie privée ont atteint 3,425 milliards de dollars en 2025, davantage que lors des cinq années précédentes réunies, une tendance que Gartner anticipe en accélération jusqu'en 2028.

Ce rapport arrive dans un contexte où l'ensemble de l'industrie logicielle cherche à se repositionner comme acteur de l'IA, souvent plus vite que les processus de gouvernance ne peuvent suivre. Daniel Barber, co-fondateur et PDG de DataGrail, résume la situation : le DPA était censé être le document de référence pour évaluer le risque IA, mais ce n'est plus suffisant en 2026. Le problème structurel tient au fait que les sous-traitants IA se multiplient, changent rapidement, et que les éditeurs ne mettent pas systématiquement à jour leur documentation juridique en conséquence. L'enjeu pour les entreprises est désormais d'aller au-delà de la lecture des contrats et d'auditer activement les connexions techniques réelles de leurs fournisseurs pour savoir précisément quels modèles traitent leurs données et celles de leurs clients.

Impact France/UE

Les entreprises européennes utilisant des SaaS intégrant l'IA s'exposent à des violations du RGPD si leurs fournisseurs sous-traitent des données à des modèles d'IA non déclarés dans les DPA, contournant les obligations de traçabilité et de transparence imposées par le règlement européen.

💬 L'analyse de Mathieu

63% des éditeurs IA ne mentionnent aucun sous-traitant dans leur DPA, le chiffre est difficile à avaler. Ton outil de recrutement SaaS audité côté Anthropic peut très bien envoyer tes CV à OpenAI et Gemini en parallèle, sans que rien n'apparaisse dans aucun contrat. Le DPA comme unique référence de risque, c'est fini.

Dans nos dossiers

OpenAI Anthropic Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Siècle Digital

Perplexity dans la tourmente : des données personnelles d’utilisateurs auraient fuité vers Meta et Google

Un utilisateur de l'Utah, qui souhaite conserver l'anonymat, a porté plainte contre Perplexity AI, accusant le moteur de recherche basé sur l'intelligence artificielle d'avoir transmis ses conversations privées à Meta et Google sans son consentement. Selon son avocat, l'utilisateur recourait régulièrement à Perplexity pour obtenir des conseils fiscaux, juridiques et financiers, des échanges qu'il considérait confidentiels. Des outils de tracking intégrés à la plateforme auraient permis à des tiers d'accéder à ces données sensibles, à l'insu des utilisateurs. Cette affaire soulève une question centrale pour l'ensemble du secteur des assistants IA : que deviennent les conversations des utilisateurs lorsqu'ils confient à ces outils des informations personnelles, médicales ou financières ? Contrairement à un moteur de recherche classique où l'on tape des mots-clés, Perplexity incite à formuler des questions détaillées, souvent très révélatrices de la situation personnelle de l'utilisateur. Partager ce type de données avec des régies publicitaires comme Meta ou Google représente une violation grave de la confiance placée dans ces plateformes, avec des implications directes sur la vie privée de millions de personnes. Perplexity, fondée en 2022 et valorisée à plusieurs milliards de dollars, s'est rapidement imposée comme un concurrent sérieux face à Google Search et ChatGPT. La startup avait déjà fait l'objet de critiques pour ses pratiques de scraping agressif et des accusations de plagiat envers des médias. Cette plainte s'inscrit dans un contexte plus large de régulation croissante des pratiques des entreprises d'IA autour de la collecte et du partage de données personnelles, notamment en Europe avec le RGPD et aux États-Unis où plusieurs États renforcent leurs législations sur la vie privée.

UESi des pratiques similaires de partage de conversations avec des régies publicitaires concernaient des utilisateurs européens, elles constitueraient une violation caractérisée du RGPD, exposant Perplexity à des sanctions pouvant atteindre 4 % de son chiffre d'affaires mondial.

💬 Perplexity, c'est le genre de produit qu'on conseille à ses proches parce que "c'est mieux que Google" — sauf qu'on vient de découvrir que des conversations sur ses impôts ou sa situation juridique partaient peut-être chez Meta. Le problème, c'est que les gens posent des vraies questions à ces outils, pas des mots-clés détachés de tout contexte, et la différence est énorme côté données. Faut arrêter de traiter les assistants IA comme des moteurs de recherche glorifiés : dès qu'on y colle du contexte personnel, c'est une autre catégorie de risque.

ÉthiqueActu

1 source

2Next INpact

Anthropic joue encore sur les peurs de l’IA toute-puissante pour se mettre en valeur

Alors qu'elle se prépare à entrer en bourse, Anthropic a publié sur son site web un texte alarmiste sur les risques de l'IA générative, signé notamment par Marina Favaro, responsable de son pôle R&D. Le document avance un chiffre frappant : en mai 2026, Claude serait l'auteur de plus de 80 % du code intégré dans la base de code d'Anthropic elle-même. Partant de ce constat, l'entreprise de Dario Amodei extrapole vers le scénario de l'« auto-amélioration récursive » : des systèmes d'IA capables de créer leurs propres successeurs sans intervention humaine. Pour conjurer ce péril, Anthropic propose un moratoire sur la R&D en IA générative et convoque la comparaison avec le traité sur les forces nucléaires à portée intermédiaire signé en 1987 par Ronald Reagan et Mikhaïl Gorbatchev, tout en avertissant que « nous n'avons pas autant de temps devant nous ». Le problème, pour ses critiques, est que ce discours catastrophiste arrive à un moment particulièrement opportun pour l'entreprise. En présentant l'IA comme une force potentiellement incontrôlable, Anthropic se positionne simultanément comme la firme la plus responsable du secteur, celle qui prend au sérieux les risques que ses concurrents minimisent. Cette posture de « safety company » n'est pas nouvelle, mais elle prend une dimension particulière à la veille d'une introduction en bourse qui s'annonce comme l'une des plus importantes de l'histoire de la tech. Le chercheur Irénée Régnauld résume le paradoxe en une formule : « Anthropic agite le drapeau des risques avec la Pause comme horizon moral juste avant la plus vaste IPO du monde », et s'interroge sur les militants de la sécurité de l'IA : « les Pausistes vont-ils se rendre compte qu'ils sont les dindons de la farce ? » Ce type de rhétorique ne surgit pas dans le vide. Dès 2024, les chercheuses Emile Torres et Timnit Gebru avaient documenté la manière dont les discours sur la sécurité de l'IA permettent aux grandes entreprises tech d'attirer des ressources et de détourner l'attention des critiques concrètes, réglementaires ou sociales. Anthropic s'inscrit dans une tradition plus large, héritée des courants TESCREAL (transhumanisme, long-termisme), qui tend à dramatiser des risques spéculatifs à long terme pour éclipser les nuisances actuelles et mesurables. Le texte lui-même contient une contradiction révélatrice : si Claude génère 80 % du code d'Anthropic, c'est bien l'équipe dirigeante qui choisit quelles fonctionnalités développer, pas le modèle. L'entreprise instrumentalise son propre succès commercial pour nourrir une peur qu'elle se propose ensuite, seule, de maîtriser.

ÉthiqueOpinion

1 source

3The Decoder

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA. Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre. Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

UELes régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

ÉthiqueActu

1 source

4IEEE Spectrum AI

Comment les musiciens peuvent être rémunérés pour l'entraînement de l'IA

Warner Music Group a récemment acquis la startup Sureel, spécialisée dans la gestion des droits musicaux à l'ère de l'intelligence artificielle. Sureel s'est associée à l'agence suédoise de droits d'auteur STIM pour explorer un système de rémunération des artistes lorsque leur musique sert à entraîner des modèles d'IA générative. Concrètement, le logiciel de Sureel appose des métadonnées sur les fichiers audio afin d'indiquer si une entreprise d'IA est autorisée à utiliser le fichier librement, de manière limitée ou pas du tout, puis suit l'utilisation réelle pour calculer les redevances correspondantes. De son côté, la société d'IA musicale SoundVerse a publié un livre blanc en 2025 pour rejeter les rachats uniques de droits et défendre une participation continue des artistes à chaque génération d'output par un modèle. Le co-président de Sureel, Benji Rogers, et son PDG, Tamay Aykut, portent le projet, tandis que Simon Gozzi, directeur du développement chez STIM, évalue comment les rapports d'attribution de Sureel pourraient fonder de nouveaux accords de licence entre musiciens et entreprises d'IA. L'enjeu est considérable pour l'ensemble de l'industrie musicale, qui dispose depuis des décennies de mécanismes précis pour rémunérer l'utilisation des œuvres, ventes physiques, streaming, radio, reprises, karaoké. L'IA générative a fracturé cette logique en rendant floue la notion d'utilisation : une chanson utilisée une seule fois pour l'entraînement d'un modèle continue d'influencer chaque output produit par ce modèle. Sureel propose d'aller plus loin qu'une simple mesure de similarité entre la donnée d'entraînement et l'output généré, en cherchant à établir un lien de causalité réel entre les deux. Si le modèle produit du jazz, les enregistrements jazz du corpus auraient davantage contribué que les pièces folk, et seraient rémunérés en proportion. Rogers résume l'ambition : "L'attribution ne cherche pas à recréer l'ancienne économie, mais à mesurer pour la première fois ce que l'ancienne économie ne faisait qu'approximer." Ce chantier s'inscrit dans un contexte de tension croissante entre l'industrie créative et les géants de l'IA, accusés par certains de commettre "le plus grand acte de vol de droits d'auteur de l'histoire". La question de l'attribution causale reste techniquement non résolue et pourrait nécessiter des outils issus de la théorie de l'information ou une modélisation de l'impact historique des œuvres individuelles. Le risque existe aussi de voir naître une musique conçue pour maximiser les redevances d'entraînement, comme le streaming a déjà poussé les artistes à raccourcir leurs intros. Aykut suggère néanmoins que des systèmes d'attribution bien conçus pourraient valoriser les œuvres rares et originales davantage que les tubes radiophoniques, ouvrant la possibilité que l'IA devienne un vecteur de diversité musicale plutôt qu'un facteur d'uniformisation.

UELa participation de l'agence suédoise STIM à ce système d'attribution ouvre la voie à de nouveaux cadres de licence pour les artistes européens, en cohérence avec les exigences de l'AI Act sur la transparence des données d'entraînement.

💬 Ce que Sureel essaie de faire, c'est mesurer l'influence réelle d'une œuvre sur un modèle, pas juste vérifier si elle était dans le corpus de départ. Ça paraît évident dit comme ça, mais c'est techniquement non résolu, et si ça marche, ça change tout à la logique des licences forfaitaires. Le vrai risque après, c'est l'effet streaming : des artistes qui composent pour maximiser leurs redevances d'entraînement plutôt que pour les oreilles.

ÉthiqueReglementation

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic