Aller au contenu principal
Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées
ÉthiqueThe Decoder2h

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA.

Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre.

Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

Impact France/UE

Les régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 Le point de vue du dev

Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés
1The Information AI 

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés

Microsoft, Meta et xAI ont recours à une source de données d'entraînement peu conventionnelle pour leurs modèles d'intelligence artificielle : leurs propres salariés. Microsoft est la dernière entreprise à avoir formalisé cette approche, en annonçant qu'elle prévoit d'exploiter le code propriétaire produit par ses quelque 100 000 ingénieurs logiciels pour entraîner ses modèles de programmation. Cette stratégie s'inscrit dans une tendance plus large observée chez les grands acteurs du secteur, qui cherchent à contourner la pénurie de données de qualité sur le marché ouvert. L'enjeu est considérable pour Microsoft, dont GitHub Copilot a perdu une partie de son avance initiale face à des concurrents comme Anthropic ou Cursor. En mobilisant les productions internes de ses développeurs, l'entreprise espère constituer un corpus de données riche, contextualisé et propriétaire, que ses rivaux ne peuvent tout simplement pas répliquer. Pour les salariés concernés, cette pratique soulève des questions sur la propriété intellectuelle et le consentement éclairé : leurs contributions professionnelles quotidiennes deviennent du carburant pour des systèmes commerciaux. Ce phénomène révèle une tension croissante dans l'industrie de l'IA : les jeux de données publics s'épuisent ou font l'objet de litiges juridiques, forçant les entreprises à se tourner vers des données internes ou synthétiques. Meta et xAI ont adopté des démarches similaires, transformant leurs effectifs en contributeurs involontaires à l'effort d'entraînement. La question de la gouvernance de ces données employés, et des droits qui s'y rattachent, devrait s'imposer comme un nouveau terrain de friction entre entreprises, syndicats et régulateurs dans les mois à venir.

UELa collecte de données professionnelles d'employés à des fins d'entraînement sans consentement explicite pourrait tomber sous le coup du RGPD, ouvrant la voie à des enquêtes des autorités européennes de protection des données et à de nouveaux contentieux syndicaux en Europe.

ÉthiqueOpinion
1 source
DataGrail : vos fournisseurs envoient peut-être vos données à des modèles d'IA sans votre accord
2VentureBeat AI 

DataGrail : vos fournisseurs envoient peut-être vos données à des modèles d'IA sans votre accord

DataGrail, plateforme de protection de la vie privée basée à San Francisco, a publié son Privacy and AI Trends Report 2026 après avoir analysé 2 400 logiciels d'entreprise parmi les plus répandus. Le constat est sévère : 63,6 % des éditeurs qui mettent en avant leurs fonctionnalités d'intelligence artificielle ne mentionnent aucun sous-traitant IA tiers dans leurs contrats de traitement des données (DPA). Ces documents juridiques constituent pourtant la base sur laquelle les équipes juridiques et de conformité évaluent les risques liés à leurs fournisseurs. Pour établir ce chiffre, les chercheurs ne se sont pas contentés de lire les contrats : ils ont croisé les DPA avec la documentation produit, les dépôts GitHub, les connexions API et les supports marketing de chacun des 2 400 éditeurs. Résultat : un DPA peut mentionner Claude comme modèle utilisé, tandis que la documentation technique révèle en parallèle des intégrations avec OpenAI et Gemini, sans que cela soit reflété dans aucun document contractuel. Les conséquences concrètes de ce décalage sont potentiellement graves. Une entreprise qui adopte un outil de recrutement basé sur l'IA, effectue un audit de sécurité d'Anthropic sur la foi du DPA, et ignore que l'outil transmet en réalité des milliers de CV contenant adresses, données financières et numéros de sécurité sociale à des modèles jamais évalués, s'expose à des violations réglementaires sérieuses, notamment les règles de la FTC sur la prise de décision automatisée en matière d'emploi. Plus largement, selon le rapport IBM 2025 sur le coût des violations de données, les organisations confrontées à du "shadow AI" affichent un coût moyen de violation de 4,63 millions de dollars, soit 670 000 dollars de plus que celles sans IA non déclarée. Aux États-Unis, les amendes liées à la vie privée ont atteint 3,425 milliards de dollars en 2025, davantage que lors des cinq années précédentes réunies, une tendance que Gartner anticipe en accélération jusqu'en 2028. Ce rapport arrive dans un contexte où l'ensemble de l'industrie logicielle cherche à se repositionner comme acteur de l'IA, souvent plus vite que les processus de gouvernance ne peuvent suivre. Daniel Barber, co-fondateur et PDG de DataGrail, résume la situation : le DPA était censé être le document de référence pour évaluer le risque IA, mais ce n'est plus suffisant en 2026. Le problème structurel tient au fait que les sous-traitants IA se multiplient, changent rapidement, et que les éditeurs ne mettent pas systématiquement à jour leur documentation juridique en conséquence. L'enjeu pour les entreprises est désormais d'aller au-delà de la lecture des contrats et d'auditer activement les connexions techniques réelles de leurs fournisseurs pour savoir précisément quels modèles traitent leurs données et celles de leurs clients.

UELes entreprises européennes utilisant des SaaS intégrant l'IA s'exposent à des violations du RGPD si leurs fournisseurs sous-traitent des données à des modèles d'IA non déclarés dans les DPA, contournant les obligations de traçabilité et de transparence imposées par le règlement européen.

💬 63% des éditeurs IA ne mentionnent aucun sous-traitant dans leur DPA, le chiffre est difficile à avaler. Ton outil de recrutement SaaS audité côté Anthropic peut très bien envoyer tes CV à OpenAI et Gemini en parallèle, sans que rien n'apparaisse dans aucun contrat. Le DPA comme unique référence de risque, c'est fini.

ÉthiqueReglementation
1 source
Amnesty appelle à interdire les IA génératives entraînées sur du pillage de données
3Next INpact 

Amnesty appelle à interdire les IA génératives entraînées sur du pillage de données

Amnesty International a publié un rapport détaillé sur les violations des droits humains causées par l'intelligence artificielle générative, appelant explicitement à interdire les modèles entraînés sur du scraping de données non consenti. L'organisation analyse l'ensemble de la chaîne de production de l'IA, des fabricants de puces GPU jusqu'aux contenus générés, en passant par la constitution des jeux de données. Elle cible directement les outils grand public les plus utilisés : ChatGPT, DALL-E, Gemini, Midjourney, LLaMA, Stable Diffusion et DeepSeek. Selon Amnesty, ces modèles ont été construits à partir de données collectées "sans la connaissance ni le consentement des personnes à l'origine des données", qu'il s'agisse d'utilisateurs de réseaux sociaux ou d'artistes. La conclusion est sans appel : le scraping massif et non consenti est "fondamentalement incompatible avec le droit international relatif aux droits humains", notamment le Pacte international relatif aux droits civils et politiques adopté par l'ONU en 1966. L'impact dépasse la seule question de la vie privée. Amnesty identifie des violations du droit à la non-discrimination, à la liberté d'expression et à la liberté de pensée. Le rapport pointe également les coûts environnementaux de l'IA générative, dont l'augmentation continue de la taille des modèles et des volumes de données nécessaires à leur entraînement affecte de manière disproportionnée les pays du Sud global. À cela s'ajoute une domination culturelle et linguistique anglophone structurelle, intégrée dès la phase de collecte des données. Pour l'ONG, derrière l'apparence de sophistication technologique se cache "une réalité faite de principes de conception qui bafouent les droits humains", comparables aux dérives des outils d'IA antérieurs à la générative. Ce rapport s'inscrit dans un mouvement plus large de contestation juridique et institutionnelle du modèle économique des grandes plateformes d'IA. En Europe, l'organisation noyb a déjà menacé Meta d'une class action pour l'entraînement de ses modèles sur des données d'utilisateurs européens, et plusieurs artistes ainsi que des éditeurs de presse ont engagé des procédures similaires aux États-Unis contre OpenAI et Google. Le règlement européen sur l'IA impose des obligations de transparence sur les données d'entraînement, mais les ONG estiment ces mesures insuffisantes. En demandant une interdiction pure et simple des systèmes bâtis sur du scraping non consenti, Amnesty franchit un cap rhétorique notable : il ne s'agit plus de réguler ces pratiques, mais de les proscrire au nom du droit international, ce qui pourrait alimenter de nouvelles stratégies judiciaires et législatives dans les mois à venir.

UEL'AI Act impose déjà des obligations de transparence sur les données d'entraînement, et noyb menace Meta d'une class action pour l'exploitation des données d'utilisateurs européens, la position d'Amnesty pourrait renforcer ces procédures et peser sur les stratégies législatives et judiciaires dans l'UE dans les mois à venir.

💬 La position d'Amnesty est radicale, et c'est exactement là son intérêt : plus de régulation molle, on interdit ce qui viole les droits humains, point. Interdire ChatGPT et Gemini du jour au lendemain c'est pas pour demain, mais ancrer ce débat dans le droit international plutôt que dans la soft law de l'AI Act, c'est un changement de registre qui peut nourrir des procédures vraiment musclées. Reste à voir si les juges suivront.

ÉthiqueReglementation
1 source
Meta accusée d’avoir piraté des millions de livres pour entraîner son IA
4Siècle Digital 

Meta accusée d’avoir piraté des millions de livres pour entraîner son IA

Cinq géants de l'édition mondiale, Hachette, Macmillan, McGraw-Hill, Elsevier et Cengage, ont déposé une plainte collective contre Meta devant un tribunal fédéral américain, accusant l'entreprise d'avoir utilisé des millions d'ouvrages protégés par le droit d'auteur pour entraîner ses modèles d'intelligence artificielle LLaMA. L'auteur de thrillers Scott Turow, ancien président de l'Authors Guild et avocat de formation, s'est joint à l'action. Selon les plaignants, Meta aurait eu recours à LibGen, un site pirate qui héberge illégalement des millions de livres, pour constituer son corpus d'entraînement à grande échelle, sans autorisation ni compensation. Ce procès marque un tournant dans les litiges sur le droit d'auteur et l'IA : pour la première fois, ce ne sont plus des auteurs isolés mais des maisons d'édition pesant collectivement des milliards de dollars qui s'attaquent frontalement à un géant technologique. Si les plaignants obtiennent gain de cause, les dommages et intérêts pourraient atteindre des montants records et contraindre l'ensemble de l'industrie à revoir radicalement ses pratiques d'acquisition de données d'entraînement. Cette affaire s'inscrit dans un contexte de tensions croissantes entre l'industrie de l'IA et les ayants droit, après les poursuites déjà engagées contre OpenAI, Stability AI et Google. Des preuves internes évoquées dans d'autres dossiers suggèrent que Meta était consciente des risques juridiques liés à l'utilisation de LibGen mais a néanmoins choisi de procéder. La décision de justice pourrait établir une jurisprudence déterminante sur ce que les entreprises d'IA ont le droit d'utiliser pour former leurs modèles.

UEHachette et Elsevier, maisons d'édition présentes en Europe, sont plaignantes ; une jurisprudence américaine sur l'entraînement des LLM influencera directement les pratiques des acteurs IA opérant sous l'AI Act et les litiges en cours devant les tribunaux européens.

💬 Des auteurs isolés, ça pouvait encore se gérer. Là, ce sont des éditeurs pesant des milliards qui ont les reins solides pour tenir un procès pendant dix ans, et des preuves internes qui montrent que Meta savait très bien ce qu'elle faisait en utilisant LibGen. Ça va coûter cher.

ÉthiqueReglementation
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour