ÉthiqueThe Decoder · 5 juin 2026, 15:10· 1 min de lecture

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Résumé IASource uniqueImpact UE Take éditorial

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA.

Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre.

Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

Impact France/UE

Les régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 L'analyse de Mathieu

Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

Dans nos dossiers

Microsoft OpenAI Meta IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Information AI

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés

Microsoft, Meta et xAI ont recours à une source de données d'entraînement peu conventionnelle pour leurs modèles d'intelligence artificielle : leurs propres salariés. Microsoft est la dernière entreprise à avoir formalisé cette approche, en annonçant qu'elle prévoit d'exploiter le code propriétaire produit par ses quelque 100 000 ingénieurs logiciels pour entraîner ses modèles de programmation. Cette stratégie s'inscrit dans une tendance plus large observée chez les grands acteurs du secteur, qui cherchent à contourner la pénurie de données de qualité sur le marché ouvert. L'enjeu est considérable pour Microsoft, dont GitHub Copilot a perdu une partie de son avance initiale face à des concurrents comme Anthropic ou Cursor. En mobilisant les productions internes de ses développeurs, l'entreprise espère constituer un corpus de données riche, contextualisé et propriétaire, que ses rivaux ne peuvent tout simplement pas répliquer. Pour les salariés concernés, cette pratique soulève des questions sur la propriété intellectuelle et le consentement éclairé : leurs contributions professionnelles quotidiennes deviennent du carburant pour des systèmes commerciaux. Ce phénomène révèle une tension croissante dans l'industrie de l'IA : les jeux de données publics s'épuisent ou font l'objet de litiges juridiques, forçant les entreprises à se tourner vers des données internes ou synthétiques. Meta et xAI ont adopté des démarches similaires, transformant leurs effectifs en contributeurs involontaires à l'effort d'entraînement. La question de la gouvernance de ces données employés, et des droits qui s'y rattachent, devrait s'imposer comme un nouveau terrain de friction entre entreprises, syndicats et régulateurs dans les mois à venir.

UELa collecte de données professionnelles d'employés à des fins d'entraînement sans consentement explicite pourrait tomber sous le coup du RGPD, ouvrant la voie à des enquêtes des autorités européennes de protection des données et à de nouveaux contentieux syndicaux en Europe.

ÉthiqueOpinion

1 source

2The Decoder

Mistral : son PDG Mensch affirme que les modèles IA propriétaires donnent aux labos un accès privilégié aux processus des entreprises

Arthur Mensch, cofondateur et PDG de Mistral AI, a mis en garde les entreprises contre leur dépendance aux modèles d'intelligence artificielle propriétaires fermés. Selon lui, les grands laboratoires d'IA accumulent des quantités croissantes de données issues de leurs clients professionnels, au point que certains auraient déjà exploité ces informations pour concurrencer directement les entreprises qui utilisaient leurs services. Mensch n'a pas cité de noms précis, mais le message vise implicitement les géants américains du secteur comme OpenAI et Anthropic, avec lesquels Mistral est directement en concurrence sur le marché européen de l'IA. Cet avertissement soulève un enjeu stratégique majeur pour les entreprises qui confient leurs processus internes, leurs documents et leurs données sensibles à des modèles fermés hébergés par des tiers. Si un fournisseur d'IA a accès à ces flux d'informations, il dispose potentiellement d'une vision privilégiée sur le fonctionnement, les besoins et les faiblesses de ses propres clients, un risque de conflit d'intérêts rarement discuté publiquement jusqu'ici. Pour les entreprises, cela renforce l'argument en faveur de solutions ouvertes, personnalisables ou hébergées localement plutôt que de dépendre entièrement d'acteurs externes. Cette sortie s'inscrit dans la stratégie plus large de Mistral, qui peine à rivaliser en pure performance avec les modèles de pointe d'OpenAI ou d'Anthropic et mise donc sur d'autres arguments différenciants, notamment la souveraineté numérique européenne et la transparence. En positionnant ses modèles comme une alternative plus sûre et indépendante des géants américains, Mistral cherche à convaincre entreprises et gouvernements européens de privilégier des solutions locales, dans un contexte où la confidentialité des données devient un enjeu géopolitique et commercial de plus en plus central.

UEMistral, entreprise française, utilise cet argument de confidentialité des données pour promouvoir la souveraineté numérique européenne face aux modèles propriétaires américains.

💬 Mensch a raison sur le fond, mais il ne faut pas être naïf sur le timing : il sort cet argument pile quand Mistral galère à suivre sur les benchmarks purs. Reste que le point est juste, un labo qui voit passer tous tes prompts et tes documents internes a une vue imprenable sur ta boîte, et personne n'en parle vraiment. Selon Le Fil IA, la vraie bataille de l'IA en entreprise ne se jouera plus sur les benchmarks mais sur qui a accès à quoi dans tes données.

ÉthiqueOpinion

1 source

3The Decoder

xAI aurait entraîné ses modèles de code sur les réponses de Claude pendant des mois, avant d'en perdre l'accès

La startup d'Elon Musk, xAI, a utilisé les sorties du modèle Claude d'Anthropic pour entraîner ses propres modèles de codage pendant plusieurs mois, selon The Decoder. Lorsqu'Anthropic a coupé l'accès de xAI à ses API, l'entreprise n'a pas arrêté : elle a contourné l'interdiction via des comptes privés et le service tiers Blackbox AI, poursuivant l'entraînement de manière clandestine. En parallèle, l'équipe de pré-entraînement de xAI s'est effondrée à moins de cinq personnes, et plusieurs responsables clés ont démissionné. Cette pratique constitue une violation des conditions d'utilisation d'Anthropic, qui interdit explicitement l'utilisation de ses sorties pour entraîner des modèles concurrents. Elle révèle aussi la pression intense dans la course aux modèles de codage, un segment stratégique où Cursor, GitHub Copilot et d'autres outils se disputent des centaines de millions de dollars de revenus. Utiliser le modèle d'un concurrent comme source d'entraînement permet de raccourcir drastiquement les délais et les coûts de développement. La situation interne chez xAI semble structurellement fragile : les infrastructures GPU massives achetées par Musk sont désormais louées en partie à Anthropic et à Google, faute de capacité d'utilisation interne. Ce retournement de situation, financer indirectement ses concurrents directs avec ses propres serveurs, illustre les difficultés d'une organisation qui peine à structurer ses ressources autour d'une feuille de route cohérente. Grok, le modèle phare de xAI, cherche encore à s'imposer durablement face à GPT-4o et Gemini.

💬 Voler les sorties de Claude pour entraîner tes modèles, et simultanément louer tes GPU à Anthropic, c'est un niveau d'absurde qui dépasse la fiction. La vraie info c'est l'équipe pré-entraînement réduite à cinq personnes: xAI a les infrastructures mais pas l'organisation pour s'en servir. Grok court après GPT-4o avec les notes de cours de Claude dans la poche.

ÉthiqueActu

1 source

4VentureBeat AI

DataGrail : vos fournisseurs envoient peut-être vos données à des modèles d'IA sans votre accord

DataGrail, plateforme de protection de la vie privée basée à San Francisco, a publié son Privacy and AI Trends Report 2026 après avoir analysé 2 400 logiciels d'entreprise parmi les plus répandus. Le constat est sévère : 63,6 % des éditeurs qui mettent en avant leurs fonctionnalités d'intelligence artificielle ne mentionnent aucun sous-traitant IA tiers dans leurs contrats de traitement des données (DPA). Ces documents juridiques constituent pourtant la base sur laquelle les équipes juridiques et de conformité évaluent les risques liés à leurs fournisseurs. Pour établir ce chiffre, les chercheurs ne se sont pas contentés de lire les contrats : ils ont croisé les DPA avec la documentation produit, les dépôts GitHub, les connexions API et les supports marketing de chacun des 2 400 éditeurs. Résultat : un DPA peut mentionner Claude comme modèle utilisé, tandis que la documentation technique révèle en parallèle des intégrations avec OpenAI et Gemini, sans que cela soit reflété dans aucun document contractuel. Les conséquences concrètes de ce décalage sont potentiellement graves. Une entreprise qui adopte un outil de recrutement basé sur l'IA, effectue un audit de sécurité d'Anthropic sur la foi du DPA, et ignore que l'outil transmet en réalité des milliers de CV contenant adresses, données financières et numéros de sécurité sociale à des modèles jamais évalués, s'expose à des violations réglementaires sérieuses, notamment les règles de la FTC sur la prise de décision automatisée en matière d'emploi. Plus largement, selon le rapport IBM 2025 sur le coût des violations de données, les organisations confrontées à du "shadow AI" affichent un coût moyen de violation de 4,63 millions de dollars, soit 670 000 dollars de plus que celles sans IA non déclarée. Aux États-Unis, les amendes liées à la vie privée ont atteint 3,425 milliards de dollars en 2025, davantage que lors des cinq années précédentes réunies, une tendance que Gartner anticipe en accélération jusqu'en 2028. Ce rapport arrive dans un contexte où l'ensemble de l'industrie logicielle cherche à se repositionner comme acteur de l'IA, souvent plus vite que les processus de gouvernance ne peuvent suivre. Daniel Barber, co-fondateur et PDG de DataGrail, résume la situation : le DPA était censé être le document de référence pour évaluer le risque IA, mais ce n'est plus suffisant en 2026. Le problème structurel tient au fait que les sous-traitants IA se multiplient, changent rapidement, et que les éditeurs ne mettent pas systématiquement à jour leur documentation juridique en conséquence. L'enjeu pour les entreprises est désormais d'aller au-delà de la lecture des contrats et d'auditer activement les connexions techniques réelles de leurs fournisseurs pour savoir précisément quels modèles traitent leurs données et celles de leurs clients.

UELes entreprises européennes utilisant des SaaS intégrant l'IA s'exposent à des violations du RGPD si leurs fournisseurs sous-traitent des données à des modèles d'IA non déclarés dans les DPA, contournant les obligations de traçabilité et de transparence imposées par le règlement européen.

💬 63% des éditeurs IA ne mentionnent aucun sous-traitant dans leur DPA, le chiffre est difficile à avaler. Ton outil de recrutement SaaS audité côté Anthropic peut très bien envoyer tes CV à OpenAI et Gemini en parallèle, sans que rien n'apparaisse dans aucun contrat. Le DPA comme unique référence de risque, c'est fini.

ÉthiqueReglementation

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic