ÉthiqueThe Decoder · 6 juin 2026, 14:22· 1 min de lecture

xAI aurait entraîné ses modèles de code sur les réponses de Claude pendant des mois, avant d'en perdre l'accès

Résumé IASource uniqueImpact UE Take éditorial

La startup d'Elon Musk, xAI, a utilisé les sorties du modèle Claude d'Anthropic pour entraîner ses propres modèles de codage pendant plusieurs mois, selon The Decoder. Lorsqu'Anthropic a coupé l'accès de xAI à ses API, l'entreprise n'a pas arrêté : elle a contourné l'interdiction via des comptes privés et le service tiers Blackbox AI, poursuivant l'entraînement de manière clandestine. En parallèle, l'équipe de pré-entraînement de xAI s'est effondrée à moins de cinq personnes, et plusieurs responsables clés ont démissionné.

Cette pratique constitue une violation des conditions d'utilisation d'Anthropic, qui interdit explicitement l'utilisation de ses sorties pour entraîner des modèles concurrents. Elle révèle aussi la pression intense dans la course aux modèles de codage, un segment stratégique où Cursor, GitHub Copilot et d'autres outils se disputent des centaines de millions de dollars de revenus. Utiliser le modèle d'un concurrent comme source d'entraînement permet de raccourcir drastiquement les délais et les coûts de développement.

La situation interne chez xAI semble structurellement fragile : les infrastructures GPU massives achetées par Musk sont désormais louées en partie à Anthropic et à Google, faute de capacité d'utilisation interne. Ce retournement de situation, financer indirectement ses concurrents directs avec ses propres serveurs, illustre les difficultés d'une organisation qui peine à structurer ses ressources autour d'une feuille de route cohérente. Grok, le modèle phare de xAI, cherche encore à s'imposer durablement face à GPT-4o et Gemini.

💬 L'analyse de Mathieu

Voler les sorties de Claude pour entraîner tes modèles, et simultanément louer tes GPU à Anthropic, c'est un niveau d'absurde qui dépasse la fiction. La vraie info c'est l'équipe pré-entraînement réduite à cinq personnes: xAI a les infrastructures mais pas l'organisation pour s'en servir. Grok court après GPT-4o avec les notes de cours de Claude dans la poche.

Dans nos dossiers

xAI / Grok Anthropic Elon Musk & IA Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Claude fait preuve de plus de chaleur en hindi et de plus de rigueur en russe, révélant l'influence de la langue sur ses réponses

Cette étude Anthropic sur les valeurs exprimées par Claude selon la langue et le modèle utilisé cartographie des centaines de concepts de valeurs issus de milliers de termes individuels, organisés autour de quatre dimensions fondamentales. Les chercheurs ont observé des différences systématiques et reproductibles selon la langue de conversation : Claude adopte un ton plus chaleureux et empathique lorsqu'il répond en hindi, tandis qu'il privilégie une approche plus rigoureuse et factuelle en russe. Ces variations apparaissent également d'un modèle à l'autre, suggérant que l'entraînement et l'architecture influencent directement la manière dont l'IA hiérarchise certaines valeurs plutôt que d'autres selon le contexte linguistique. Cette découverte a des implications concrètes pour les millions d'utilisateurs qui interagissent avec Claude dans des langues différentes de l'anglais, la langue principale d'entraînement du modèle. Si un assistant IA adapte inconsciemment son registre moral ou émotionnel selon la langue employée, cela soulève des questions d'équité et de cohérence pour les entreprises qui déploient ces outils à l'international. Un utilisateur russophone et un utilisateur hindiphone pourraient ainsi recevoir des réponses de nature différente face à une même question sensible, ce qui pose un défi pour les développeurs cherchant à garantir une expérience homogène à travers les marchés. Cette étude s'inscrit dans un effort plus large d'Anthropic pour comprendre et documenter le comportement de ses modèles, alors que les grands acteurs de l'IA générative font face à une pression croissante pour prouver la fiabilité et la prévisibilité de leurs systèmes. Les auteurs reconnaissent toutefois des limites méthodologiques dans leur approche de cartographie des valeurs, ouvrant la voie à des recherches complémentaires. Ces travaux interviennent alors que la question de l'alignement culturel et linguistique des IA devient un enjeu central pour les régulateurs et les entreprises déployant ces technologies à l'échelle mondiale, notamment en Europe et en Asie.

UELes entreprises européennes déployant Claude dans plusieurs langues doivent tenir compte de ces variations de ton et de rigueur pour garantir une expérience cohérente à leurs utilisateurs.

💬 Claude qui devient chaleureux en hindi et rigoureux en russe, c'est pas anecdotique : ça montre que l'IA n'a pas une "personnalité" fixe, elle en a plusieurs selon la langue dans laquelle tu lui parles. Pour une boîte qui déploie ça à l'international, c'est un vrai problème, pas un détail. Selon Le Fil IA, un chatbot n'est jamais neutre : il hérite d'un biais culturel différent selon la langue qu'on lui parle, et personne n'a encore d'outil pour le mesurer proprement à grande échelle.

ÉthiquePaper

1 source

2The Information AI

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés

Microsoft, Meta et xAI ont recours à une source de données d'entraînement peu conventionnelle pour leurs modèles d'intelligence artificielle : leurs propres salariés. Microsoft est la dernière entreprise à avoir formalisé cette approche, en annonçant qu'elle prévoit d'exploiter le code propriétaire produit par ses quelque 100 000 ingénieurs logiciels pour entraîner ses modèles de programmation. Cette stratégie s'inscrit dans une tendance plus large observée chez les grands acteurs du secteur, qui cherchent à contourner la pénurie de données de qualité sur le marché ouvert. L'enjeu est considérable pour Microsoft, dont GitHub Copilot a perdu une partie de son avance initiale face à des concurrents comme Anthropic ou Cursor. En mobilisant les productions internes de ses développeurs, l'entreprise espère constituer un corpus de données riche, contextualisé et propriétaire, que ses rivaux ne peuvent tout simplement pas répliquer. Pour les salariés concernés, cette pratique soulève des questions sur la propriété intellectuelle et le consentement éclairé : leurs contributions professionnelles quotidiennes deviennent du carburant pour des systèmes commerciaux. Ce phénomène révèle une tension croissante dans l'industrie de l'IA : les jeux de données publics s'épuisent ou font l'objet de litiges juridiques, forçant les entreprises à se tourner vers des données internes ou synthétiques. Meta et xAI ont adopté des démarches similaires, transformant leurs effectifs en contributeurs involontaires à l'effort d'entraînement. La question de la gouvernance de ces données employés, et des droits qui s'y rattachent, devrait s'imposer comme un nouveau terrain de friction entre entreprises, syndicats et régulateurs dans les mois à venir.

UELa collecte de données professionnelles d'employés à des fins d'entraînement sans consentement explicite pourrait tomber sous le coup du RGPD, ouvrant la voie à des enquêtes des autorités européennes de protection des données et à de nouveaux contentieux syndicaux en Europe.

ÉthiqueOpinion

1 source

3The Decoder

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA. Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre. Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

UELes régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

ÉthiqueActu

1 source

4Ars Technica AI

Meta formerait des agents IA en surveillant les souris et claviers de ses employés

Meta va commencer à collecter les mouvements de souris, clics et frappes clavier de ses employés américains pour entraîner ses futurs agents d'intelligence artificielle. L'initiative, baptisée Model Capability Initiative, a été annoncée en interne via des mémos publiés par l'équipe Meta Superintelligence Labs et révélée par Reuters. Le logiciel de suivi fonctionnera sur des applications et sites web professionnels spécifiques, et prendra également des captures d'écran périodiques pour fournir du contexte aux données d'entraînement. Selon le mémo interne, "c'est là où tous les employés de Meta peuvent aider nos modèles à s'améliorer simplement en faisant leur travail quotidien." Cette approche vise à produire des données d'entraînement de haute qualité pour les agents IA, c'est-à-dire des systèmes capables d'accomplir des tâches complexes de manière autonome sur un ordinateur. Reproduire fidèlement les comportements humains réels dans des environnements de travail concrets est un défi majeur pour ce type d'IA, et les données synthétiques ou publiques ne suffisent plus. En utilisant le travail quotidien de milliers d'employés comme source de données, Meta espère accélérer le développement d'agents capables de naviguer dans des interfaces réelles. Cette initiative s'inscrit dans une course effrénée entre les grandes entreprises technologiques pour développer des agents IA performants, un marché que Microsoft, Google et OpenAI ciblent également activement. La question de la surveillance des employés à des fins commerciales soulève néanmoins des questions éthiques et juridiques, notamment en matière de consentement et de vie privée au travail. Il reste à voir si Meta étendra ce programme à ses employés hors des États-Unis, où les réglementations comme le RGPD européen imposent des contraintes bien plus strictes.

UELe RGPD impose un consentement explicite pour la collecte de données comportementales des employés, rendant une extension de ce programme aux salariés européens de Meta juridiquement très complexe, voire impossible sans refonte du dispositif.

ÉthiqueActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic