Aller au contenu principal
xAI aurait entraîné ses modèles de code sur les réponses de Claude pendant des mois, avant d'en perdre l'accès
ÉthiqueThe Decoder3h

xAI aurait entraîné ses modèles de code sur les réponses de Claude pendant des mois, avant d'en perdre l'accès

Résumé IASource uniqueImpact UE
Source originale ↗·

La startup d'Elon Musk, xAI, a utilisé les sorties du modèle Claude d'Anthropic pour entraîner ses propres modèles de codage pendant plusieurs mois, selon The Decoder. Lorsqu'Anthropic a coupé l'accès de xAI à ses API, l'entreprise n'a pas arrêté : elle a contourné l'interdiction via des comptes privés et le service tiers Blackbox AI, poursuivant l'entraînement de manière clandestine. En parallèle, l'équipe de pré-entraînement de xAI s'est effondrée à moins de cinq personnes, et plusieurs responsables clés ont démissionné.

Cette pratique constitue une violation des conditions d'utilisation d'Anthropic, qui interdit explicitement l'utilisation de ses sorties pour entraîner des modèles concurrents. Elle révèle aussi la pression intense dans la course aux modèles de codage, un segment stratégique où Cursor, GitHub Copilot et d'autres outils se disputent des centaines de millions de dollars de revenus. Utiliser le modèle d'un concurrent comme source d'entraînement permet de raccourcir drastiquement les délais et les coûts de développement.

La situation interne chez xAI semble structurellement fragile : les infrastructures GPU massives achetées par Musk sont désormais louées en partie à Anthropic et à Google, faute de capacité d'utilisation interne. Ce retournement de situation, financer indirectement ses concurrents directs avec ses propres serveurs, illustre les difficultés d'une organisation qui peine à structurer ses ressources autour d'une feuille de route cohérente. Grok, le modèle phare de xAI, cherche encore à s'imposer durablement face à GPT-4o et Gemini.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés
1The Information AI 

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés

Microsoft, Meta et xAI ont recours à une source de données d'entraînement peu conventionnelle pour leurs modèles d'intelligence artificielle : leurs propres salariés. Microsoft est la dernière entreprise à avoir formalisé cette approche, en annonçant qu'elle prévoit d'exploiter le code propriétaire produit par ses quelque 100 000 ingénieurs logiciels pour entraîner ses modèles de programmation. Cette stratégie s'inscrit dans une tendance plus large observée chez les grands acteurs du secteur, qui cherchent à contourner la pénurie de données de qualité sur le marché ouvert. L'enjeu est considérable pour Microsoft, dont GitHub Copilot a perdu une partie de son avance initiale face à des concurrents comme Anthropic ou Cursor. En mobilisant les productions internes de ses développeurs, l'entreprise espère constituer un corpus de données riche, contextualisé et propriétaire, que ses rivaux ne peuvent tout simplement pas répliquer. Pour les salariés concernés, cette pratique soulève des questions sur la propriété intellectuelle et le consentement éclairé : leurs contributions professionnelles quotidiennes deviennent du carburant pour des systèmes commerciaux. Ce phénomène révèle une tension croissante dans l'industrie de l'IA : les jeux de données publics s'épuisent ou font l'objet de litiges juridiques, forçant les entreprises à se tourner vers des données internes ou synthétiques. Meta et xAI ont adopté des démarches similaires, transformant leurs effectifs en contributeurs involontaires à l'effort d'entraînement. La question de la gouvernance de ces données employés, et des droits qui s'y rattachent, devrait s'imposer comme un nouveau terrain de friction entre entreprises, syndicats et régulateurs dans les mois à venir.

UELa collecte de données professionnelles d'employés à des fins d'entraînement sans consentement explicite pourrait tomber sous le coup du RGPD, ouvrant la voie à des enquêtes des autorités européennes de protection des données et à de nouveaux contentieux syndicaux en Europe.

ÉthiqueOpinion
1 source
Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées
2The Decoder 

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA. Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre. Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

UELes régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

ÉthiqueActu
1 source
Meta formerait des agents IA en surveillant les souris et claviers de ses employés
3Ars Technica AI 

Meta formerait des agents IA en surveillant les souris et claviers de ses employés

Meta va commencer à collecter les mouvements de souris, clics et frappes clavier de ses employés américains pour entraîner ses futurs agents d'intelligence artificielle. L'initiative, baptisée Model Capability Initiative, a été annoncée en interne via des mémos publiés par l'équipe Meta Superintelligence Labs et révélée par Reuters. Le logiciel de suivi fonctionnera sur des applications et sites web professionnels spécifiques, et prendra également des captures d'écran périodiques pour fournir du contexte aux données d'entraînement. Selon le mémo interne, "c'est là où tous les employés de Meta peuvent aider nos modèles à s'améliorer simplement en faisant leur travail quotidien." Cette approche vise à produire des données d'entraînement de haute qualité pour les agents IA, c'est-à-dire des systèmes capables d'accomplir des tâches complexes de manière autonome sur un ordinateur. Reproduire fidèlement les comportements humains réels dans des environnements de travail concrets est un défi majeur pour ce type d'IA, et les données synthétiques ou publiques ne suffisent plus. En utilisant le travail quotidien de milliers d'employés comme source de données, Meta espère accélérer le développement d'agents capables de naviguer dans des interfaces réelles. Cette initiative s'inscrit dans une course effrénée entre les grandes entreprises technologiques pour développer des agents IA performants, un marché que Microsoft, Google et OpenAI ciblent également activement. La question de la surveillance des employés à des fins commerciales soulève néanmoins des questions éthiques et juridiques, notamment en matière de consentement et de vie privée au travail. Il reste à voir si Meta étendra ce programme à ses employés hors des États-Unis, où les réglementations comme le RGPD européen imposent des contraintes bien plus strictes.

UELe RGPD impose un consentement explicite pour la collecte de données comportementales des employés, rendant une extension de ce programme aux salariés européens de Meta juridiquement très complexe, voire impossible sans refonte du dispositif.

ÉthiqueActu
1 source
Le Pentagone envisage de permettre aux entreprises d'IA de s'entraîner sur des données classifiées, selon un responsable de la défense
4MIT Technology Review 

Le Pentagone envisage de permettre aux entreprises d'IA de s'entraîner sur des données classifiées, selon un responsable de la défense

Le Pentagone prépare des environnements sécurisés pour permettre à des entreprises comme OpenAI et xAI d'Elon Musk d'entraîner leurs modèles d'IA sur des données classifiées militaires, une première qui va au-delà de l'usage actuel (les modèles comme Claude d'Anthropic répondent déjà à des questions en contexte classifié, notamment pour l'analyse de cibles en Iran). L'entraînement se ferait dans des centres de données accrédités, où des employés habilités des entreprises d'IA pourraient accéder aux données dans de rares cas, tandis que le DoD resterait propriétaire des données. Selon Aalok Mehta du CSIS, le principal risque est que des informations classifiées intégrées dans les modèles pourraient être réexposées à n'importe quel utilisateur.

UELes débats américains sur l'entraînement de l'IA sur des données militaires classifiées pourraient accélérer les réflexions européennes sur l'encadrement de l'IA de défense dans le cadre du AI Act.

ÉthiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour