
Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés
Microsoft, Meta et xAI ont recours à une source de données d'entraînement peu conventionnelle pour leurs modèles d'intelligence artificielle : leurs propres salariés. Microsoft est la dernière entreprise à avoir formalisé cette approche, en annonçant qu'elle prévoit d'exploiter le code propriétaire produit par ses quelque 100 000 ingénieurs logiciels pour entraîner ses modèles de programmation. Cette stratégie s'inscrit dans une tendance plus large observée chez les grands acteurs du secteur, qui cherchent à contourner la pénurie de données de qualité sur le marché ouvert.
L'enjeu est considérable pour Microsoft, dont GitHub Copilot a perdu une partie de son avance initiale face à des concurrents comme Anthropic ou Cursor. En mobilisant les productions internes de ses développeurs, l'entreprise espère constituer un corpus de données riche, contextualisé et propriétaire, que ses rivaux ne peuvent tout simplement pas répliquer. Pour les salariés concernés, cette pratique soulève des questions sur la propriété intellectuelle et le consentement éclairé : leurs contributions professionnelles quotidiennes deviennent du carburant pour des systèmes commerciaux.
Ce phénomène révèle une tension croissante dans l'industrie de l'IA : les jeux de données publics s'épuisent ou font l'objet de litiges juridiques, forçant les entreprises à se tourner vers des données internes ou synthétiques. Meta et xAI ont adopté des démarches similaires, transformant leurs effectifs en contributeurs involontaires à l'effort d'entraînement. La question de la gouvernance de ces données employés, et des droits qui s'y rattachent, devrait s'imposer comme un nouveau terrain de friction entre entreprises, syndicats et régulateurs dans les mois à venir.
La collecte de données professionnelles d'employés à des fins d'entraînement sans consentement explicite pourrait tomber sous le coup du RGPD, ouvrant la voie à des enquêtes des autorités européennes de protection des données et à de nouveaux contentieux syndicaux en Europe.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




