Aller au contenu principal
Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés
ÉthiqueThe Information AI6sem· 1 min de lecture

Microsoft, Meta et xAI collectent des données d'entraînement auprès de leurs propres employés

Source originale ↗·

Microsoft, Meta et xAI ont recours à une source de données d'entraînement peu conventionnelle pour leurs modèles d'intelligence artificielle : leurs propres salariés. Microsoft est la dernière entreprise à avoir formalisé cette approche, en annonçant qu'elle prévoit d'exploiter le code propriétaire produit par ses quelque 100 000 ingénieurs logiciels pour entraîner ses modèles de programmation. Cette stratégie s'inscrit dans une tendance plus large observée chez les grands acteurs du secteur, qui cherchent à contourner la pénurie de données de qualité sur le marché ouvert.

L'enjeu est considérable pour Microsoft, dont GitHub Copilot a perdu une partie de son avance initiale face à des concurrents comme Anthropic ou Cursor. En mobilisant les productions internes de ses développeurs, l'entreprise espère constituer un corpus de données riche, contextualisé et propriétaire, que ses rivaux ne peuvent tout simplement pas répliquer. Pour les salariés concernés, cette pratique soulève des questions sur la propriété intellectuelle et le consentement éclairé : leurs contributions professionnelles quotidiennes deviennent du carburant pour des systèmes commerciaux.

Ce phénomène révèle une tension croissante dans l'industrie de l'IA : les jeux de données publics s'épuisent ou font l'objet de litiges juridiques, forçant les entreprises à se tourner vers des données internes ou synthétiques. Meta et xAI ont adopté des démarches similaires, transformant leurs effectifs en contributeurs involontaires à l'effort d'entraînement. La question de la gouvernance de ces données employés, et des droits qui s'y rattachent, devrait s'imposer comme un nouveau terrain de friction entre entreprises, syndicats et régulateurs dans les mois à venir.

Impact France/UE

La collecte de données professionnelles d'employés à des fins d'entraînement sans consentement explicite pourrait tomber sous le coup du RGPD, ouvrant la voie à des enquêtes des autorités européennes de protection des données et à de nouveaux contentieux syndicaux en Europe.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées
1The Decoder 

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA. Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre. Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

UELes régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

ÉthiqueActu
1 source
Meta : les données du projet de surveillance des employés étaient accessibles en interne
2Next INpact 

Meta : les données du projet de surveillance des employés étaient accessibles en interne

Meta a suspendu son programme interne de surveillance des employés, baptisé Model Capability Initiative (MCI), après la découverte d'une faille de sécurité majeure. Lancé en avril 2026, cet outil enregistrait les mouvements de curseur, les clics, les frappes clavier et réalisait des captures d'écran périodiques sur les machines des salariés de l'entreprise. L'objectif affiché était de collecter des données comportementales pour entraîner les modèles d'intelligence artificielle de Meta, notamment pour améliorer les fonctionnalités d'agents IA. Le problème : les données ainsi récoltées se sont révélées accessibles à l'ensemble du personnel de l'entreprise. Business Insider a consulté des captures d'écran confirmant qu'il était possible d'accéder à des discussions privées, des données de performance et des transcriptions. Selon un avis de sécurité interne obtenu par Wired, les données de 45 000 tables Hive étaient exposées. Meta a classé l'incident au niveau 2 de son échelle de sévérité interne, dont le degré 0 représente la criticité maximale. L'exposition concerne des informations hautement sensibles. Des employés indiquent avoir eu accès depuis leur poste de travail à des données fiscales et médicales personnelles de leurs collègues, en violation directe des garanties formulées par l'entreprise lors du déploiement du programme. La réaction en interne a été vive : sur les canaux de messagerie interne, certains salariés ont exprimé leur colère ouvertement, l'un d'eux partageant un mème de la série The Office avec la pancarte « 0 jour depuis notre dernière bêtise ». Le CTO de Meta, Andrew Bosworth, a reconnu dans un message interne une mauvaise configuration des listes de contrôle d'accès (ACL) et annoncé une analyse complète des causes, incluant la traçabilité de chaque accès aux données compromises. Des employés réclament désormais qu'une réunion post-mortem soit organisée avec toutes les personnes concernées. Cette faille intervient dans un contexte déjà tendu autour du programme MCI. Dès son lancement, le projet avait suscité une fronde interne, contraignant Meta à introduire une fonctionnalité de pause de 30 minutes, insuffisante aux yeux de nombreux salariés qui réclamaient un bouton de désactivation complet. La suspension actuelle du programme, présentée comme temporaire le temps de l'enquête, ravive des questions plus larges sur les pratiques de collecte de données des grandes entreprises technologiques sur leurs propres employés au nom de l'entraînement de l'IA. Si Meta affirme ne pas avoir de preuve d'accès malveillant, l'incident illustre les risques concrets que font peser ces dispositifs massifs de collecte interne, et la difficulté à concilier ambitions en IA et respect élémentaire de la vie privée des travailleurs.

UELes employés de Meta en France et dans l'UE sont potentiellement concernés par ce dispositif de surveillance ; l'incident pourrait déclencher une enquête de la CNIL et met en lumière les tensions entre le RGPD, le droit du travail européen et les pratiques de collecte massive de données internes au nom de l'IA.

ÉthiqueActu
1 source
Meta formerait des agents IA en surveillant les souris et claviers de ses employés
3Ars Technica AI 

Meta formerait des agents IA en surveillant les souris et claviers de ses employés

Meta va commencer à collecter les mouvements de souris, clics et frappes clavier de ses employés américains pour entraîner ses futurs agents d'intelligence artificielle. L'initiative, baptisée Model Capability Initiative, a été annoncée en interne via des mémos publiés par l'équipe Meta Superintelligence Labs et révélée par Reuters. Le logiciel de suivi fonctionnera sur des applications et sites web professionnels spécifiques, et prendra également des captures d'écran périodiques pour fournir du contexte aux données d'entraînement. Selon le mémo interne, "c'est là où tous les employés de Meta peuvent aider nos modèles à s'améliorer simplement en faisant leur travail quotidien." Cette approche vise à produire des données d'entraînement de haute qualité pour les agents IA, c'est-à-dire des systèmes capables d'accomplir des tâches complexes de manière autonome sur un ordinateur. Reproduire fidèlement les comportements humains réels dans des environnements de travail concrets est un défi majeur pour ce type d'IA, et les données synthétiques ou publiques ne suffisent plus. En utilisant le travail quotidien de milliers d'employés comme source de données, Meta espère accélérer le développement d'agents capables de naviguer dans des interfaces réelles. Cette initiative s'inscrit dans une course effrénée entre les grandes entreprises technologiques pour développer des agents IA performants, un marché que Microsoft, Google et OpenAI ciblent également activement. La question de la surveillance des employés à des fins commerciales soulève néanmoins des questions éthiques et juridiques, notamment en matière de consentement et de vie privée au travail. Il reste à voir si Meta étendra ce programme à ses employés hors des États-Unis, où les réglementations comme le RGPD européen imposent des contraintes bien plus strictes.

UELe RGPD impose un consentement explicite pour la collecte de données comportementales des employés, rendant une extension de ce programme aux salariés européens de Meta juridiquement très complexe, voire impossible sans refonte du dispositif.

ÉthiqueActu
1 source
Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA
4The Verge 

Meta surveille désormais l'activité informatique de ses employés pour entraîner ses agents IA

Meta installe en ce moment un outil de surveillance sur les ordinateurs de ses employés basés aux États-Unis, selon une information révélée par Reuters. L'outil, baptisé Model Capability Initiative (MCI), tourne en arrière-plan dans les applications et sites web liés au travail et enregistre les mouvements de souris, les clics, les frappes au clavier ainsi que des captures d'écran ponctuelles. L'objectif affiché par l'entreprise est d'utiliser ces données comportementales pour entraîner ses modèles d'intelligence artificielle à interagir avec les ordinateurs de la même façon que le font les humains au quotidien. Meta précise que les données collectées ne seront pas utilisées à des fins d'évaluation des performances des salariés. Cette initiative s'inscrit dans la course aux agents IA capables d'automatiser des tâches informatiques complexes, remplir des formulaires, naviguer dans des interfaces, exécuter des workflows bureautiques. En capturant directement les gestes réels de travailleurs qualifiés, Meta cherche à constituer un jeu de données d'entraînement à haute valeur, bien plus représentatif que des données synthétiques. Pour les employés concernés, cela soulève des questions concrètes sur la frontière entre contribution au produit et surveillance au travail. La démarche rappelle celle d'autres géants tech qui collectent des données humaines pour affiner leurs systèmes d'automatisation, comme Google ou Microsoft avec leurs outils Copilot. Meta, qui développe activement ses propres agents IA sous l'impulsion de Mark Zuckerberg, considère visiblement ses équipes internes comme un terrain d'entraînement privilégié. Le fait que le programme soit pour l'instant limité aux États-Unis suggère des contraintes légales en Europe, où le RGPD encadre strictement ce type de collecte en milieu professionnel.

UELe RGPD protège directement les salariés européens de Meta contre ce type de surveillance systématique, ce qui explique que le programme soit pour l'instant limité aux États-Unis et soulève des questions sur la conformité des pratiques de collecte de données en milieu professionnel au sein de l'UE.

ÉthiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic