Aller au contenu principal
GitHub fait machine arrière et va bien entraîner ses IA sur vos données
RégulationNumerama6sem

GitHub fait machine arrière et va bien entraîner ses IA sur vos données

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

GitHub a officiellement annoncé qu'il utilisera les données de ses utilisateurs pour entraîner ses modèles d'intelligence artificielle, dont Copilot. Ce revirement marque un changement de position notable pour la plateforme de Microsoft, qui avait jusqu'ici laissé planer une certaine ambiguïté sur l'usage réel de ces données. Désormais, la participation à l'entraînement des IA est confirmée, sous réserve de conditions précises que GitHub n'a pas encore détaillées publiquement dans leur intégralité.

Ce changement concerne potentiellement des dizaines de millions de développeurs qui hébergent leur code sur GitHub — la plus grande plateforme de dépôts au monde avec plus de 100 millions d'utilisateurs. Le fait que du code source, des commentaires et des contributions soient réinjectés dans l'entraînement de Copilot soulève des questions directes sur la propriété intellectuelle, la confidentialité du code propriétaire, et la transparence des consentements. Pour les entreprises qui utilisent GitHub en supposant que leur code interne reste privé, les implications pratiques peuvent être significatives.

Cette décision s'inscrit dans une tendance plus large de l'industrie tech à monétiser les données des utilisateurs pour alimenter leurs produits d'IA générative. Microsoft, qui a racheté GitHub en 2018 pour 7,5 milliards de dollars, investit massivement dans l'IA via son partenariat stratégique avec OpenAI. La question des droits sur les données d'entraînement fait l'objet de litiges actifs dans plusieurs pays, et ce positionnement de GitHub pourrait alimenter de nouvelles contestations légales ou réglementaires, notamment en Europe où le RGPD encadre strictement ce type d'usage.

Impact France/UE

Le RGPD impose à GitHub/Microsoft d'obtenir un consentement valide des développeurs européens avant d'utiliser leur code pour entraîner Copilot, exposant la plateforme à des contrôles de la CNIL et à d'éventuels recours juridiques en Europe.

💬 Le point de vue du dev

Si votre code propriétaire est sur GitHub sans plan Enterprise avec data protection activée, il peut désormais alimenter Copilot — vérifiez vos paramètres de dépôt et le niveau de votre abonnement dès aujourd'hui. Pour les équipes en Europe, le RGPD impose un consentement explicite que GitHub n'a pas encore clairement formalisé, ce qui crée une fenêtre de risque réel. C'est le moment de décider si GitLab self-hosted ou les GitHub Enterprise controls valent le coût.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

La souveraineté en matière d'IA et de données à l'ère des systèmes autonomes
1MIT Technology Review 

La souveraineté en matière d'IA et de données à l'ère des systèmes autonomes

Face aux risques croissants liés à la dépendance aux grandes plateformes d'intelligence artificielle, un mouvement de fond s'organise au sein des entreprises mondiales. Selon une enquête menée par EDB auprès de plus de 2 050 cadres dirigeants, 70 % d'entre eux estiment désormais avoir besoin d'une plateforme souveraine de données et d'IA pour rester compétitifs. Kevin Dallas, PDG d'EDB, résume le problème central : lorsqu'une entreprise déploie une application propulsée par un grand modèle de langage hébergé dans le cloud, elle risque de perdre sa propriété intellectuelle et son avantage concurrentiel, car ses données transitent par des systèmes qu'elle ne contrôle pas, soumis à des politiques qui peuvent changer à tout moment. En janvier 2026, Jensen Huang, PDG de Nvidia, a enfoncé le clou lors du Forum économique mondial de Davos, en appelant chaque pays à bâtir sa propre infrastructure d'IA, à exploiter sa langue et sa culture comme ressources naturelles, et à intégrer une intelligence nationale dans son écosystème technologique. L'enjeu dépasse la simple prudence juridique. Pour de nombreuses organisations, les données constituent désormais le principal actif immatériel, l'équivalent d'un brevet ou d'un secret de fabrication. Confier ces données à des modèles tiers, c'est potentiellement alimenter les systèmes de concurrents ou s'exposer à des fuites lors de mises à jour de conditions d'utilisation. La souveraineté en matière d'IA, c'est-à-dire la capacité à héberger, entraîner et gouverner ses propres modèles ainsi que ses données, devient ainsi un impératif stratégique autant qu'une nécessité réglementaire, en particulier dans des secteurs comme la finance, la santé ou la défense, où la confidentialité des informations est non négociable. Ce virage s'inscrit dans une trajectoire plus longue. Depuis les premières expérimentations avec l'IA générative en entreprise, le pari implicite était d'accepter une perte partielle de contrôle en échange de gains de productivité rapides. Mais l'arrivée des systèmes agentiques, capables d'agir de façon autonome sur des processus métier critiques, a rendu ce compromis intenable pour beaucoup. Les entreprises réévaluent aujourd'hui les fondements de leur infrastructure IA, cherchant à rapatrier modèles et données dans des environnements qu'elles maîtrisent réellement. Ce rapport d'EDB, réalisé en partenariat avec MIT Technology Review Insights, dessine les contours d'un marché en pleine recomposition, où la souveraineté numérique cesse d'être un idéal politique pour devenir un critère concret de choix technologique.

UELes entreprises françaises et européennes des secteurs finance, santé et défense sont directement concernées par cet impératif de souveraineté numérique, que renforcent le RGPD et l'AI Act en imposant un contrôle strict des données et des modèles utilisés.

💬 Le truc qui change l'équation, c'est l'agentique. Tant que l'IA résumait des emails, on pouvait fermer les yeux sur où transitaient les données, mais dès qu'un agent autonome touche à tes processus métier critiques, la question du contrôle devient non-négociable. 70% des dirigeants qui réclament une infra souveraine, c'est pas de la paranoïa, c'est juste de la gestion de risque basique.

RégulationReglementation
1 source
Meta espère qu'une décision de la Cour suprême sur le piratage l'aidera à faire rejeter le procès sur ses données d'entraînement
2Ars Technica AI 

Meta espère qu'une décision de la Cour suprême sur le piratage l'aidera à faire rejeter le procès sur ses données d'entraînement

Meta a déposé la semaine dernière une déclaration dans un procès intenté par Entrepreneur Media, espérant s'appuyer sur une récente décision de la Cour suprême américaine pour échapper à sa responsabilité dans une affaire de téléchargement illicite de données d'entraînement pour l'IA. Les plaignants accusent Meta d'avoir utilisé BitTorrent pour télécharger environ 80 téraoctets d'œuvres protégées par le droit d'auteur. En « seedant » ces fichiers — c'est-à-dire en permettant à d'autres utilisateurs de télécharger à partir de ses propres copies — Meta aurait sciemment facilité des infractions supplémentaires au droit d'auteur, ce qui constitue le cœur de la plainte pour « contributory infringement », ou contrefaçon par complicité. La décision de la Cour suprême que Meta invoque avait établi que les fournisseurs d'accès à Internet ne sont pas responsables des actes de piratage commis sur leurs réseaux par leurs abonnés. Meta tente d'appliquer ce raisonnement à sa propre situation, arguant qu'une simple connaissance du fonctionnement du protocole BitTorrent ne suffit pas à établir une responsabilité juridique. L'enjeu est considérable : la plainte en contrefaçon par complicité est nettement plus facile à prouver qu'une accusation de contrefaçon directe, car elle n'exige pas de démontrer que Meta a téléchargé une œuvre dans son intégralité — seulement qu'elle a facilité des transferts de fichiers. Cette affaire s'inscrit dans un contentieux plus large autour de l'entraînement des grands modèles de langage sur des données potentiellement protégées. Une action collective distincte, Kadrey v. Meta, portée par des auteurs, poursuit Meta pour contrefaçon directe liée au même épisode de torrent. L'ensemble de ces procédures reflète une bataille juridique fondamentale qui oppose l'industrie de l'IA aux ayants droit : dans quelle mesure les entreprises technologiques peuvent-elles aspirer massivement du contenu protégé pour entraîner leurs modèles sans s'exposer à des poursuites ? La façon dont les tribunaux américains répondront à cette question façonnera durablement les pratiques de collecte de données dans tout le secteur.

UELa jurisprudence américaine sur les données d'entraînement pourrait influencer l'interprétation du cadre européen sur les droits d'auteur face à l'IA, notamment dans les procédures similaires en cours en Europe sous l'AI Act.

RégulationReglementation
1 source
« L’Europe doit montrer la voie en matière de gouvernance des armes autonomes et de l’IA militaire »
3Le Monde Pixels 

« L’Europe doit montrer la voie en matière de gouvernance des armes autonomes et de l’IA militaire »

Vincent Boulanin, chercheur spécialisé dans les technologies militaires, a publié une tribune dans Le Monde appelant les gouvernements européens à prendre le leadership mondial sur la gouvernance de l'intelligence artificielle militaire et des armes autonomes. Sa thèse centrale : les États-Unis, sous l'administration actuelle, se désengagent progressivement des cadres multilatéraux de régulation qu'ils avaient eux-mêmes contribué à établir ces dernières années, laissant un vide stratégique que l'Europe doit combler. Ce retrait américain n'est pas anodin. La gouvernance de l'IA militaire — qui encadre notamment le développement des systèmes d'armes létaux autonomes, capables de sélectionner et d'engager des cibles sans intervention humaine — est un enjeu à la fois éthique, stratégique et économique. Boulanin argue que les pays européens ont tout à gagner à s'imposer comme référents dans ce domaine : cela renforcerait leur crédibilité diplomatique, orienterait les normes internationales dans un sens compatible avec leurs valeurs, et positionnerait leur industrie de défense sur un marché en pleine expansion. Le contexte est celui d'une course mondiale à l'armement autonome, où la Chine, la Russie et les États-Unis investissent massivement, tandis que les négociations onusiennes sur un traité contraignant piétinent depuis des années. L'Europe, notamment via des initiatives portées à l'ONU et au sein de l'UE, a déjà esquissé des positions ambitieuses. Boulanin les invite à ne pas renoncer à cette ambition sous prétexte de pragmatisme ou de pression des alliés — car l'absence de règles du jeu claires dans ce domaine pourrait avoir des conséquences durables sur la stabilité internationale.

UEL'article interpelle directement les gouvernements européens pour qu'ils prennent le leadership sur la gouvernance de l'IA militaire et des armes autonomes, ce qui aurait des conséquences concrètes sur la politique de défense de l'UE et le positionnement de l'industrie de défense européenne dans un marché en pleine expansion.

RégulationReglementation
1 source
4Siècle Digital 

Des YouTubeurs accusent Apple d’avoir utilisé leurs vidéos pour entraîner son IA

Le fondateur de h3h3Productions, la chaîne YouTube comptant plusieurs millions d'abonnés, a déposé une action collective devant un tribunal fédéral de Californie contre Apple. Il est rejoint par deux chaînes spécialisées dans le golf, MrShortGame Golf et Golfholics. Les plaignants accusent Apple d'avoir utilisé leurs vidéos sans autorisation ni compensation pour entraîner les modèles de langage qui alimentent Apple Intelligence, le système d'IA intégré à iOS 18, iPadOS 18 et macOS Sequoia. Cette affaire illustre une tension croissante entre les créateurs de contenu numérique et les grandes entreprises technologiques qui aspirent des volumes massifs de données pour construire leurs modèles d'IA. Si le recours aboutit, il pourrait contraindre Apple à indemniser des milliers de créateurs dont les œuvres ont été ingérées sans consentement, et potentiellement redéfinir les obligations légales des entreprises en matière de collecte de données d'entraînement. Pour les YouTubeurs, dont les revenus dépendent directement de la valorisation de leur contenu, l'enjeu est autant financier que symbolique. Cette plainte s'inscrit dans une vague de litiges similaires qui secouent l'industrie de l'IA depuis 2023 : des auteurs, artistes, journaux comme le New York Times, et désormais des créateurs vidéo contestent devant les tribunaux l'utilisation de leurs œuvres par OpenAI, Meta, Google ou Stability AI. Apple, longtemps discret sur ses pratiques d'entraînement, se retrouve pour la première fois en première ligne de ces batailles juridiques qui pourraient remodeler les règles du jeu pour tout le secteur.

UEL'AI Act européen impose des obligations de transparence sur les données d'entraînement, et ce procès pourrait renforcer les revendications des créateurs de contenu européens face aux pratiques similaires des grandes plateformes opérant en Europe.

RégulationReglementation
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour