Aller au contenu principal
GitHub fait machine arrière et va bien entraîner ses IA sur vos données
RégulationNumerama6sem

GitHub fait machine arrière et va bien entraîner ses IA sur vos données

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

GitHub a officiellement annoncé qu'il utilisera les données de ses utilisateurs pour entraîner ses modèles d'intelligence artificielle, dont Copilot. Ce revirement marque un changement de position notable pour la plateforme de Microsoft, qui avait jusqu'ici laissé planer une certaine ambiguïté sur l'usage réel de ces données. Désormais, la participation à l'entraînement des IA est confirmée, sous réserve de conditions précises que GitHub n'a pas encore détaillées publiquement dans leur intégralité.

Ce changement concerne potentiellement des dizaines de millions de développeurs qui hébergent leur code sur GitHub — la plus grande plateforme de dépôts au monde avec plus de 100 millions d'utilisateurs. Le fait que du code source, des commentaires et des contributions soient réinjectés dans l'entraînement de Copilot soulève des questions directes sur la propriété intellectuelle, la confidentialité du code propriétaire, et la transparence des consentements. Pour les entreprises qui utilisent GitHub en supposant que leur code interne reste privé, les implications pratiques peuvent être significatives.

Cette décision s'inscrit dans une tendance plus large de l'industrie tech à monétiser les données des utilisateurs pour alimenter leurs produits d'IA générative. Microsoft, qui a racheté GitHub en 2018 pour 7,5 milliards de dollars, investit massivement dans l'IA via son partenariat stratégique avec OpenAI. La question des droits sur les données d'entraînement fait l'objet de litiges actifs dans plusieurs pays, et ce positionnement de GitHub pourrait alimenter de nouvelles contestations légales ou réglementaires, notamment en Europe où le RGPD encadre strictement ce type d'usage.

Impact France/UE

Le RGPD impose à GitHub/Microsoft d'obtenir un consentement valide des développeurs européens avant d'utiliser leur code pour entraîner Copilot, exposant la plateforme à des contrôles de la CNIL et à d'éventuels recours juridiques en Europe.

💬 Le point de vue du dev

Si votre code propriétaire est sur GitHub sans plan Enterprise avec data protection activée, il peut désormais alimenter Copilot — vérifiez vos paramètres de dépôt et le niveau de votre abonnement dès aujourd'hui. Pour les équipes en Europe, le RGPD impose un consentement explicite que GitHub n'a pas encore clairement formalisé, ce qui crée une fenêtre de risque réel. C'est le moment de décider si GitLab self-hosted ou les GitHub Enterprise controls valent le coût.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Meta espère qu'une décision de la Cour suprême sur le piratage l'aidera à faire rejeter le procès sur ses données d'entraînement
1Ars Technica AI 

Meta espère qu'une décision de la Cour suprême sur le piratage l'aidera à faire rejeter le procès sur ses données d'entraînement

Meta a déposé la semaine dernière une déclaration dans un procès intenté par Entrepreneur Media, espérant s'appuyer sur une récente décision de la Cour suprême américaine pour échapper à sa responsabilité dans une affaire de téléchargement illicite de données d'entraînement pour l'IA. Les plaignants accusent Meta d'avoir utilisé BitTorrent pour télécharger environ 80 téraoctets d'œuvres protégées par le droit d'auteur. En « seedant » ces fichiers — c'est-à-dire en permettant à d'autres utilisateurs de télécharger à partir de ses propres copies — Meta aurait sciemment facilité des infractions supplémentaires au droit d'auteur, ce qui constitue le cœur de la plainte pour « contributory infringement », ou contrefaçon par complicité. La décision de la Cour suprême que Meta invoque avait établi que les fournisseurs d'accès à Internet ne sont pas responsables des actes de piratage commis sur leurs réseaux par leurs abonnés. Meta tente d'appliquer ce raisonnement à sa propre situation, arguant qu'une simple connaissance du fonctionnement du protocole BitTorrent ne suffit pas à établir une responsabilité juridique. L'enjeu est considérable : la plainte en contrefaçon par complicité est nettement plus facile à prouver qu'une accusation de contrefaçon directe, car elle n'exige pas de démontrer que Meta a téléchargé une œuvre dans son intégralité — seulement qu'elle a facilité des transferts de fichiers. Cette affaire s'inscrit dans un contentieux plus large autour de l'entraînement des grands modèles de langage sur des données potentiellement protégées. Une action collective distincte, Kadrey v. Meta, portée par des auteurs, poursuit Meta pour contrefaçon directe liée au même épisode de torrent. L'ensemble de ces procédures reflète une bataille juridique fondamentale qui oppose l'industrie de l'IA aux ayants droit : dans quelle mesure les entreprises technologiques peuvent-elles aspirer massivement du contenu protégé pour entraîner leurs modèles sans s'exposer à des poursuites ? La façon dont les tribunaux américains répondront à cette question façonnera durablement les pratiques de collecte de données dans tout le secteur.

UELa jurisprudence américaine sur les données d'entraînement pourrait influencer l'interprétation du cadre européen sur les droits d'auteur face à l'IA, notamment dans les procédures similaires en cours en Europe sous l'AI Act.

RégulationReglementation
1 source
« L’Europe doit montrer la voie en matière de gouvernance des armes autonomes et de l’IA militaire »
2Le Monde Pixels 

« L’Europe doit montrer la voie en matière de gouvernance des armes autonomes et de l’IA militaire »

Vincent Boulanin, chercheur spécialisé dans les technologies militaires, a publié une tribune dans Le Monde appelant les gouvernements européens à prendre le leadership mondial sur la gouvernance de l'intelligence artificielle militaire et des armes autonomes. Sa thèse centrale : les États-Unis, sous l'administration actuelle, se désengagent progressivement des cadres multilatéraux de régulation qu'ils avaient eux-mêmes contribué à établir ces dernières années, laissant un vide stratégique que l'Europe doit combler. Ce retrait américain n'est pas anodin. La gouvernance de l'IA militaire — qui encadre notamment le développement des systèmes d'armes létaux autonomes, capables de sélectionner et d'engager des cibles sans intervention humaine — est un enjeu à la fois éthique, stratégique et économique. Boulanin argue que les pays européens ont tout à gagner à s'imposer comme référents dans ce domaine : cela renforcerait leur crédibilité diplomatique, orienterait les normes internationales dans un sens compatible avec leurs valeurs, et positionnerait leur industrie de défense sur un marché en pleine expansion. Le contexte est celui d'une course mondiale à l'armement autonome, où la Chine, la Russie et les États-Unis investissent massivement, tandis que les négociations onusiennes sur un traité contraignant piétinent depuis des années. L'Europe, notamment via des initiatives portées à l'ONU et au sein de l'UE, a déjà esquissé des positions ambitieuses. Boulanin les invite à ne pas renoncer à cette ambition sous prétexte de pragmatisme ou de pression des alliés — car l'absence de règles du jeu claires dans ce domaine pourrait avoir des conséquences durables sur la stabilité internationale.

UEL'article interpelle directement les gouvernements européens pour qu'ils prennent le leadership sur la gouvernance de l'IA militaire et des armes autonomes, ce qui aurait des conséquences concrètes sur la politique de défense de l'UE et le positionnement de l'industrie de défense européenne dans un marché en pleine expansion.

RégulationReglementation
1 source
3Siècle Digital 

Des YouTubeurs accusent Apple d’avoir utilisé leurs vidéos pour entraîner son IA

Le fondateur de h3h3Productions, la chaîne YouTube comptant plusieurs millions d'abonnés, a déposé une action collective devant un tribunal fédéral de Californie contre Apple. Il est rejoint par deux chaînes spécialisées dans le golf, MrShortGame Golf et Golfholics. Les plaignants accusent Apple d'avoir utilisé leurs vidéos sans autorisation ni compensation pour entraîner les modèles de langage qui alimentent Apple Intelligence, le système d'IA intégré à iOS 18, iPadOS 18 et macOS Sequoia. Cette affaire illustre une tension croissante entre les créateurs de contenu numérique et les grandes entreprises technologiques qui aspirent des volumes massifs de données pour construire leurs modèles d'IA. Si le recours aboutit, il pourrait contraindre Apple à indemniser des milliers de créateurs dont les œuvres ont été ingérées sans consentement, et potentiellement redéfinir les obligations légales des entreprises en matière de collecte de données d'entraînement. Pour les YouTubeurs, dont les revenus dépendent directement de la valorisation de leur contenu, l'enjeu est autant financier que symbolique. Cette plainte s'inscrit dans une vague de litiges similaires qui secouent l'industrie de l'IA depuis 2023 : des auteurs, artistes, journaux comme le New York Times, et désormais des créateurs vidéo contestent devant les tribunaux l'utilisation de leurs œuvres par OpenAI, Meta, Google ou Stability AI. Apple, longtemps discret sur ses pratiques d'entraînement, se retrouve pour la première fois en première ligne de ces batailles juridiques qui pourraient remodeler les règles du jeu pour tout le secteur.

UEL'AI Act européen impose des obligations de transparence sur les données d'entraînement, et ce procès pourrait renforcer les revendications des créateurs de contenu européens face aux pratiques similaires des grandes plateformes opérant en Europe.

RégulationReglementation
1 source
4Siècle Digital 

Le Sénat adopte une loi qui pourrait forcer les géants de l’IA à prouver l’origine de leurs données

Le Sénat français a adopté le 8 avril 2026 une proposition de loi imposant aux entreprises développant des systèmes d'intelligence artificielle de divulguer les données utilisées pour entraîner leurs modèles. Ce texte vise directement les géants du secteur comme OpenAI, Google, Meta ou Mistral, qui ont massivement ingéré des contenus issus d'œuvres protégées par le droit d'auteur, des articles de presse, des livres et des créations artistiques, sans compensation ni transparence vis-à-vis des auteurs concernés. L'enjeu est considérable pour les créateurs, éditeurs et médias français, qui réclament depuis l'essor de ChatGPT fin 2022 une reconnaissance légale de leur contribution aux modèles IA. Si cette loi entre en vigueur, les entreprises devront prouver l'origine de chaque jeu de données utilisé, ouvrant la voie à des négociations de licences et potentiellement à des mécanismes de rémunération. Pour l'industrie de l'IA, cela représente une contrainte technique et juridique majeure, susceptible de ralentir le déploiement de nouveaux modèles en France et en Europe. Ce vote s'inscrit dans un mouvement plus large de régulation du secteur, parallèlement à l'AI Act européen qui entre progressivement en application. Plusieurs procès intentés par des journaux américains contre OpenAI ont déjà mis en lumière la question de l'utilisation non autorisée de contenus. La France cherche ici à anticiper ces conflits en posant un cadre légal national, même si le texte devra encore passer devant l'Assemblée nationale avant de devenir définitivement loi.

UELe Sénat français impose aux développeurs d'IA de prouver l'origine de leurs données d'entraînement, ouvrant la voie à des négociations de licences et à une rémunération des créateurs, éditeurs et médias français.

💬 C'est le genre de texte de loi qu'on attendait depuis le début, et le Sénat a eu le bon sens de pas attendre que les procès américains fassent jurisprudence ici. Reste qu'entre "adopté au Sénat" et "en vigueur", il y a encore l'Assemblée nationale, et ça peut prendre du temps. Mistral va devoir jouer le jeu aussi, pas seulement les Américains, ce qui rend le truc vraiment sérieux.

RégulationReglementation
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour