
GitHub fait machine arrière et va bien entraîner ses IA sur vos données
GitHub a officiellement annoncé qu'il utilisera les données de ses utilisateurs pour entraîner ses modèles d'intelligence artificielle, dont Copilot. Ce revirement marque un changement de position notable pour la plateforme de Microsoft, qui avait jusqu'ici laissé planer une certaine ambiguïté sur l'usage réel de ces données. Désormais, la participation à l'entraînement des IA est confirmée, sous réserve de conditions précises que GitHub n'a pas encore détaillées publiquement dans leur intégralité.
Ce changement concerne potentiellement des dizaines de millions de développeurs qui hébergent leur code sur GitHub — la plus grande plateforme de dépôts au monde avec plus de 100 millions d'utilisateurs. Le fait que du code source, des commentaires et des contributions soient réinjectés dans l'entraînement de Copilot soulève des questions directes sur la propriété intellectuelle, la confidentialité du code propriétaire, et la transparence des consentements. Pour les entreprises qui utilisent GitHub en supposant que leur code interne reste privé, les implications pratiques peuvent être significatives.
Cette décision s'inscrit dans une tendance plus large de l'industrie tech à monétiser les données des utilisateurs pour alimenter leurs produits d'IA générative. Microsoft, qui a racheté GitHub en 2018 pour 7,5 milliards de dollars, investit massivement dans l'IA via son partenariat stratégique avec OpenAI. La question des droits sur les données d'entraînement fait l'objet de litiges actifs dans plusieurs pays, et ce positionnement de GitHub pourrait alimenter de nouvelles contestations légales ou réglementaires, notamment en Europe où le RGPD encadre strictement ce type d'usage.
Le RGPD impose à GitHub/Microsoft d'obtenir un consentement valide des développeurs européens avant d'utiliser leur code pour entraîner Copilot, exposant la plateforme à des contrôles de la CNIL et à d'éventuels recours juridiques en Europe.


