La protection de la vie privée des données d'entraînement de l'IA
Les modèles de machine learning entraînés sur des données sensibles, dossiers médicaux, historiques de transactions bancaires ou résultats d'essais cliniques, sont exposés à des attaques capables d'extraire des informations confidentielles sur leurs données d'entraînement. Trois scénarios d'attaque escaladent en gravité. D'abord, l'inférence d'appartenance : tout acteur disposant d'un accès en requête à un modèle déployé peut déterminer si un enregistrement précis faisait partie des données d'entraînement. Des chercheurs d'Amazon Web Services l'ont démontré en 2023 à la conférence NeurIPS, exploitant le fait qu'un modèle produit des prédictions à plus haute confiance pour les exemples sur lesquels il a été entraîné. Ensuite vient la reconstruction de données dans les systèmes d'apprentissage fédéré, où plusieurs organisations entraînent un modèle commun sans partager leurs données brutes : un serveur d'agrégation malveillant peut reconstituer les données d'entraînement d'un participant à partir des mises à jour de gradient. Enfin, même un participant honnête peut voir ses données privées exposées via le modèle global partagé. En 2023, une publication de Google DeepMind a montré que GPT-3.5-turbo pouvait, sous certaines requêtes, reproduire mot pour mot des données d'entraînement, y compris des informations personnellement identifiables.
Ces risques ont des conséquences légales et éthiques directes pour les organisations qui déploient des modèles sur des données protégées. Une attaque réussie contre un modèle hospitalier pourrait révéler qu'un patient spécifique a été traité dans un établissement donné, violant ainsi le HIPAA aux États-Unis ou le RGPD en Europe. Pour les systèmes d'apprentissage fédéré utilisés par des consortiums hospitaliers ou bancaires, une reconstruction réussie des données d'entraînement annulerait toute la promesse de confidentialité de l'architecture et exposerait les organisations à des violations des accords de consentement des patients. Les modèles spécialisés entraînés sur des jeux de données concentrés et sensibles sont particulièrement vulnérables, précisément parce que leurs données sont moins diversifiées et donc plus faciles à extraire.
Face à ces menaces, deux technologies de protection font consensus : la confidentialité différentielle (differential privacy) et le calcul multipartite sécurisé (secure multiparty computation). La première ajoute du bruit mathématique calibré aux gradients ou aux données, rendant statistiquement impossible de déterminer si un enregistrement individuel a participé à l'entraînement, tout en préservant l'utilité statistique du modèle. La seconde permet à plusieurs parties de calculer conjointement un résultat sans qu'aucune n'accède aux données brutes des autres. Ces techniques ne sont plus réservées aux laboratoires académiques : à mesure que les entreprises de santé, de finance et de pharmacie intensifient leur adoption de l'IA sur des données propriétaires, leur déploiement devient une condition incontournable d'un développement responsable et d'une conformité réglementaire durable.
Le RGPD est directement en jeu : une attaque de reconstruction réussie contre un modèle hospitalier ou un consortium bancaire européen utilisant l'apprentissage fédéré exposerait l'organisation à des violations de conformité graves et à des sanctions.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




