
MemPrivacy : pseudonymisation locale réversible en edge-cloud pour protéger les données sans altérer la mémoire
Des chercheurs de MemTensor (Shanghai), du fabricant de smartphones HONOR Device et de l'université Tongji ont présenté MemPrivacy, un cadre technique destiné à protéger les données personnelles des utilisateurs d'agents IA sans sacrifier l'utilité des systèmes de mémoire cloud. Publié sur arXiv, le framework repose sur ce que les chercheurs appellent la "pseudonymisation locale réversible" : avant de quitter l'appareil de l'utilisateur, les données sensibles sont remplacées par des jetons structurés typés, comme <HealthInfo1> ou <Email_1>. Le modèle cloud reçoit un texte sémantiquement intact, stocke les mémoires normalement, mais ne voit jamais les valeurs réelles. Lorsque la réponse revient, l'appareil local substitue les placeholders par les données originales via une base de données sécurisée en local. Le pipeline se divise en trois étapes : désensibilisation lors de l'envoi, traitement cloud, puis restauration à la réception, cette dernière n'ajoutant qu'une latence négligeable. Les chercheurs ont également défini une taxonomie à quatre niveaux (PL1 à PL4) pour classer les données selon leur sensibilité, des simples préférences personnelles jusqu'aux informations médicales et financières les plus critiques.
L'enjeu est considérable : des études récentes montrent que les attaques par mémoire multi-tours peuvent induire des violations de données privées dans jusqu'à 69 % des cas, et les attaques par fuite contre les systèmes de mémoire atteignent un taux de succès de 75 %. L'injection indirecte de prompts peut même pousser un agent à soutirer activement des informations confidentielles à l'utilisateur. Dans une architecture edge-cloud classique, les données brutes transitent vers le cloud et y persistent dans des bases vectorielles ou des journaux, bien au-delà de l'interaction initiale. La solution répandue du masquage par des * détruit la sémantique et rend les agents inutilisables pour des tâches concrètes : si une adresse email et une tension artérielle sont toutes deux effacées, le modèle ne peut pas rédiger un message médical cohérent. MemPrivacy résout ce paradoxe en conservant la structure sémantique grâce aux placeholders typés, permettant aux modèles cloud de raisonner correctement sans jamais accéder aux valeurs sensibles réelles.
Ce travail s'inscrit dans un contexte où les agents LLM passent rapidement des laboratoires de recherche aux déploiements en production, exacerbant la tension entre personnalisation et confidentialité. Les approches antérieures plus rigoureuses, comme la confidentialité différentielle ou la protection cryptographique, offrent de meilleures garanties théoriques mais s'intègrent difficilement dans des pipelines de mémoire interactifs sans dégrader la qualité des réponses. MemPrivacy propose une voie intermédiaire : un modèle léger embarqué sur l'appareil gère la détection et la classification des données sensibles, tandis que la puissance de calcul cloud reste disponible pour la mémoire et le raisonnement complexe. Avec la multiplication des assistants IA personnalisés et la pression réglementaire croissante sur la protection des données, notamment en Europe avec le RGPD, ce type d'architecture hybride pourrait s'imposer comme un standard pour les applications grand public souhaitant offrir à la fois des capacités mémoire avancées et des garanties crédibles en matière de vie privée.
L'architecture MemPrivacy répond directement aux exigences du RGPD sur la minimisation des données, offrant aux développeurs européens d'agents IA une voie technique concrète pour concilier mémoire personnalisée et conformité réglementaire.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



