SécuritéMarkTechPost6sem· 2 min de lecture

MemPrivacy : pseudonymisation locale réversible en edge-cloud pour protéger les données sans altérer la mémoire

Des chercheurs de MemTensor (Shanghai), du fabricant de smartphones HONOR Device et de l'université Tongji ont présenté MemPrivacy, un cadre technique destiné à protéger les données personnelles des utilisateurs d'agents IA sans sacrifier l'utilité des systèmes de mémoire cloud. Publié sur arXiv, le framework repose sur ce que les chercheurs appellent la "pseudonymisation locale réversible" : avant de quitter l'appareil de l'utilisateur, les données sensibles sont remplacées par des jetons structurés typés, comme <HealthInfo1> ou <Email_1>. Le modèle cloud reçoit un texte sémantiquement intact, stocke les mémoires normalement, mais ne voit jamais les valeurs réelles. Lorsque la réponse revient, l'appareil local substitue les placeholders par les données originales via une base de données sécurisée en local. Le pipeline se divise en trois étapes : désensibilisation lors de l'envoi, traitement cloud, puis restauration à la réception, cette dernière n'ajoutant qu'une latence négligeable. Les chercheurs ont également défini une taxonomie à quatre niveaux (PL1 à PL4) pour classer les données selon leur sensibilité, des simples préférences personnelles jusqu'aux informations médicales et financières les plus critiques.

L'enjeu est considérable : des études récentes montrent que les attaques par mémoire multi-tours peuvent induire des violations de données privées dans jusqu'à 69 % des cas, et les attaques par fuite contre les systèmes de mémoire atteignent un taux de succès de 75 %. L'injection indirecte de prompts peut même pousser un agent à soutirer activement des informations confidentielles à l'utilisateur. Dans une architecture edge-cloud classique, les données brutes transitent vers le cloud et y persistent dans des bases vectorielles ou des journaux, bien au-delà de l'interaction initiale. La solution répandue du masquage par des * détruit la sémantique et rend les agents inutilisables pour des tâches concrètes : si une adresse email et une tension artérielle sont toutes deux effacées, le modèle ne peut pas rédiger un message médical cohérent. MemPrivacy résout ce paradoxe en conservant la structure sémantique grâce aux placeholders typés, permettant aux modèles cloud de raisonner correctement sans jamais accéder aux valeurs sensibles réelles.

Ce travail s'inscrit dans un contexte où les agents LLM passent rapidement des laboratoires de recherche aux déploiements en production, exacerbant la tension entre personnalisation et confidentialité. Les approches antérieures plus rigoureuses, comme la confidentialité différentielle ou la protection cryptographique, offrent de meilleures garanties théoriques mais s'intègrent difficilement dans des pipelines de mémoire interactifs sans dégrader la qualité des réponses. MemPrivacy propose une voie intermédiaire : un modèle léger embarqué sur l'appareil gère la détection et la classification des données sensibles, tandis que la puissance de calcul cloud reste disponible pour la mémoire et le raisonnement complexe. Avec la multiplication des assistants IA personnalisés et la pression réglementaire croissante sur la protection des données, notamment en Europe avec le RGPD, ce type d'architecture hybride pourrait s'imposer comme un standard pour les applications grand public souhaitant offrir à la fois des capacités mémoire avancées et des garanties crédibles en matière de vie privée.

Impact France/UE

L'architecture MemPrivacy répond directement aux exigences du RGPD sur la minimisation des données, offrant aux développeurs européens d'agents IA une voie technique concrète pour concilier mémoire personnalisée et conformité réglementaire.

Dans nos dossiers

AI Act & Régulation UE Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Amazon Science

La protection de la vie privée des données d'entraînement de l'IA

Les modèles de machine learning entraînés sur des données sensibles, dossiers médicaux, historiques de transactions bancaires ou résultats d'essais cliniques, sont exposés à des attaques capables d'extraire des informations confidentielles sur leurs données d'entraînement. Trois scénarios d'attaque escaladent en gravité. D'abord, l'inférence d'appartenance : tout acteur disposant d'un accès en requête à un modèle déployé peut déterminer si un enregistrement précis faisait partie des données d'entraînement. Des chercheurs d'Amazon Web Services l'ont démontré en 2023 à la conférence NeurIPS, exploitant le fait qu'un modèle produit des prédictions à plus haute confiance pour les exemples sur lesquels il a été entraîné. Ensuite vient la reconstruction de données dans les systèmes d'apprentissage fédéré, où plusieurs organisations entraînent un modèle commun sans partager leurs données brutes : un serveur d'agrégation malveillant peut reconstituer les données d'entraînement d'un participant à partir des mises à jour de gradient. Enfin, même un participant honnête peut voir ses données privées exposées via le modèle global partagé. En 2023, une publication de Google DeepMind a montré que GPT-3.5-turbo pouvait, sous certaines requêtes, reproduire mot pour mot des données d'entraînement, y compris des informations personnellement identifiables. Ces risques ont des conséquences légales et éthiques directes pour les organisations qui déploient des modèles sur des données protégées. Une attaque réussie contre un modèle hospitalier pourrait révéler qu'un patient spécifique a été traité dans un établissement donné, violant ainsi le HIPAA aux États-Unis ou le RGPD en Europe. Pour les systèmes d'apprentissage fédéré utilisés par des consortiums hospitaliers ou bancaires, une reconstruction réussie des données d'entraînement annulerait toute la promesse de confidentialité de l'architecture et exposerait les organisations à des violations des accords de consentement des patients. Les modèles spécialisés entraînés sur des jeux de données concentrés et sensibles sont particulièrement vulnérables, précisément parce que leurs données sont moins diversifiées et donc plus faciles à extraire. Face à ces menaces, deux technologies de protection font consensus : la confidentialité différentielle (differential privacy) et le calcul multipartite sécurisé (secure multiparty computation). La première ajoute du bruit mathématique calibré aux gradients ou aux données, rendant statistiquement impossible de déterminer si un enregistrement individuel a participé à l'entraînement, tout en préservant l'utilité statistique du modèle. La seconde permet à plusieurs parties de calculer conjointement un résultat sans qu'aucune n'accède aux données brutes des autres. Ces techniques ne sont plus réservées aux laboratoires académiques : à mesure que les entreprises de santé, de finance et de pharmacie intensifient leur adoption de l'IA sur des données propriétaires, leur déploiement devient une condition incontournable d'un développement responsable et d'une conformité réglementaire durable.

UELe RGPD est directement en jeu : une attaque de reconstruction réussie contre un modèle hospitalier ou un consortium bancaire européen utilisant l'apprentissage fédéré exposerait l'organisation à des violations de conformité graves et à des sanctions.

SécuritéOpinion

1 source

2Le Big Data

IA prédictive : Traquer l’invisible dans les flux de données pour devancer les cybercriminels

Face à l'explosion des volumes de données transitant sur les réseaux mondiaux, la cybersécurité traditionnelle fondée sur des signatures statiques montre ses limites. Les systèmes d'intelligence artificielle prédictive représentent une rupture méthodologique : au lieu de comparer le trafic à une liste de menaces connues, ils commencent par modéliser rigoureusement le comportement normal de chaque utilisateur, machine et application sur un réseau. Une fois cette ligne de référence établie, les algorithmes analysent les paquets d'informations en quelques microsecondes, capables de détecter la moindre déviation sans intervention humaine. Dans des secteurs où les flux financiers sont continus et rapides, comme les transactions bancaires internationales, cette réactivité permet de bloquer une tentative de fraude ou de blanchiment avant même que les fonds ne quittent le système. L'enjeu est particulièrement critique face aux menaces persistantes avancées (APT), ces attaques silencieuses que les cybercriminels les plus expérimentés construisent délibérément sur des semaines ou des mois pour échapper aux règles figées des outils classiques. L'IA prédictive excelle précisément dans ce cas de figure : elle est capable de corréler des événements isolés et a priori anodins, par exemple une légère modification de privilège sur un serveur, suivie trois jours plus tard d'une connexion inhabituelle, puis d'une extraction de fichier en pleine nuit. Seule la mise en relation de ces signaux faibles révèle le schéma d'attaque. Le système peut alors déclencher automatiquement une réponse, comme l'isolation de la machine compromise, bien avant qu'un opérateur humain ait eu le temps d'intervenir. Pour que ces modèles prédictifs tiennent leurs promesses sur la durée, la qualité des données qui les alimentent est déterminante. Des journaux de connexion mal structurés, incomplets ou altérés génèrent des faux positifs qui saturent les équipes techniques et érodent la confiance dans le système. Cette exigence de rigueur dans la gouvernance des données dépasse désormais le cadre purement technique : elle s'inscrit dans des stratégies nationales, comme la Stratégie relative aux données 2023-2026 du Canada, qui met l'accent sur la valorisation, la gouvernance et la sécurisation des flux publics. Pour les organisations, l'enjeu n'est plus d'empiler des outils logiciels, mais de conduire un audit complet de leur infrastructure de données avant d'y greffer des couches d'intelligence artificielle, sous peine de construire des systèmes de défense sophistiqués sur des fondations fragiles.

SécuritéOpinion

1 source

3FrenchWeb

Cyera rachète Ryft pour accélérer sur la sécurisation des données à l’ère des agents IA

La société de cybersécurité Cyera a annoncé l'acquisition de la startup israélienne Ryft, spécialisée dans la gestion automatisée et sécurisée des données pour les systèmes d'intelligence artificielle. Le montant de la transaction n'a pas été officiellement dévoilé, mais des sources du secteur l'estiment entre 92 et 120 millions d'euros, une valorisation remarquable pour une entreprise fondée en 2024 qui n'avait levé que 6,8 millions d'euros depuis sa création. Ce rachat illustre la pression croissante que font peser les agents IA sur la gestion des données sensibles en entreprise. Les systèmes agentiques, qui accèdent et manipulent des données de façon autonome, créent des surfaces d'attaque inédites que les outils de sécurité traditionnels ne sont pas conçus pour surveiller. En intégrant la technologie de Ryft, Cyera entend offrir une visibilité en temps réel sur les flux de données traversant ces agents, répondant à une demande urgente des équipes sécurité dans les grandes organisations. Cyera s'était déjà positionnée comme un acteur majeur de la sécurisation des données cloud, ayant levé plusieurs centaines de millions de dollars ces dernières années. L'acquisition de Ryft s'inscrit dans une vague plus large de consolidation autour de la sécurité de l'IA : à mesure que les entreprises déploient des agents autonomes en production, la question du contrôle des accès aux données et de la traçabilité des actions devient un enjeu stratégique. Les prochains mois diront si Cyera parvient à transformer cette intégration en avantage compétitif durable face à des acteurs comme Wiz ou Palo Alto Networks.

UELes entreprises européennes déployant des agents IA autonomes sont exposées aux mêmes risques sur leurs données sensibles, mais aucun acteur ou régulateur français ou européen n'est directement impliqué dans cette transaction.

SécuritéOpinion

1 source

4Le Big Data

Cybersécurité : IBM et OpenAI lancent une IA avancée pour protéger les entreprises

IBM et OpenAI ont annoncé le 22 juin 2026 un renforcement significatif de leur collaboration dans le domaine de la cybersécurité, avec le lancement d'un nouveau service d'analyse applicative intégré à la plateforme IBM Consulting Advantage. Concrètement, IBM rejoint le programme OpenAI Daybreak Cyber Partner et déploie un service managé qui s'appuie sur les modèles de cybersécurité d'OpenAI pour identifier et valider automatiquement les vulnérabilités logicielles dans les environnements des grandes entreprises. Le service est disponible immédiatement et fonctionne en accès lecture seule sur les référentiels de code, avec des permissions d'exécution limitées pour répondre aux exigences de gouvernance des organisations. Cette initiative s'inscrit dans le cadre du projet Lightwell, porté par un investissement combiné de 5 milliards de dollars d'IBM et de Red Hat, qui vise à construire un centre de sécurité d'entreprise de nouvelle génération. Ce qui distingue fondamentalement cette solution des outils classiques d'analyse de code, c'est sa capacité à hiérarchiser les vulnérabilités selon leur potentiel réel d'exploitation, et non pas simplement à les lister. Les outils traditionnels génèrent souvent un volume d'alertes trop important pour être traité efficacement par les équipes de sécurité. Ici, l'IA identifie les zones de code les plus susceptibles d'être exploitées par des cybercriminels, permettant aux équipes de concentrer leurs efforts sur les menaces véritablement critiques. Pour les entreprises, le modèle en service managé permet de démarrer par quelques applications stratégiques avant d'étendre progressivement la surveillance à l'ensemble du parc applicatif, avec un suivi continu à mesure que le code évolue. Ce partenariat s'inscrit dans une course technologique désormais bien engagée entre attaquants et défenseurs. Les cybercriminels utilisent déjà l'intelligence artificielle pour automatiser la recherche de failles, accélérer les tentatives d'intrusion et diversifier leurs vecteurs d'attaque, rendant les approches manuelles ou purement réactives insuffisantes. OpenAI, qui avait jusqu'ici une présence discrète dans la cybersécurité offensive-défensive, structure avec le programme Daybreak un écosystème de partenaires orientés vers les usages défensifs en milieu professionnel. Pour IBM, dont l'activité de conseil et de services de sécurité représente un pilier stratégique, l'intégration de modèles de frontier AI est un levier de différenciation face à des concurrents comme Microsoft Security ou Palo Alto Networks qui investissent massivement dans les mêmes directions. Les prochains mois devraient préciser la profondeur réelle du dispositif Lightwell et la capacité de ce service à s'imposer dans des secteurs très régulés comme la finance ou la santé.

UEDans le contexte de la directive NIS2, ce type de service d'analyse applicative automatisée par IA répond à un besoin réel des organisations européennes soumises à des exigences renforcées de détection et gestion des vulnérabilités.

💬 La vraie valeur de ce service n'est pas de détecter plus de failles, c'est de te dire lesquelles méritent vraiment ton attention. Le problème des outils classiques, c'est pas le manque d'alertes, c'est la noyade dedans. Reste à voir si les modèles d'OpenAI tiennent face aux vrais environnements enterprise, avec leurs dix ans de dette technique et leurs règles de gouvernance à rallonge.

SécuritéOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic