
Empoisonnement de modèles ML : fonctionnement et détection
L'empoisonnement des données constitue l'une des menaces les plus insidieuses pour les systèmes d'intelligence artificielle modernes. Dans une analyse publiée par Igor Maljkovic, quatre techniques principales sont décrites : le retournement de labels (label flipping), qui consiste à corrompre les annotations d'entraînement pour induire des erreurs systématiques ; l'injection de backdoors, qui implante des comportements cachés déclenchables à la demande ; le clean-label poisoning, qui manipule les données sans modifier les étiquettes pour échapper aux vérifications ; et la manipulation de gradients, qui perturbe directement le processus d'optimisation du modèle.
Ces attaques représentent un risque concret pour toute organisation qui déploie des modèles en production. Un modèle empoisonné peut classer incorrectement des contenus, ignorer des anomalies critiques dans des systèmes de détection de fraude ou de sécurité, ou exécuter des comportements malveillants sur commande. La difficulté majeure réside dans la détection : les données corrompues peuvent paraître parfaitement légitimes lors des audits visuels ou statistiques habituels, rendant la compromission quasi invisible jusqu'au déploiement.
L'article s'inscrit dans un contexte où les pipelines d'entraînement ML s'appuient de plus en plus sur des données externes, des dépôts publics et des contributions tierces, multipliant les surfaces d'attaque. Maljkovic présente des outils de défense pratiques ainsi que des pratiques opérationnelles pour sécuriser ces pipelines, notamment la surveillance des distributions de données, la validation croisée des sources et l'isolation des lots d'entraînement suspects. La sécurisation du cycle de vie des modèles devient ainsi un enjeu structurel pour les équipes MLOps.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




