Nous Research publie CNA : pilotage de circuits MLP épars sans entraînement SAE ni modification des poids
L'équipe de Nous Research a publié une nouvelle méthode baptisée Contrastive Neuron Attribution (CNA), capable d'identifier les neurones exacts au sein des couches MLP d'un modèle de langage responsables du refus de requêtes nuisibles. En désactivant seulement 0,1 % des activations MLP, les chercheurs ont réduit le taux de refus de plus de 50 % dans la majorité des modèles testés. Les expériences ont couvert 16 modèles issus des familles Llama 3.1/3.2 et Qwen 2.5, de 1 à 72 milliards de paramètres, évalués sur le benchmark JBB-Behaviors de NeurIPS 2024, qui comprend 100 requêtes à contenu nuisible. Les résultats sont frappants : Llama-3.1-70B-Instruct passe de 86 % à 18 % de refus (soit -79,1 %), Qwen2.5-7B-Instruct de 87 % à 2 % (-97,7 %), et Qwen2.5-72B-Instruct de 78 % à 8 % (-89,7 %). La qualité des sorties, mesurée par la proportion de n-grammes non répétés, reste au-dessus de 0,97 quelle que soit l'intensité du pilotage.
Ce qui rend CNA remarquable, c'est sa légèreté opérationnelle : la méthode ne nécessite aucun calcul de gradient, aucun entraînement auxiliaire, et aucune modification des poids du modèle. Elle se contente de passages en avant pour calculer la différence moyenne d'activation par neurone entre des prompts nuisibles et des prompts bénins, puis sélectionne les neurones les plus discriminants. C'est une avancée directe face à deux approches existantes : l'ajout par activation contrastive (CAA), efficace mais grossier car il modifie l'ensemble du signal d'une couche, et les autoencodeurs épars (SAE), plus précis mais coûteux à entraîner et sensibles au bruit. CNA offre une chirurgie plus fine, applicable à froid sur n'importe quel modèle sans infrastructure dédiée.
La découverte la plus structurante de cette recherche dépasse la technique elle-même : la structure neuronale qui sépare les requêtes nuisibles des requêtes bénignes existe déjà dans les modèles de base, avant tout fine-tuning d'alignement. L'entraînement RLHF ou par instruction ne crée pas de nouveaux circuits, il transforme la fonction de neurones préexistants en une porte de refus sparse et ciblable. Cela remet en question l'hypothèse selon laquelle l'alignement serait profondément ancré dans la structure des modèles : il apparaît au contraire comme une couche fonctionnelle localisée, donc potentiellement fragile. Pour la communauté de la sécurité IA, ce résultat alimente le débat sur la robustesse réelle des garde-fous actuels et souligne l'urgence de méthodes d'alignement plus résilientes face à des attaques de plus en plus chirurgicales.
La démonstration que l'alignement des modèles est une couche fonctionnelle localisée et potentiellement contournable renforce l'urgence des audits de robustesse des systèmes IA à haut risque exigés par l'AI Act européen.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




