Aller au contenu principal
Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM
RechercheMIT Technology Review2sem

Un nouvel outil d'interprétabilité mécaniste pour déboguer les LLM

Résumé IASource uniqueImpact UE
Source originale ↗·

Goodfire, une startup de San Francisco spécialisée dans l'interprétabilité des modèles d'IA, a lancé Silico, un outil inédit permettant aux chercheurs et aux ingénieurs d'inspecter et d'ajuster les paramètres internes d'un modèle de langage directement pendant son entraînement. Présenté comme le premier outil prêt à l'emploi de ce type, Silico couvre toutes les étapes du développement, de la constitution des jeux de données à l'entraînement final. Concrètement, il permet de zoomer sur des neurones individuels ou des groupes de neurones dans un modèle open source, d'observer ce qui les active, et de tracer les chemins en amont et en aval pour comprendre comment ils interagissent entre eux. À titre d'exemple, Goodfire a identifié dans Qwen 3, un modèle open source, un neurone associé au dilemme du tramway : son activation suffisait à modifier les réponses du modèle, qui cadrait alors ses sorties comme des dilemmes moraux explicites. L'outil s'appuie sur des agents IA pour automatiser une grande partie de ce travail d'analyse, jusqu'ici effectué manuellement par des équipes de chercheurs.

L'enjeu est de taille : personne ne sait aujourd'hui précisément comment ou pourquoi des modèles comme ChatGPT ou Gemini fonctionnent, ce qui complique la correction de leurs défauts et le blocage de comportements non désirés. Goodfire a déjà utilisé ses techniques en interne pour réduire le nombre d'hallucinations dans des LLMs, et Silico est la mise en produit de ces méthodes. L'ambition déclarée d'Eric Ho, PDG de Goodfire, est de transformer l'entraînement des modèles, souvent comparé à de l'alchimie, en une discipline d'ingénierie de précision, avec des "boutons et curseurs" accessibles en temps réel. Si l'approche se diffuse, elle pourrait donner aux développeurs un contrôle beaucoup plus fin sur le comportement de leurs systèmes et accélérer la mise au point de modèles plus fiables et prévisibles.

Goodfire s'inscrit dans un courant plus large appelé interprétabilité mécaniste, une technique qui cartographie les neurones d'un réseau et leurs connexions pour comprendre ce qui se passe à l'intérieur lors d'une tâche donnée. Le MIT Technology Review l'a classée parmi ses 10 technologies percées de 2026. Anthropic, OpenAI et Google DeepMind travaillent aussi sur ces questions, mais Goodfire se distingue en voulant appliquer cette compréhension non seulement pour auditer des modèles déjà entraînés, mais pour orienter leur conception dès le départ. Des voix critiques tempèrent néanmoins l'enthousiasme : Leonard Bereska, chercheur à l'Université d'Amsterdam, estime que l'entreprise "ajoute de la précision à l'alchimie" sans pour autant atteindre la rigueur d'une véritable ingénierie. Silico reste pour l'instant limité aux modèles open source et inutilisable sur des systèmes propriétaires comme GPT ou Gemini, mais si l'outil tient ses promesses, il pourrait changer en profondeur la façon dont l'industrie conçoit et évalue ses modèles.

Impact France/UE

Un chercheur de l'Université d'Amsterdam est cité pour tempérer les promesses de l'outil ; si Silico tient ses promesses, les équipes européennes travaillant sur des modèles open source pourraient bénéficier d'un meilleur contrôle sur le comportement de leurs systèmes dès l'entraînement.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM
1arXiv cs.RO 

Des actions à la compréhension : interprétabilité conformale des concepts temporels dans les agents LLM

Des chercheurs ont publié un article (arXiv:2604.19775) présentant un nouveau cadre d'interprétabilité pour les agents basés sur des grands modèles de langage (LLM). Baptisé "conformal interpretability framework for temporal tasks", ce système combine la modélisation des récompenses étape par étape avec la prédiction conforme, une méthode statistique rigoureuse, pour étiqueter les représentations internes du modèle à chaque instant : succès, échec ou dérive du raisonnement. Des sondes linéaires sont ensuite entraînées sur ces représentations afin d'identifier des directions latentes dans l'espace d'activation du modèle, des vecteurs qui correspondent à des notions cohérentes de réussite ou d'échec. Les expériences ont été menées sur deux environnements interactifs simulés, ScienceWorld et AlfWorld, et confirment que ces concepts temporels sont linéairement séparables. Cette capacité à "lire" ce qui se passe à l'intérieur d'un agent LLM en cours d'action représente une avancée concrète pour la fiabilité des systèmes autonomes. Jusqu'ici, les agents capables de planification multi-étapes restaient des boîtes noires : impossible de savoir, avant la fin d'une tâche, si le modèle était en train de dériver ou de raisonner correctement. Ce cadre ouvre la voie à une détection précoce des défaillances, mais aussi à des interventions actives : les auteurs montrent des résultats préliminaires indiquant qu'il est possible de "piloter" l'agent vers les directions de succès identifiées, améliorant ainsi ses performances en cours d'exécution. L'interprétabilité des LLM est devenue l'un des chantiers les plus actifs de la recherche en IA, notamment sous la pression des exigences de transparence portées par des régulateurs comme la Commission européenne. Ce travail s'inscrit dans un mouvement plus large qui cherche à dépasser la simple observation des sorties pour comprendre les mécanismes internes, en particulier dans des tâches séquentielles où l'erreur peut se propager et s'amplifier. Les outils développés ici pourraient à terme être intégrés dans des systèmes de supervision d'agents déployés dans des contextes critiques, que ce soit en robotique, en assistance médicale ou en automatisation industrielle.

UECe cadre d'interprétabilité pourrait faciliter la conformité à l'AI Act européen, qui impose des exigences de transparence et d'explicabilité pour les systèmes d'IA à haut risque déployés dans l'UE.

RecherchePaper
1 source
Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM
2MarkTechPost 

Qwen AI publie Qwen-Scope : une suite open source d'autoencodeurs épars pour exploiter les représentations internes des LLM

L'équipe Qwen, filiale IA d'Alibaba, vient de publier Qwen-Scope, une suite open-source d'autoencodeurs épars (SAE) entraînés sur les familles de modèles Qwen3 et Qwen3.5. La publication comprend 14 groupes de poids SAE répartis sur sept variantes de modèles : cinq modèles denses (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B et Qwen3.5-27B) et deux modèles mixture-of-experts (Qwen3-30B-A3B et Qwen3.5-35B-A3B). Concrètement, un autoencodeur épars fonctionne comme une couche de traduction entre les activations brutes du réseau de neurones et des concepts compréhensibles par l'humain : pour chaque couche transformeur, Qwen-Scope entraîne un SAE séparé qui décompose les états internes en un large dictionnaire de caractéristiques latentes, chaque entrée n'en activant qu'un petit sous-ensemble. Chaque caractéristique tend à correspondre à un concept précis, qu'il s'agisse d'une langue, d'un style ou d'un comportement lié à la sécurité. La largeur de ces dictionnaires atteint jusqu'à 128 000 dimensions pour les modèles MoE, soit une expansion de 64 fois la taille cachée du modèle. Cet outil répond à l'un des problèmes les plus frustrants du développement de LLMs : leur opacité totale. Quand un modèle génère des réponses dans la mauvaise langue, se répète à l'infini ou refuse des requêtes inoffensives, les développeurs disposent de très peu de moyens pour en comprendre la cause à l'échelle des calculs internes. Qwen-Scope ouvre deux leviers concrets. Le premier est le pilotage à l'inférence : en ajoutant ou soustrayant une direction de caractéristique dans le flux résiduel selon la formule h' = h + αd, il devient possible d'orienter le comportement du modèle sans modifier aucun poids. L'équipe illustre cela sur Qwen3 : un modèle qui mêlait involontairement du chinois dans ses réponses en anglais a été corrigé en supprimant la caractéristique "langue chinoise" (id : 6159), identifiée en quelques secondes par son niveau d'activation élevé. Le second levier est l'analyse d'évaluation sans forward pass coûteux : les activations SAE servent de proxy pour cartographier quelles capacités sont réellement testées par un benchmark, et détecter si deux jeux d'évaluation sont redondants. Cette publication s'inscrit dans le courant de l'interprétabilité mécaniste, un champ de recherche en pleine expansion qui vise à rendre les LLMs auditables de l'intérieur. Des acteurs comme Anthropic et DeepMind ont déjà investi dans des SAEs pour leurs propres modèles, mais la mise à disposition open-source de tels outils sur une famille de modèles aussi large reste rare. Pour les équipes qui utilisent Qwen en production, Qwen-Scope représente une infrastructure de diagnostic inédite : détecter des biais encodés dans les représentations internes, affiner des comportements sans fine-tuning coûteux, ou auditer la couverture réelle de leurs protocoles d'évaluation. La prochaine étape logique serait l'extension de ces outils aux modèles de raisonnement et aux architectures multimodales, deux domaines où l'opacité interne reste particulièrement problématique.

UELes entreprises européennes déployant des modèles Qwen en production peuvent exploiter Qwen-Scope pour auditer les biais encodés dans les représentations internes et faciliter la conformité aux exigences d'explicabilité de l'AI Act.

RecherchePaper
1 source
Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal
3Pandaily 

Alibaba DAMO Academy présente un modèle d'IA pour le dépistage non invasif du cancer colorectal

Le 28 avril, l'Alibaba DAMO Academy a dévoilé DAMO COCA, un modèle d'intelligence artificielle pour le dépistage du cancer colorectal, développé en collaboration avec l'Hôpital général provincial du Guangdong et d'autres institutions médicales chinoises. Ce système analyse des scanners CT sans contraste, supprimant ainsi la nécessité d'une injection de produit de contraste ou d'une préparation intestinale préalable, deux contraintes lourdes imposées par les méthodes de dépistage classiques. Publié dans la revue Annals of Oncology, le modèle affiche une sensibilité de 86,6 % et une spécificité de 99,8 %, deux indicateurs qui mesurent sa capacité à détecter les cas réels tout en limitant les faux positifs. L'étude a analysé plus de 27 000 scanners CT et a permis d'identifier des cas de cancers non détectés dans des données cliniques réelles. Cette performance est particulièrement significative car le cancer colorectal figure parmi les cancers les plus répandus au monde, avec un taux de dépistage insuffisant lié aux contraintes des méthodes existantes, notamment la coloscopie invasive. En supprimant ces obstacles, DAMO COCA pourrait élargir considérablement l'accès au dépistage, notamment dans les régions où les ressources médicales sont limitées. La capacité du modèle à détecter des lésions dans des zones anatomiquement complexes, là où les radiologues manquent le plus fréquemment des anomalies, représente une avancée clinique concrète susceptible de réduire les diagnostics tardifs. DAMO COCA s'inscrit dans une initiative plus large de l'Alibaba DAMO Academy baptisée "CT + AI", visant à développer des outils de dépistage multi-cancer à partir de scanners CT standard. L'académie avait déjà publié des modèles comparables pour le cancer du pancréas et le cancer gastrique. Le système repose sur un cadre d'apprentissage profond en deux étapes, conçu pour mieux interpréter la complexité des structures intestinales. Cette stratégie rejoint un mouvement mondial dans lequel les grandes entreprises technologiques investissent massivement dans l'imagerie médicale assistée par IA, avec l'ambition de transformer le scanner CT en outil de détection systématique de multiples cancers à partir d'un seul examen.

RecherchePaper
1 source
Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal
4SCMP Tech 

Alibaba renforce son IA médicale avec un nouvel outil de détection précoce du cancer colorectal

Alibaba Group a dévoilé mardi un nouveau modèle d'intelligence artificielle baptisé Coca, développé par son laboratoire de recherche Damo Academy, capable de détecter les cancers colorectaux à un stade précoce à partir de scanners CT sans contraste. Testé sur plus de 27 000 examens, le modèle a permis d'identifier cinq cas de cancer colorectal qui avaient été manqués par des radiologistes humains, affichant ainsi une sensibilité supérieure à celle des spécialistes pour cette tâche précise. Cette avancée représente un enjeu médical considérable : le cancer colorectal est l'un des cancers les plus meurtriers au monde, et son pronostic s'améliore drastiquement lorsqu'il est détecté tôt. Un outil capable de réduire les faux négatifs dans l'analyse de scanners de routine pourrait alléger la charge cognitive des radiologistes, accélérer les diagnostics et potentiellement sauver des vies, notamment dans les systèmes de santé où le volume d'examens dépasse la capacité humaine disponible. Alibaba s'inscrit avec Coca dans une stratégie plus large de déploiement de l'IA médicale, un secteur où les géants technologiques chinois investissent massivement pour rivaliser avec des acteurs comme Google Health ou Microsoft. La Chine fait face à une pression démographique et sanitaire croissante, avec des taux de cancer colorectal en hausse, ce qui rend ces outils particulièrement stratégiques. Coca s'appuie sur les scanners CT non contrastés, des examens courants et moins coûteux que leurs homologues avec produit de contraste, ce qui élargit son potentiel de déploiement à grande échelle dans des contextes hospitaliers variés.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour