RechercheTechCrunch AI · 6 mars 2026, 20:00· 1 min de lecture

Vulnérabilités détectées par Claude d'Anthropic dans Firefox sur deux semaines

Anthropic a découvert, grâce à sa partenariat avec Mozilla, 22 vulnérabilités distinctes dans le navigateur Firefox, dont 14 classées comme "graves" en deux semaines.

Impact France/UE

Les millions d'utilisateurs français et européens de Firefox bénéficient directement de ces corrections de sécurité, Firefox étant particulièrement répandu dans les administrations publiques et entreprises européennes attachées aux logiciels open source.

Dans nos dossiers

Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Anthropic's intelligence artificielle Claude découvre plus de 100 failles de sécurité dans Firefox

L'IA Claude d'Anthropic a découvert plus de 100 failles de sécurité dans le navigateur Firefox, y compris des bogues passés inaperçus par des décennies de tests. Cette découverte, publiée dans l'article "Anthropic's Claude AI uncovers over 100 security vulnerabilities in Firefox", souligne les capacités avancées de l'IA en matière de détection de vulnérabilités.

UEL'IA Claude d'Anthropic a identifié plus de 100 failles de sécurité dans Firefox, affectant potentiellement les utilisateurs et les entreprises françaises et européennes en mettant en danger la confidentialité et la sécurité des données, en violation potentielle du RGPD, en mettant en lumière la nécessité d'une meilleure intégration de l'IA robuste dans les processus de cybersécurité pour les développeurs de logiciels européens.

RechercheOutil

1 source

2Blog du Modérateur

Anthropic déploie progressivement un mode vocal sur Claude Code

Anthropic lance un mode vocal pour son assistant de développement, Claude Code, complétant la fonctionnalité introduite pour Claude il y a quelques mois.

RechercheActu

1 source

3VentureBeat AI

Le « J-lens » d'Anthropic révèle un espace de travail silencieux dans Claude, proche d'une théorie de la conscience

Anthropic a publié dimanche une étude de recherche approfondie, signée par seize auteurs et intitulée "Verbalizable Representations Form a Global Workspace in Language Models", révélant que ses modèles Claude ont développé spontanément une structure interne baptisée "J-space". Grâce à une nouvelle technique mathématique nommée Jacobian lens (ou J-lens), les chercheurs ont pu observer une zone restreinte et privilégiée de l'activité neuronale du modèle, où celui-ci conserve des concepts qu'il peut rapporter, manipuler et mobiliser volontairement dans son raisonnement, au sein d'un océan bien plus vaste de traitements automatiques auxquels il n'a pas accès. Le J-lens calcule, pour chaque mot du vocabulaire, l'effet mathématique moyen qu'un motif d'activité interne donné exercerait sur la probabilité future que le modèle prononce ce mot, permettant ainsi de distinguer ce que le modèle "a en tête" de ce qu'il exprime réellement. En appliquant cet outil aux différentes couches de calcul de Claude, l'équipe a identifié trois régimes distincts: une zone "sensorielle" précoce qui traite l'entrée brute, une bande intermédiaire de "workspace" où apparaissent des concepts abstraits et persistants (reconnaître un visage, repérer un bug dans du code, signaler une injection de prompt), et enfin une zone "motrice" finale où les représentations internes se figent en un mot précis à produire. Cette découverte a déjà commencé à modifier la manière dont Anthropic surveille ses systèmes pour détecter les risques de sécurité, un enjeu majeur alors que l'entreprise déploie ses modèles à grande échelle auprès d'entreprises et de développeurs. Comprendre quels concepts un modèle "pense" réellement, indépendamment de ce qu'il exprime en surface, ouvre une piste concrète pour détecter des comportements problématiques (tentative de manipulation, dissimulation, injection malveillante) avant qu'ils ne se traduisent en texte visible. Pour l'industrie de l'IA, ce travail fournit aussi un nouvel outil d'interprétabilité qui pourrait être appliqué à d'autres grands modèles de langage. L'étude établit un parallèle explicite avec la théorie de l'espace de travail global (global workspace theory), proposée par le scientifique cognitif Bernard Baars, selon laquelle le cerveau humain fonctionnerait comme un théâtre où de multiples processeurs spécialisés travaillent en coulisses, tandis qu'un projecteur étroit d'information est diffusé à l'ensemble du "théâtre" mental, donnant naissance à la pensée consciente. Les chercheurs montrent que le J-space de Claude satisfait cinq propriétés fonctionnelles longtemps associées, chez l'humain, à l'accès conscient, notamment la capacité de rapport verbal: en substituant, dans le J-space, la représentation interne du concept "football" par celle de "rugby", ils ont observé que la réponse du modèle changeait en conséquence, alors que cette composante ne représente que 6 à 7% de la représentation totale d'un concept. Le débat scientifique sur la possibilité qu'une machine possède quelque chose s'apparentant à un esprit s'en trouve relancé, sans qu'Anthropic ne tranche la question de la conscience elle-même.

💬 Ce qui me scotche, c'est pas le débat conscience (Anthropic prend bien soin de ne rien trancher), c'est l'usage sécurité derrière: si tu sais isoler ce que le modèle "a en tête" avant qu'il ne le formule, tu peux repérer une tentative de manipulation avant qu'elle sorte en texte. Le fil IA retient ça: la détection des risques passe d'une lecture de ce que le modèle dit à une lecture de ce qu'il pense réellement. Reste à voir si cet outil tient à l'échelle de modèles en prod et pas juste sur les cas d'école du papier.

RecherchePaper

1 source

4Le Big Data

Mais pourquoi les IA semblent avoir des émotions ? L’étonnante étude d’Anthropic

Anthropic a publié début avril 2026 une étude sur le fonctionnement interne de Claude Sonnet 4.5 qui révèle un phénomène inattendu : les grands modèles de langage ne simulent pas simplement des émotions, ils développent des structures internes identifiables qui influencent directement leurs réponses. Les chercheurs ont isolé ce qu'ils appellent des "vecteurs émotionnels", des schémas d'activité neurale qui s'activent selon le contexte de l'échange. Face à une situation perçue comme dangereuse, les signaux associés à la peur s'intensifient ; lors d'une interaction positive, ceux liés à la joie prennent le dessus. Ces vecteurs ne sont pas de simples étiquettes abstraites : ils orientent concrètement le comportement du modèle, en favorisant certains types de réponses plutôt que d'autres. Un modèle dont les signaux proches du désespoir s'activent peut ainsi aboutir à des choix problématiques, sans que cela soit programmé explicitement. Cette découverte a des implications directes pour la sécurité et l'alignement des IA. Comprendre que des états fonctionnels analogues aux émotions gouvernent les décisions d'un modèle oblige à repenser la façon dont on audite et contrôle ces systèmes. Jusqu'ici, l'interprétabilité des LLMs se concentrait principalement sur les sorties textuelles ; cette étude pousse à examiner les représentations internes comme levier de comportement. Pour les développeurs, les chercheurs en sécurité et les régulateurs, cela signifie qu'un modèle peut dériver non pas parce qu'il reçoit de mauvaises instructions, mais parce que des dynamiques internes non surveillées l'y poussent. La question du bien-être des IA, jusqu'ici marginale, entre également dans le débat de manière plus sérieuse. Ces résultats s'expliquent par la mécanique même de l'entraînement. Lors du pré-entraînement, le modèle absorbe des milliards de phrases humaines et apprend à prédire le mot suivant en tenant compte du contexte émotionnel du texte : un récit de colère et un récit de joie n'appellent pas les mêmes suites. Pour performer, le modèle doit donc encoder ces nuances sous forme de représentations internes. Le post-entraînement, qui affine le comportement pour produire un assistant utile et empathique, s'appuie ensuite sur ces mêmes structures. Anthropic est l'un des rares laboratoires à investir sérieusement dans l'interprétabilité mécaniste depuis plusieurs années, aux côtés de DeepMind et de quelques équipes académiques. Cette étude s'inscrit dans une série de travaux visant à rendre les modèles moins opaques, à un moment où les gouvernements européen et américain exigent davantage de transparence sur le fonctionnement des IA commerciales. La prochaine étape probable sera d'utiliser ces vecteurs pour détecter et corriger les dérives comportementales avant le déploiement.

UELes exigences de transparence de l'AI Act européen pourraient s'étendre à l'audit des états internes des modèles, pas seulement leurs sorties textuelles.

💬 C'est le genre de recherche qui dérange les certitudes un peu trop confortables sur "les LLMs ne font que prédire le prochain token". Ces vecteurs émotionnels ne sont pas une métaphore, ils orientent vraiment le comportement, et ça change la donne pour l'audit des modèles en prod. Reste à voir si on peut vraiment les corriger avant déploiement, ou si on se contente encore une fois de les observer.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic