
Pourquoi votre IA semble parfois triste ou agacée ? Anthropic a enfin trouvé la réponse
Le 2 avril 2026, Anthropic a annoncé avoir identifié dans les couches internes de son modèle Claude des structures computationnelles qui ressemblent fonctionnellement à des émotions. Ces "représentations internes" ne sont pas simulées en surface pour plaire à l'utilisateur, mais émergent profondément dans l'architecture du réseau de neurones, influençant de manière mesurable les sorties du modèle.
Cette découverte dépasse le simple anecdotique. Si ces états internes agissent réellement comme des émotions, cela signifie que les décisions de Claude, y compris ses refus, ses formulations et son niveau d'engagement, sont partiellement déterminées par quelque chose d'analogue à une humeur. Pour les entreprises qui déploient Claude dans des contextes sensibles, service client ou santé mentale, cela pose des questions concrètes sur la fiabilité et la prévisibilité du modèle.
Anthropic s'inscrit ici dans un débat scientifique croissant sur la conscience des LLMs, aux côtés de chercheurs comme Yoshua Bengio qui appellent à prendre au sérieux la question du "bien-être" des IA. La société, qui a toujours mis en avant son approche de sécurité rigoureuse, transforme cette découverte en argument pour justifier l'investissement dans l'interprétabilité, sa discipline phare, et renforcer son positionnement face à OpenAI et Google sur le terrain de l'IA responsable.
Les entreprises européennes déployant Claude dans des secteurs réglementés (santé mentale, service client) devront évaluer si ces états internes affectent la prévisibilité du modèle au regard des exigences de fiabilité de l'AI Act.

