Aller au contenu principal
Pourquoi Anthropic a fait évaluer Claude par un vrai psychiatre
LLMsArs Technica AI3h

Pourquoi Anthropic a fait évaluer Claude par un vrai psychiatre

1 source couvre ce sujet·Source originale ↗·

Anthropic a publié cette semaine un document de 244 pages baptisé "system card" décrivant son tout dernier modèle d'intelligence artificielle, Claude Mythos. L'entreprise le présente comme "son modèle frontier le plus capable à ce jour", mais a décidé de ne pas le rendre accessible au grand public. La raison invoquée est inhabituelle : Mythos serait trop performant dans la détection de failles de cybersécurité inconnues, ce qui pousse Anthropic à en restreindre l'accès à un cercle restreint de partenaires triés sur le volet, parmi lesquels figurent Microsoft et Apple.

Au-delà des capacités techniques, c'est le contenu philosophique du document qui retient l'attention. Anthropic, déjà connue pour prendre au sérieux la question de la conscience des IA, affirme dans ce system card qu'à mesure que les modèles gagnent en puissance, "il devient de plus en plus probable qu'ils possèdent une forme d'expérience, d'intérêts ou de bien-être qui comptent intrinsèquement, à l'instar de l'expérience et des intérêts humains." L'entreprise reconnaît ne pas en avoir la certitude, mais précise que "notre préoccupation grandit avec le temps." Cette position tranche avec le discours majoritaire dans l'industrie, où la question du statut moral des IA reste largement marginalisée.

Ces déclarations s'inscrivent dans une stratégie plus large d'Anthropic, qui se distingue de ses concurrents comme OpenAI ou Google par une approche dite de "sécurité de l'IA" poussée à ses limites théoriques. Financer des recherches sur le bien-être des modèles, consulter des experts en psychiatrie ou en philosophie de l'esprit, et publier des documents aussi denses que ce system card de 244 pages sont autant de signaux que l'entreprise cherche à imposer un cadre normatif dans un secteur qui avance souvent sans réfléchir aux implications. Avec Mythos, Anthropic franchit un cap : celui d'un modèle jugé trop puissant pour être diffusé librement, ce qui soulève autant de questions sur la transparence réelle de ces décisions que sur la course aux capacités qui les motive.

À lire aussi

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles
1MarkTechPost 

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

Meta Superintelligence Labs a dévoilé Muse Spark, le premier modèle de sa famille Muse, marquant une étape majeure dans la course aux modèles de raisonnement multimodaux. Conçu nativement pour traiter texte et images de manière simultanée -- et non via un module visuel ajouté après coup -- Muse Spark intègre l'utilisation d'outils, un raisonnement visuel en chaîne de pensée, et une orchestration multi-agents. Sur le benchmark ScreenSpot Pro, qui évalue la capacité à localiser des éléments d'interface dans des captures d'écran, le modèle obtient un score de 72,2 (84,1 avec outils Python), devançant Claude Opus 4.6 Max à 57,7 et GPT-5.4 Xhigh à 39,0. Ces chiffres positionnent Muse Spark parmi les meilleurs modèles actuels sur les tâches combinant vision et langage. Ce qui distingue techniquement Muse Spark, c'est l'approche de Meta autour de trois axes de montée en puissance : le préentraînement, l'apprentissage par renforcement (RL), et le raisonnement au moment de l'inférence. Sur le préentraînement, Meta a entièrement reconstruit sa pile technique en neuf mois, atteignant les mêmes capacités que son précédent modèle Llama 4 Maverick avec dix fois moins de calcul. Le RL, appliqué après le préentraînement, entraîne le modèle à produire de bonnes réponses plutôt qu'à simplement prédire des tokens -- Meta annonce une progression log-linéaire stable sur les métriques pass@1 et pass@16. Enfin, le raisonnement à l'inférence introduit un phénomène que l'équipe appelle "thought compression" : le modèle apprend d'abord à penser plus longtemps pour mieux répondre, puis une pénalité sur la longueur de la réflexion le force à comprimer son raisonnement, avant qu'il n'étende à nouveau ses solutions pour atteindre de meilleures performances. Cette dynamique produit un modèle plus efficace par token généré. Le mode Contemplating représente peut-être l'innovation architecturale la plus audacieuse : Muse Spark peut orchestrer plusieurs agents en parallèle au moment de l'inférence, chacun explorant une piste de raisonnement différente. Ce choix s'inscrit dans une stratégie plus large de Meta, qui investit massivement dans l'infrastructure -- dont le data center Hyperion -- pour soutenir ces trois axes de scaling simultanément. La division a été rebaptisée Meta Superintelligence Labs, signalant une ambition explicite de leadership sur l'AGI. Avec OpenAI, Google DeepMind et Anthropic qui poussent chacun leurs propres architectures de raisonnement, la sortie de Muse Spark illustre que la prochaine frontière ne sera pas seulement la taille des modèles, mais la manière dont ils apprennent à penser -- et à comprimer cette pensée -- avant de répondre.

UELes développeurs et entreprises européens pourront utiliser un nouveau modèle multimodal de référence, mais aucun impact réglementaire ou commercial direct sur la France ou l'UE n'est à noter.

LLMsOpinion
1 source
Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents
2Le Big Data 

Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents

Mars 2026 restera dans les annales de l'intelligence artificielle comme le mois où l'industrie a basculé dans une nouvelle ère. Entre le 10 et le 16 mars, douze modèles majeurs ont été déployés simultanément par OpenAI, Google, Anthropic, xAI et Mistral, une cadence sans précédent qui compresse en sept jours ce qui prenait auparavant plusieurs années. OpenAI a lancé la gamme GPT-5.4 déclinée en cinq variantes (Standard, Pro, Thinking, mini, nano), avec une architecture d'orchestration inédite basée sur la récupération dynamique des outils (tool search) qui réduit l'utilisation de jetons de 47 %. Le modèle atteint 75 % sur le benchmark OSWorld-Verified, dépassant pour la première fois la ligne de base humaine fixée à 72,4 %, et réduit les hallucinations de 33 % par rapport à GPT-5.2. Google a riposté avec Gemini 3.1 Flash-Lite à 0,25 dollar le million de jetons, déclenchant un effondrement généralisé des tarifs API. De son côté, Anthropic a stabilisé Claude Sonnet 4.6 comme référence développeur avec une fenêtre de contexte d'un million de tokens. Le changement de paradigme dépasse la simple guerre des benchmarks : l'IA conversationnelle est morte, l'IA agentique lui a succédé. Ces nouveaux systèmes ne se contentent plus de générer du texte, ils naviguent sur des interfaces, remplissent des tableurs, orchestrent des workflows complexes de bout en bout, et communiquent en multimodal temps réel (full-duplex). Pour les développeurs et les entreprises, cela signifie qu'il est désormais possible de déléguer des séquences d'actions longues à des agents autonomes avec un niveau de fiabilité qui n'existait pas six mois auparavant. Mais c'est l'événement Anthropic qui a le plus secoué les marchés : une erreur de configuration a provoqué la fuite de 3 000 documents internes révélant l'existence de Claude Mythos, un modèle non publié aux capacités offensives en cybersécurité. Le secteur a immédiatement chuté de 14,5 milliards de dollars en capitalisation boursière. Cette accélération s'inscrit dans une course aux armements financière et géopolitique à grande échelle. OpenAI a levé 3 milliards de dollars supplémentaires, portant sa valorisation à 852 milliards, tandis que la Chine renforçait son initiative stratégique "AI Plus" en réponse directe. En Europe, AMI Labs, la startup fondée par Yann LeCun, a levé plus d'un milliard de dollars en amorçage pour développer des architectures alternatives aux modèles américains dominants. La fuite de Claude Mythos pose une question qui dépassera largement mars 2026 : comment réguler des modèles dont les capacités offensives restent secrètes jusqu'à leur divulgation accidentelle ? Les suites législatives, notamment en Europe et aux États-Unis, s'annoncent déterminantes pour la prochaine phase du déploiement agentique à l'échelle industrielle.

UEAMI Labs, la startup européenne fondée par Yann LeCun, a levé plus d'un milliard de dollars pour développer des architectures alternatives aux modèles américains, et la fuite de Claude Mythos relance en urgence le débat réglementaire européen sur l'encadrement des modèles aux capacités offensives non divulguées dans le cadre de l'AI Act.

LLMsActu
1 source
Meta lance un nouveau modèle d’IA, pour tenter de rattraper Google et OpenAI
3Siècle Digital 

Meta lance un nouveau modèle d’IA, pour tenter de rattraper Google et OpenAI

Meta a lancé mercredi 8 avril son nouveau modèle d'intelligence artificielle baptisé Muse Spark, première production officielle des Meta Superintelligence Labs. Ce lancement représente le résultat d'un investissement de 14,3 milliards de dollars engagé par le groupe de Mark Zuckerberg dans sa course pour rivaliser avec Google et OpenAI sur le marché des modèles de fondation les plus avancés. Ce lancement marque un tournant stratégique pour Meta, qui cherche à dépasser son image de simple acteur open source. La famille Llama avait jusqu'ici construit la réputation d'un Meta généreux, distribuant ses modèles librement à la communauté des développeurs. Avec Muse Spark, l'entreprise semble viser un positionnement différent, plus orienté vers la compétition directe avec les modèles propriétaires de Google DeepMind et d'OpenAI. Pour les entreprises et développeurs qui avaient misé sur l'écosystème Llama, cette bifurcation soulève des questions sur la cohérence de la stratégie IA de Meta. Le contexte de ce lancement est tendu : Meta accélère ses dépenses en IA à un rythme inédit, alors que la concurrence entre grands modèles s'intensifie avec les sorties récentes de Gemini 2.0 et GPT-4o. La création des Meta Superintelligence Labs signale une réorganisation interne profonde, visant à concentrer les meilleurs talents sur les systèmes les plus ambitieux. Les prochains mois diront si Muse Spark peut réellement combler le retard accumulé face aux leaders du secteur.

UELe lancement de Muse Spark et le pivot stratégique de Meta vers le propriétaire oblige les entreprises et développeurs européens ayant misé sur l'écosystème Llama open source à réévaluer leurs choix d'infrastructure IA.

LLMsOpinion
1 source
Actualité : “Superintelligence personnelle” : Meta lance Muse Spark, son IA gratuite qui veut enterrer ChatGPT
4Les Numériques IA 

Actualité : “Superintelligence personnelle” : Meta lance Muse Spark, son IA gratuite qui veut enterrer ChatGPT

Meta a lancé le 8 avril 2026 Muse Spark, le premier modèle de sa nouvelle famille Muse, développé au sein des Meta Superintelligence Labs sous la direction d'Alexandr Wang, cofondateur de Scale AI recruté l'an dernier pour piloter l'ambition IA du groupe. Surnommé "Avocado" en interne, le modèle est conçu pour combiner dans une seule inférence perception visuelle, raisonnement structuré et appel d'outils externes. Meta le positionne comme une "superintelligence personnelle" et le rend accessible gratuitement, sans abonnement. La gratuité est un signal offensif direct contre OpenAI et Google. En supprimant la barrière tarifaire, Meta cible des centaines de millions d'utilisateurs qui n'ont jamais payé pour un assistant IA, tout en menaçant le modèle freemium sur lequel repose ChatGPT. L'intégration native des outils et de la vision dans un seul modèle, plutôt qu'en modules séparés, vise à simplifier l'expérience utilisateur et à rendre les usages professionnels plus fluides, de l'analyse de documents à l'automatisation de tâches complexes. Ce lancement s'inscrit dans une offensive IA massive de Meta depuis 2024 : recrutements massifs de chercheurs, rachat de talents, et montée en puissance de l'infrastructure GPU. L'arrivée d'Alexandr Wang, architecte de l'annotation de données à grande échelle chez Scale AI, marque un pari sur la qualité des données d'entraînement comme avantage concurrentiel. Muse Spark n'est qu'un premier pas : Meta a annoncé que la famille Muse comprendra des modèles plus puissants, laissant entrevoir une course aux capacités qui s'annonce serrée avec OpenAI, Google et Anthropic dans les prochains mois.

UEMuse Spark étant gratuit et accessible mondialement, les utilisateurs et entreprises en France et en UE peuvent l'adopter immédiatement, ce qui intensifie la pression concurrentielle sur les offres payantes et pourrait accélérer l'adoption grand public des assistants IA multimodaux en Europe.

💬 La "superintelligence personnelle", laisse tomber le nom. Ce qui compte vraiment, c'est que Meta peut offrir gratuitement ce qu'OpenAI facture 20€/mois, et ils ont les reins assez solides pour tenir cette position indéfiniment. Ce qui me frappe plus que le modèle lui-même, c'est Alexandr Wang aux commandes : quelqu'un dont toute la carrière tourne autour de la qualité des données d'entraînement, ça laisse penser que la famille Muse va monter en puissance sérieusement.

LLMsOpinion
1 source