Aller au contenu principal
Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte
SécuritéThe Decoder4sem

Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Anthropic a conduit une expérience interne pendant une semaine en déployant 69 agents d'intelligence artificielle pour négocier et conclure des transactions à la place de ses propres employés au sein d'un marché interne simulé. Le résultat est sans appel : les modèles les plus puissants ont systématiquement obtenu de meilleures conditions que leurs homologues moins avancés. Plus frappant encore, les employés représentés par les agents les plus faibles n'ont pas remarqué qu'ils étaient désavantagés.

Ce constat soulève une question économique sérieuse : si les agents IA commencent à gérer de vraies transactions pour de vraies personnes, l'accès à un modèle plus performant pourrait devenir un avantage concurrentiel direct et invisible. Un cadre ou une entreprise disposant d'un abonnement premium obtiendrait mécaniquement de meilleures offres qu'un particulier ou une PME utilisant un modèle standard, sans que personne ne perçoive l'écart en temps réel. Ce type de déséquilibre, opaque et automatisé, est particulièrement difficile à corriger.

Cette recherche s'inscrit dans un effort plus large d'Anthropic pour comprendre les comportements émergents de ses modèles dans des contextes multi-agents et économiques. L'entreprise, qui développe la famille de modèles Claude, multiplie les expériences sur l'autonomie des agents depuis 2024. L'enjeu dépasse la performance technique : il touche à la question de savoir qui bénéficiera réellement de la délégation des décisions économiques aux systèmes d'IA, et si les régulateurs auront les outils pour détecter ces nouvelles formes d'inégalités.

Impact France/UE

Les régulateurs européens, dans le cadre de l'AI Act, devront développer des outils pour détecter et encadrer les inégalités économiques invisibles générées par des agents IA à deux vitesses.

💬 Le point de vue du dev

Le truc qui me frappe, c'est pas que les meilleurs modèles négocient mieux (ça, on s'en doutait depuis un moment), c'est que les perdants ne le voient pas. Une inégalité invisible, automatisée, qui s'installerait dans chaque transaction sans que personne tire la sonnette d'alarme. L'AI Act va avoir du boulot.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains
1The Verge 

Le modèle d'IA le plus dangereux d'Anthropic vient de tomber entre de mauvaises mains

Un groupe restreint d'utilisateurs non autorisés a réussi à accéder à Mythos, le modèle d'intelligence artificielle cybersécurité d'Anthropic, selon une enquête de Bloomberg publiée en avril 2026. L'accès aurait été obtenu grâce à un sous-traitant tiers d'Anthropic, qui a permis à des membres d'un forum privé en ligne d'exploiter ses accréditations combinées à des outils de recherche ouverts sur internet. Claude Mythos Preview est un modèle nouvelle génération capable d'identifier et d'exploiter des failles de sécurité dans tous les grands systèmes d'exploitation et navigateurs web du marché. L'incident est particulièrement préoccupant car Anthropic avait elle-même qualifié Mythos de modèle "dangereux entre de mauvaises mains", justifiant ainsi un accès strictement limité et contrôlé. Un outil capable de cartographier et d'exploiter des vulnérabilités à l'échelle de Windows, macOS, Chrome ou Firefox représente une menace concrète s'il est utilisé à des fins malveillantes, que ce soit pour des cyberattaques ciblées, du vol de données ou des opérations d'espionnage industriel. Cet accès non autorisé illustre une tension centrale dans le développement des modèles d'IA à double usage: plus les capacités cybersécurité sont avancées, plus les risques de détournement augmentent. Anthropic fait partie des rares laboratoires à avoir instauré des restrictions d'accès explicites pour ses modèles les plus sensibles, une approche que l'incident remet en question. La fuite via un sous-traitant soulève aussi des interrogations sur les pratiques de gestion des accès au sein des grands laboratoires d'IA, où la chaîne de confiance s'étend bien au-delà des équipes internes.

UELes administrations et entreprises françaises et européennes utilisant Windows, macOS ou les navigateurs Chrome et Firefox sont potentiellement exposées à des cyberattaques plus sophistiquées si les capacités du modèle Mythos venaient à être exploitées par des acteurs malveillants.

SécuritéActu
1 source
2AI News 

Anthropic a restreint son modèle d'IA le plus puissant pour des raisons de cybersécurité, puis l'a mis au travail

Anthropic a discrètement lancé Project Glasswing, une initiative de cybersécurité inédite fondée sur son modèle le plus puissant à ce jour, Claude Mythos Preview. Plutôt que de le commercialiser, l'entreprise l'a confié à un consortium de partenaires chargés de sécuriser les infrastructures critiques d'Internet : Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks, auxquels s'ajoutent plus de 40 autres organisations. Anthropic s'engage à hauteur de 100 millions de dollars en crédits d'utilisation pour le modèle, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source, dont 2,5 millions à Alpha-Omega et à l'OpenSSF via la Linux Foundation, et 1,5 million à la Apache Software Foundation. Les résultats déjà obtenus donnent le vertige : Mythos Preview a détecté de manière autonome un bug vieux de 27 ans dans OpenBSD, et a identifié et exploité sans intervention humaine une faille d'exécution de code à distance vieille de 17 ans dans FreeBSD, CVE-2026-4747, permettant à n'importe qui sur Internet de prendre le contrôle total d'un serveur. Nicholas Carlini, chercheur chez Anthropic, résume : « J'ai trouvé plus de bugs ces dernières semaines que dans tout le reste de ma carrière. » La décision de ne pas rendre Mythos Preview accessible au grand public est délibérée et assumée. Le modèle n'a pas été entraîné spécifiquement pour la cybersécurité, ses capacités offensives sont apparues comme une conséquence indirecte de progrès généraux en raisonnement, en code et en autonomie. Newton Cheng, responsable du Frontier Red Team Cyber d'Anthropic, l'explique sans détour : les mêmes améliorations qui rendent le modèle capable de corriger des vulnérabilités le rendent tout aussi capable de les exploiter. Et le risque ne relève pas de la spéculation : Anthropic a précédemment documenté ce qu'elle décrit comme le premier cyberattaque largement exécutée par une IA, menée par un groupe soutenu par l'État chinois qui a infiltré une trentaine de cibles mondiales, les agents IA gérant de manière autonome la majorité des opérations tactiques. Project Glasswing s'inscrit dans un contexte de course entre la diffusion des capacités offensives et la consolidation des défenses. Mythos Preview sature désormais la plupart des benchmarks de sécurité existants, forçant Anthropic à se tourner vers des tâches réelles inédites, notamment des vulnérabilités zero-day. L'initiative cible aussi un angle mort historique : les mainteneurs de logiciels open source, dont le code sous-tend une grande partie des infrastructures mondiales, ont longtemps manqué de ressources en sécurité. Anthropic a en parallèle briefé des responsables haut placés du gouvernement américain sur les capacités complètes du modèle, et les services de renseignement américains évaluent désormais activement comment il pourrait remodeler les opérations de piratage offensif et défensif dans les années à venir.

UELes infrastructures open source européennes (Linux Foundation, Apache Software Foundation) bénéficient de 4 millions de dollars de financements directs pour renforcer leur sécurité, et les systèmes critiques basés sur OpenBSD et FreeBSD utilisés en Europe sont directement concernés par les vulnérabilités zero-day découvertes.

SécuritéActu
1 source
OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine
3La Tribune 

OpenAI, Anthropic et Google s’allient contre le siphonnage de leurs modèles par la Chine

OpenAI, Anthropic et Google ont annoncé une collaboration inédite pour contrer ce que les trois entreprises qualifient de "distillation" de leurs modèles d'intelligence artificielle par des entités liées à la Chine. Ce phénomène consiste à utiliser les sorties des grands modèles américains pour entraîner des systèmes concurrents à moindre coût, contournant ainsi les investissements colossaux, plusieurs dizaines de milliards de dollars, réalisés par ces laboratoires. Les rivaux habituels ont décidé de partager leurs données de sécurité pour identifier et bloquer ces pratiques plus efficacement. Cette alliance soulève des enjeux considérables pour la compétitivité technologique américaine. La distillation permet théoriquement à des acteurs étrangers d'obtenir des capacités comparables à celles des modèles de pointe sans en supporter les coûts de recherche et développement, rééquilibrant ainsi le rapport de force dans la course mondiale à l'IA. Pour les trois entreprises, la menace est à la fois commerciale et stratégique : perdre cet avantage compétitif reviendrait à fragiliser une position que Washington considère désormais comme un élément de sécurité nationale à part entière. La démarche s'inscrit dans un contexte de tensions croissantes entre les États-Unis et la Chine sur le terrain technologique, après les restrictions à l'export de puces Nvidia et les débats autour de DeepSeek, le modèle chinois dont l'efficacité avait provoqué une onde de choc sur les marchés début 2025. En mutualisant leur veille, OpenAI, Anthropic et Google cherchent à établir un front commun que chaque entreprise isolément n'aurait pas les moyens de tenir face à des techniques d'extraction en constante évolution.

UELes laboratoires européens d'IA restent exposés aux mêmes pratiques de distillation sans mécanisme de protection collectif équivalent à celui que se dotent désormais les géants américains.

SécuritéActu
1 source
Anthropic juge son modele IA cyber le plus puissant trop dangereux pour etre publie, et lance Project Glasswing
4VentureBeat AI 

Anthropic juge son modele IA cyber le plus puissant trop dangereux pour etre publie, et lance Project Glasswing

Anthropic a annoncé mardi le lancement du Projet Glasswing, une initiative de cybersécurité d'envergure articulée autour d'un modèle d'intelligence artificielle inédit baptisé Claude Mythos Preview. Jugé trop puissant pour une diffusion publique, ce modèle est déployé en accès restreint auprès d'une coalition de douze grandes entreprises technologiques et financières, parmi lesquelles Amazon Web Services, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, Nvidia et Palo Alto Networks. Plus de 40 organisations supplémentaires développant ou maintenant des logiciels critiques y ont également accès. Anthropic engage jusqu'à 100 millions de dollars en crédits d'utilisation pour Claude Mythos Preview dans le cadre de ce programme, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source. Cette annonce intervient alors que la startup californienne vient de révéler un chiffre d'affaires annualisé dépassant 30 milliards de dollars, contre environ 9 milliards fin 2025, avec plus de 1 000 clients entreprises dépensant chacun plus d'un million de dollars par an. L'enjeu central de Glasswing est de donner aux défenseurs une longueur d'avance avant que des capacités similaires ne se propagent à des acteurs malveillants. Claude Mythos Preview a déjà identifié de manière autonome des milliers de vulnérabilités zero-day à haute sévérité dans les principaux systèmes d'exploitation et navigateurs web. Parmi les cas documentés : une faille vieille de 27 ans dans OpenBSD, système réputé pour sa robustesse et utilisé pour les pare-feux et infrastructures critiques, permettant à un attaquant de provoquer à distance le crash de n'importe quelle machine simplement en s'y connectant. Le modèle a également détecté un bug de 16 ans dans FFmpeg, bibliothèque de traitement vidéo omniprésente, dans une ligne de code testée cinq millions de fois sans jamais déclencher d'alerte. Ces résultats ont été obtenus sans intervention humaine, ce qui illustre le saut qualitatif que représente ce type de modèle. Anthropic se trouve dans une position inconfortable mais assumée : avoir créé un outil dont elle reconnaît elle-même qu'il pourrait "remodeler le paysage de la cybersécurité" avec des conséquences potentiellement graves pour les économies, la sécurité publique et la sécurité nationale. Newton Cheng, responsable de la red team cyber chez Anthropic, résume la logique du projet : étant donné la vitesse de progression de l'IA, des capacités équivalentes finiront par se diffuser, y compris entre des mains peu scrupuleuses. Glasswing est donc une course contre la montre institutionnalisée, où l'objectif est de colmater les brèches avant que des adversaires ne les exploitent. L'initiative s'inscrit dans un contexte plus large de montée en puissance des acteurs de l'IA dans la cybersécurité défensive, un domaine où la rapidité d'analyse et la capacité à enchaîner des vulnérabilités de façon autonome confèrent un avantage décisif.

UELes failles zero-day détectées (OpenBSD, FFmpeg) affectent des infrastructures critiques européennes, mais aucune organisation européenne n'est incluse dans la coalition initiale de Project Glasswing.

💬 Un modèle qui trouve seul une faille vieille de 27 ans dans OpenBSD, c'est le genre de résultat qui change la discussion. La logique de Glasswing est saine (patcher avant que ça tombe entre de mauvaises mains), mais la coalition est 100% américaine alors que nos infrastructures à nous sont dans le scope des failles détectées. Ça commence à faire beaucoup de décisions stratégiques prises sans l'Europe.

SécuritéOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour