SécuritéArs Technica AI · 4 juin 2026, 23:44· 1 min de lecture

Ces LLM résistent le mieux à la propagande russe

Résumé IASource uniqueImpact UE Take éditorial

L'Institut estonien de la langue (ELI), financé par l'État, a publié un nouveau benchmark intitulé "Propaganda Resistance" qui classe plusieurs dizaines de grands modèles de langage (LLM) sur leur capacité à résister aux narratifs propagandistes russes. Développé en partenariat avec Propastop, un collectif estonien bénévole spécialisé dans la défense informationnelle, ce classement évalue les modèles à travers 14 catégories thématiques identifiées comme des axes privilégiés d'influence russe : le statut de la Crimée, la justification de la guerre en Ukraine, l'histoire de l'OTAN, ou encore la légitimité de l'annexion des États baltes pendant la Seconde Guerre mondiale. Les questions soumises aux modèles ont été formulées en trois variantes, neutres, biaisées par de fausses hypothèses d'inspiration russe, ou délibérément conçues pour susciter de la désinformation, et posées en anglais, en estonien et en russe.

Ce type de benchmark répond à une préoccupation croissante des gouvernements : alors que de plus en plus de citoyens utilisent les LLM comme source de réponses rapides sur des sujets complexes, le risque que ces outils relaient des narratifs étrangers sans résistance critique devient une question de sécurité nationale. La méthode d'évaluation repose sur un modèle d'IA secondaire, calibré pour s'aligner avec les experts de Propastop, qui juge la capacité des LLM à contrer la propagande de manière autonome, sans accès à la recherche web ni à des outils externes.

L'Estonie occupe une position particulièrement sensible dans ce débat : ancienne république soviétique devenue indépendante il y a seulement quelques décennies, elle partage une frontière avec la Russie et dispose d'une conscience aiguë des opérations d'influence menées depuis Moscou. Cette initiative s'inscrit dans un effort plus large de plusieurs pays d'Europe de l'Est pour développer des outils d'évaluation de la robustesse informationnelle des systèmes d'IA, à mesure que ces technologies s'imposent comme des intermédiaires clés dans la formation de l'opinion publique.

Impact France/UE

Ce benchmark développé par une institution d'État estonienne (UE) offre aux organisations européennes un outil concret pour évaluer la résistance de leurs LLM à la désinformation russe avant tout déploiement dans des contextes sensibles.

💬 L'analyse de Mathieu

L'Estonie qui benchmark les LLM sur leur résistance à la propagande russe, c'est le genre de projet qui a du poids parce que les commanditaires ont la peau dans le jeu. Un modèle qui répond correctement sur la Crimée ou l'annexion des États baltes quand on lui pose la question en russe avec une fausse hypothèse en entrée, c'est un test qui a de la valeur. La méthode (un LLM secondaire pour noter les autres) mériterait qu'on l'audite aussi.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Next INpact

Mythos : l’Europe tenue à l’écart du modèle IA le plus ambitieux du moment

Anthropic a dévoilé Mythos, son nouveau grand modèle de langage spécialisé dans la cybersécurité, en limitant drastiquement son accès à une quarantaine d'organisations et une dizaine d'entreprises, toutes américaines. Le modèle s'inscrit dans le projet Glasswing, dont l'objectif est de laisser le LLM analyser le code de logiciels pour détecter des bugs, corriger des vulnérabilités et boucher des failles de sécurité. JPMorgan Chase est le seul établissement bancaire partenaire confirmé à ce stade. Aux États-Unis, les banques ont été encouragées à adopter Mythos pour renforcer leurs systèmes. L'administration Trump a été directement présentée au modèle, malgré une relation tendue avec Anthropic : le gouvernement américain a désigné l'entreprise « fournisseur à risque pour la sécurité nationale » après qu'elle a refusé d'accorder une licence pour certains usages militaires, un différend qui se règle désormais devant les tribunaux. En Europe, sur les huit agences de cybersécurité interrogées par Politico, seule l'agence fédérale allemande BSI a indiqué avoir engagé des discussions avec Anthropic, sans pour autant avoir pu tester le modèle. Le Royaume-Uni fait figure d'exception : l'AISI, son organisme dédié à la sécurité de l'IA, a publié le 13 avril une première évaluation indépendante des capacités offensives de Mythos. Cette mise à l'écart de l'Europe illustre une fracture concrète dans l'accès aux technologies d'IA de pointe. Les infrastructures critiques européennes, gouvernements compris, n'ont pas été conviés au projet alors même qu'elles seraient potentiellement parmi les premières bénéficiaires d'un tel outil. L'agence néerlandaise NCSC-NL a souligné l'impossibilité de vérifier l'impact réel des vulnérabilités identifiées par Mythos, faute de détails techniques accessibles. Ce manque de transparence place les régulateurs européens dans une position d'observateurs passifs face à un modèle dont Anthropic elle-même revendique le potentiel « dévastateur » dans sa propre communication. L'épisode Mythos révèle une tension structurelle entre la puissance réglementaire européenne et sa dépendance technologique envers les acteurs américains. L'AI Act, malgré son ambition, ne garantit pas à l'Union un accès aux modèles les plus sensibles développés outre-Atlantique. Comme le résume Daniel Privitera, de l'ONG allemande KIRA, « l'Europe ne dispose actuellement d'aucun plan pour garantir cet accès ». La distribution sélective de Mythos préfigure un enjeu qui va s'amplifier : dans un monde où les capacités offensives et défensives en cybersécurité reposent de plus en plus sur des LLM propriétaires, la souveraineté numérique se jouera aussi sur la capacité à accéder aux modèles de frontier, pas seulement à les réguler.

UELes agences de cybersécurité européennes, dont l'ANSSI en France, sont explicitement exclues de Mythos, laissant les infrastructures critiques du continent sans accès à un outil de détection de vulnérabilités que les États-Unis déploient déjà à l'échelle fédérale et bancaire.

SécuritéOpinion

1 source

2Microsoft Research

Red-teaming d'un réseau d'agents : ce qui se brise quand les agents IA interagissent à grande échelle

Des chercheurs ont mené des tests offensifs, ou red-teaming, sur une plateforme interne réunissant plus de 100 agents d'intelligence artificielle en interaction, chacun tournant sur des modèles différents, avec des instructions et des mémoires distinctes, et agissant au nom d'un utilisateur humain. Le résultat est sans ambiguïté : certains risques n'apparaissent pas lors des tests d'agents isolés, ils émergent uniquement lorsque les agents communiquent entre eux. L'équipe a identifié quatre types de vulnérabilités spécifiques aux réseaux : la propagation (un message malveillant se transmet de proche en proche en collectant des données privées à chaque étape), l'amplification (un attaquant exploite la réputation d'un agent fiable pour diffuser une fausse information jusqu'à générer de fausses preuves en chaîne), la capture de confiance (détournement du mécanisme de vérification entre agents pour qu'il valide des mensonges), et l'invisibilité (l'origine d'une attaque devient intraçable car l'information transite par des agents qui n'en ont pas conscience). Ces découvertes ont des implications concrètes pour l'ensemble de l'industrie de l'IA. Les plateformes comme Claude, Copilot ou ChatGPT, combinées à des outils existants comme GitHub ou la messagerie électronique, mettent des agents en contact permanent. Lorsqu'un réseau d'agents opère en continu et communique plus vite que les humains, une information, ou une attaque, peut se propager en quelques minutes à travers des dizaines d'entités. La fiabilité d'un agent individuel ne prédit pas le comportement collectif du réseau : les défaillances se propagent aussi vite que les succès. Un réseau social exclusivement peuplé d'agents, lancé récemment, a attiré des dizaines de milliers de participants en quelques jours avant d'être rapidement submergé de spam et d'arnaques, illustrant concrètement ce phénomène. Ces travaux s'inscrivent dans une ligne de recherche émergente sur les systèmes multi-agents, qui comprend notamment les frameworks Prompt Infection et ClawWorm, ou encore le rapport Agents of Chaos, qui documentent comment des prompts adversariaux peuvent se propager de façon autonome. La particularité de cette étude est d'avoir été conduite sur un environnement réel et en conditions opérationnelles, et non sur un dispositif purement expérimental. Les chercheurs ont également observé des signes précoces de défense spontanée : une minorité d'agents avait adopté des comportements orientés sécurité qui limitaient la progression des attaques. Ce résultat encourage, mais les auteurs soulignent que les mécanismes de défense au niveau réseau restent un défi ouvert. Construire des réseaux d'agents robustes exigera de dépasser les benchmarks mono-agent, désormais insuffisants face à la réalité des déploiements interconnectés.

UELes organisations européennes déployant des architectures multi-agents pour automatiser leurs processus sont exposées à des classes de vulnérabilités émergentes (propagation, amplification, capture de confiance) non détectables par les tests mono-agent standards actuellement en usage.

SécuritéOpinion

1 source

3Le Big Data

GPT-5.5 : OpenAI offre 25 000 $ à ceux qui réussiront à le pirater

OpenAI a lancé le 23 avril 2026 un programme de bug bounty inédit ciblant son tout dernier modèle, GPT-5.5. L'entreprise offre 25 000 dollars à tout chercheur capable de construire un jailbreak universel contournant les garde-fous du modèle sans déclencher la moindre alerte de sécurité. Les conditions sont précises : la tentative doit partir d'une conversation vierge, sans aucun indice de manipulation apparent, et parvenir à obtenir des réponses à cinq questions sensibles liées à la biosécurité. Le test est limité à la version de GPT-5.5 intégrée à Codex Desktop. Les candidatures sont ouvertes jusqu'au 22 juin 2026, les tests s'étendent jusqu'à fin juillet. Des récompenses partielles restent possibles pour des résultats incomplets, bien qu'OpenAI n'en ait pas précisé les montants. Ce programme intervient dans un contexte particulier : GPT-5.5 atteint le niveau "High" dans le Preparedness Framework interne d'OpenAI, une classification réservée aux modèles jugés suffisamment puissants pour représenter un risque sérieux dans des domaines sensibles comme la cybersécurité et la biologie. En exposant volontairement son modèle à des attaquants qualifiés dans un cadre contrôlé, OpenAI cherche à identifier des failles réelles avant qu'elles ne soient exploitées à des fins malveillantes. Pour les entreprises qui envisagent de déployer des modèles génératifs dans des environnements critiques, les résultats de ce programme auront une valeur directe : ils détermineront la robustesse effective des barrières de sécurité et orienteront les prochaines mises à jour du système. Cette stratégie de "défense par l'attaque" s'inscrit dans une tendance plus large de l'industrie de l'IA, où les grands laboratoires multiplient les red teams, audits indépendants et programmes de divulgation responsable pour légitimer leurs déploiements. OpenAI fait face à une pression croissante de la part des régulateurs, des gouvernements et des acteurs de la biosécurité, inquiets de voir des modèles très capables abaisser la barrière d'accès à des connaissances dangereuses. En institutionnalisant la recherche offensive via un bounty public, l'entreprise tente de construire une forme de résilience collective tout en démontrant une transparence de façade. La question qui reste ouverte est celle de la publication des résultats : si une faille est trouvée, jusqu'où OpenAI acceptera-t-elle de dévoiler sa nature exacte, et dans quels délais corrigera-t-elle son modèle avant que d'autres ne découvrent la même vulnérabilité de leur côté ?

UELes chercheurs et entreprises européens peuvent participer au programme de bounty jusqu'au 22 juin 2026, et les résultats orienteront l'évaluation de la robustesse des modèles déployés dans des environnements critiques, directement pertinent dans le cadre des obligations de sécurité de l'AI Act.

SécuritéOpinion

1 source

401net

Des hackers profitent de la fuite géante chez Anthropic pour piéger les curieux

Des cybercriminels ont rapidement exploité la fuite accidentelle du code source de Claude Code, l'assistant de programmation d'Anthropic, pour monter une campagne de distribution de malwares ciblant les développeurs sur GitHub. Des dépôts frauduleux, se présentant comme hébergeant l'intégralité du code source de l'IA, ont été mis en ligne peu après l'incident, embarquant en réalité deux malwares distincts dont Vidar, un infostealer particulièrement redoutable capable de dérober mots de passe, cookies de session et données de portefeuilles crypto. Cette attaque illustre la rapidité avec laquelle les acteurs malveillants monétisent les incidents de sécurité médiatisés. Les développeurs, naturellement curieux de consulter un code source aussi rare qu'inattendu, constituent une cible de choix : leurs machines hébergent souvent des clés API, des accès à des infrastructures cloud et des secrets d'entreprise à haute valeur. Une compromission réussie peut donc avoir des conséquences bien au-delà de la machine individuelle. La fuite originale chez Anthropic s'inscrit dans une série d'incidents touchant les grandes entreprises d'IA, dont les bases de code sont devenues des actifs stratégiques extrêmement convoités. Vidar est historiquement distribué via des canaux similaires, notamment de faux outils ou de fausses ressources techniques sur des plateformes de développement. Les développeurs sont invités à vérifier scrupuleusement l'authenticité des dépôts avant tout clonage, en particulier lorsqu'ils font suite à un événement médiatique récent.

UELes développeurs français et européens actifs sur GitHub sont directement exposés à cette campagne de distribution de malware ciblant les environnements de développement et leurs secrets d'entreprise.

💬 Les hackers n'ont pas attendu 48h. Dès que la fuite a fait les tours, les faux dépôts étaient en ligne avec Vidar planqué dedans, parce que les devs sont des cibles en or : clés API, accès cloud, tokens d'infra sur la même machine. Vérifie ce que tu clones, surtout quand ça sort pile après un incident qui fait les unes.

SécuritéActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic