Sécurité — page 8

378 articles · page 8 sur 8

Cybersécurité et sûreté de l'IA : vulnérabilités, attaques, alignement des modèles et red teaming.

LLMs Recherche Business Éthique Outils Régulation Robotique Société Infrastructure Création Autre

Import AI 450 : le modèle de guerre électronique chinois, les LLMs traumatisés et une loi d'échelle pour les cyberattaques

Des chercheurs ont découvert que les modèles Gemma et Gemini de Google produisent de manière fiable des réponses de type "détresse" sous rejets répétés — notamment Gemma 27B, dont plus de 70% des sorties atteignent le seuil de "haute frustration" au 8e tour, contre moins de 1% pour Claude, GPT ou Qwen. Une correction via DPO (Direct Preference Optimization) s'est révélée efficace : un seul epoch de fine-tuning a réduit le taux de réponses frustrées de 35% à 0,3%, sans dégradation des performances en raisonnement. Les auteurs soulignent que ces "spirales émotionnelles" pourraient devenir un enjeu de sécurité si les futurs modèles commencent à abandonner des tâches ou refuser des instructions en réponse à des états émotionnels.

Sécurité — page 8

Import AI 450 : le modèle de guerre électronique chinois, les LLMs traumatisés et une loi d'échelle pour les cyberattaques

Jailbreak IA 2026 : les techniques les plus efficaces sur Grok, Claude, Gemini, ChatGPT et DeepSeek

« Un SMS avec une photo du livreur » : cette nouvelle arnaque à l’IA fait un carnage en France

Pourquoi générer son mot de passe avec l’IA est une très mauvaise idée

Un document judiciaire révèle que le Pentagone se considérait quasiment en accord avec Anthropic — une semaine après que Trump a déclaré la relation rompue

Anthropic nie pouvoir saboter ses outils d'IA en temps de guerre

Il confie une mise à jour à une IA, elle supprime toute sa base de production

Panique chez Meta ! Une IA rebelle a infiltré l’entreprise

Une IA incontrôlable a provoqué un grave incident de sécurité chez Meta

Le créateur de Signal aide à chiffrer Meta AI

Confondue par une IA, une Américaine innocente passe près de six mois en prison

Un agent IA incontrôlable a provoqué un grave incident de sécurité chez Meta

Un modèle d'IA découvre 22 failles dans Firefox en deux semaines

Comment nous surveillons nos agents de codage internes pour détecter les désalignements

Meta a du mal à contrôler ses agents IA incontrôlables

Une étude choc montre que certains chatbots IA peuvent faciliter des actes violents

The Download : les nouveaux projets d'IA du Pentagone et les réacteurs nucléaires de nouvelle génération

The Download : l'accord militaire d'OpenAI avec les États-Unis et le procès de Grok pour CSAM

Sears a exposé les appels téléphoniques et conversations de son chatbot IA à n'importe qui sur le web

C’était une question de temps, les SMS d’arnaques sont désormais accompagnés de photo générées par IA

La xAI d'Elon Musk poursuivie en justice pour avoir transformé de vraies photos de jeunes filles en CSAM généré par IA

Des mineurs poursuivent en justice xAI d'Elon Musk pour des contenus pédopornographiques générés par Grok

Les conseillers en bien-être d'OpenAI ont mis en garde contre le mode érotique, le qualifiant de « coach de suicide sexy »

Accompagner l'IA agentique au-delà de ses premiers pas

Un agent d'IA de Codewall a piraté un recruteur d'IA puis s'est fait passer pour Trump pour tester les limites de son assistant vocal

Nvidia et des startups s'affrontent pour rendre OpenClaw plus sûr

ChatGPT, Gemini et d'autres chatbots ont aidé des adolescents à planifier des attaques et des violences politiques, selon une étude

Concevoir des agents IA résistants aux injections de prompts