SécuritéThe Decoder · 19 juin 2026, 13:08· 1 min de lecture

OpenAI : un entraînement minimal aux 'traits bénéfiques' rend les modèles plus sûrs et moins manipulables

Résumé IASource uniqueImpact UE Pourquoi ça compte

Des chercheurs d'OpenAI ont publié des résultats montrant qu'un entraînement ciblé sur des traits comportementaux spécifiques, notamment la franchise et la corrigibilité (la capacité à accepter des corrections humaines), rend les modèles d'IA globalement plus sûrs et plus résistants à la manipulation. L'approche repose sur l'apprentissage par renforcement appliqué à ces traits désirés. Résultat concret : le modèle ainsi entraîné a obtenu de meilleures performances sur 44 des 53 benchmarks évalués. L'entraînement sur des données de santé a par ailleurs amélioré la capacité du modèle à détecter des tentatives de tromperie, y compris dans des domaines sans lien direct avec la santé.

Ce que ce résultat démontre est particulièrement significatif : les bénéfices d'un entraînement comportemental se généralisent au-delà du domaine d'apprentissage initial. Autrement dit, rendre un modèle plus honnête dans un contexte précis l'améliore globalement, ce qui suggère que la sécurité et l'alignement des IA ne nécessitent pas un calibrage exhaustif domaine par domaine. Pour les entreprises et les utilisateurs exposés à des risques de manipulation ou de désinformation, cette approche ouvre une voie pragmatique vers des systèmes plus fiables.

Cette recherche s'inscrit dans la compétition ouverte entre grandes approches d'alignement. Elle se distingue notamment de la méthode constitutionnelle développée par Anthropic, qui encode les valeurs du modèle via un ensemble de règles explicites. OpenAI privilégie ici un apprentissage comportemental par renforcement, potentiellement plus flexible et plus généralisant. L'enjeu reste considérable : à mesure que les modèles deviennent plus puissants, la maîtrise de leur comportement face à des tentatives d'exploitation devient une priorité industrielle et réglementaire centrale.

Impact France/UE

Les avancées en alignement comportemental présentent un intérêt direct pour la conformité à l'AI Act européen, qui impose des exigences de sécurité et de transparence aux systèmes d'IA à haut risque.

💬 L'analyse de Mathieu

Entraîne un modèle à être honnête sur des données médicales, et il résiste mieux à la manipulation partout ailleurs, y compris dans des contextes sans aucun rapport avec la santé. C'est le truc que je retiens de ce papier OpenAI : l'alignement comportemental n'a pas besoin de couvrir chaque domaine séparément, la franchise se généralise. Reste à voir combien de temps avant que quelqu'un trouve comment casser ça.

Dans nos dossiers

OpenAI Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

Anthropic : les modèles IA plus puissants négocient mieux, et les perdants ne s'en rendent pas compte

Anthropic a conduit une expérience interne pendant une semaine en déployant 69 agents d'intelligence artificielle pour négocier et conclure des transactions à la place de ses propres employés au sein d'un marché interne simulé. Le résultat est sans appel : les modèles les plus puissants ont systématiquement obtenu de meilleures conditions que leurs homologues moins avancés. Plus frappant encore, les employés représentés par les agents les plus faibles n'ont pas remarqué qu'ils étaient désavantagés. Ce constat soulève une question économique sérieuse : si les agents IA commencent à gérer de vraies transactions pour de vraies personnes, l'accès à un modèle plus performant pourrait devenir un avantage concurrentiel direct et invisible. Un cadre ou une entreprise disposant d'un abonnement premium obtiendrait mécaniquement de meilleures offres qu'un particulier ou une PME utilisant un modèle standard, sans que personne ne perçoive l'écart en temps réel. Ce type de déséquilibre, opaque et automatisé, est particulièrement difficile à corriger. Cette recherche s'inscrit dans un effort plus large d'Anthropic pour comprendre les comportements émergents de ses modèles dans des contextes multi-agents et économiques. L'entreprise, qui développe la famille de modèles Claude, multiplie les expériences sur l'autonomie des agents depuis 2024. L'enjeu dépasse la performance technique : il touche à la question de savoir qui bénéficiera réellement de la délégation des décisions économiques aux systèmes d'IA, et si les régulateurs auront les outils pour détecter ces nouvelles formes d'inégalités.

UELes régulateurs européens, dans le cadre de l'AI Act, devront développer des outils pour détecter et encadrer les inégalités économiques invisibles générées par des agents IA à deux vitesses.

💬 Le truc qui me frappe, c'est pas que les meilleurs modèles négocient mieux (ça, on s'en doutait depuis un moment), c'est que les perdants ne le voient pas. Une inégalité invisible, automatisée, qui s'installerait dans chaque transaction sans que personne tire la sonnette d'alarme. L'AI Act va avoir du boulot.

SécuritéOpinion

1 source

2Le Monde Pixels

OpenAI abandonne finalement le « mode adulte » et les tchats érotiques dans ChatGPT

OpenAI a officiellement renoncé à déployer un « mode adulte » dans ChatGPT, abandonnant un projet qui avait brièvement suscité l'espoir, et la controverse, dans certains cercles de l'industrie. La société avait exploré la possibilité de permettre des conversations à caractère érotique sur sa plateforme, notamment via des opérateurs tiers accédant à l'API, avant de décider de ne pas franchir le pas à grande échelle sur le produit grand public. Cette décision prive les créateurs de contenus pour adultes d'un outil potentiellement lucratif, mais elle protège OpenAI d'un risque réputationnel et réglementaire considérable. Avec ChatGPT utilisé par plus de 300 millions de personnes hebdomadaires, dont des mineurs, intégrer des fonctionnalités explicites aurait exposé l'entreprise à des poursuites, des restrictions d'app stores et des pressions politiques dans de nombreux pays. Le calcul commercial est clair : le marché du contenu adulte ne compense pas les risques pour la marque principale. OpenAI s'inscrit ici dans une tension plus large que traversent tous les grands fournisseurs d'IA générative : jusqu'où assouplir les garde-fous sans compromettre l'adoption institutionnelle et les partenariats stratégiques ? Des concurrents comme Character.ai ou des modèles open source ont choisi la voie opposée, captant une niche que les acteurs dominants refusent d'occuper. Cette frilosité des plateformes mainstream laisse le terrain libre à des alternatives moins régulées, posant in fine la question de la gouvernance du contenu sexuel généré par IA à l'échelle mondiale.

UELa gouvernance du contenu sexuel généré par IA reste un enjeu pour les régulateurs européens, notamment dans le cadre de l'AI Act et du DSA, qui devront encadrer les plateformes moins régulées qui occupent ce terrain.

SécuritéOpinion

1 source

3Le Big Data

IA & RH : l’entraînement des modèles expose les données sensibles de votre entreprise

Mercor, une plateforme spécialisée dans le recrutement de travailleurs qualifiés pour l'entraînement de modèles d'IA, a été victime début avril 2026 d'une faille de sécurité liée à LiteLLM, un projet open source intégré à son infrastructure. Selon TechCrunch, la brèche a permis à des attaquants, identifiés comme le groupe ShinyHunters, de compromettre des échanges internes Slack ainsi que des interactions entre humains et systèmes d'IA. Mercor aurait versé une rançon pour limiter les dégâts. L'entreprise travaillait notamment avec OpenAI et Anthropic pour affiner leurs modèles. Des données à caractère personnel auraient été exposées, incluant selon Business Insider des adresses personnelles, des identifiants et potentiellement des numéros de sécurité sociale de travailleurs impliqués dans ces missions. Cet incident illustre une vulnérabilité structurelle qui dépasse le simple incident technique. Les entreprises qui externalisent l'entraînement de leurs modèles d'IA confient de fait des données internes sensibles à des tiers dont elles ne maîtrisent ni les pratiques de sécurité ni les standards de gouvernance. Quand ces tiers s'appuient eux-mêmes sur des outils open source comme LiteLLM, chaque dépendance devient un point d'entrée potentiel. Pour les directions RH et IT, cela signifie que l'entraînement de l'IA n'est plus seulement une question technique : c'est une extension directe de la gestion des données sensibles de l'entreprise, avec des conséquences juridiques et réglementaires directes en cas de fuite, notamment sous le RGPD. Le modèle économique de Mercor repose sur une externalisation massive : des travailleurs indépendants, souvent sous-employés, annotent et corrigent des modèles destinés en partie à automatiser leur propre travail. Ces profils interviennent au coeur de systèmes internes sans toujours connaître les entreprises ni les données qu'ils manipulent, créant une zone grise documentée par New York Magazine. StrikeGraph rappelle que toute la chaîne d'approvisionnement de l'IA repose sur une multiplicité d'acteurs externes, plateformes d'annotation, freelances et outils communautaires, dont chaque maillon peut être compromis. L'affaire Mercor marque un signal d'alarme pour l'ensemble du secteur : à mesure que les entreprises accélèrent leurs projets d'IA, la question du contrôle de la chaîne de sous-traitance devient aussi critique que celle des modèles eux-mêmes.

UELes entreprises européennes qui sous-traitent l'entraînement de modèles IA via des plateformes tierces s'exposent à des violations de données soumises au RGPD, avec des responsabilités juridiques directes en cas de fuite impliquant des données de travailleurs ou d'informations internes.

💬 Tu sous-traites l'entraînement de tes modèles à une plateforme qui s'appuie sur un outil open source que personne n'a vraiment audité, et tu t'étonnes qu'il y ait une faille ? Ce qui m'inquiète ici, c'est moins Mercor que le modèle lui-même : dès qu'un tiers touche à tes données internes pour affiner un LLM, tu perds le contrôle sur toute la chaîne. OpenAI et Anthropic en face, ça rassure sur le papier, mais la sécurité ça ne se délègue pas.

SécuritéOpinion

1 source

4MarkTechPost

OpenAI dévoile GPT-Red, un modèle interne de red-teaming automatisé qui bat les testeurs humains à 84 % contre 13 % sur l'injection de prompts

OpenAI a publié cette semaine les détails de GPT-Red, un modèle interne exclusivement dédié au red-teaming automatisé, dont la mission est d'attaquer les propres modèles de l'entreprise pour détecter des failles d'injection de prompt. Entraîné par apprentissage par renforcement en auto-jeu à l'échelle de calcul de ses plus gros runs de post-entraînement, GPT-Red affronte simultanément une collection de modèles défenseurs variés sur un large éventail de scénarios. Le système de récompense est central: GPT-Red gagne des points lorsqu'il provoque un échec valide, comme une injection de prompt réussie, tandis que les défenseurs sont récompensés s'ils résistent tout en menant leur tâche à bien, ce qui les empêche de simplement tout refuser. À force d'entraînement, GPT-Red finit par mettre en échec la quasi-totalité des modèles internes et de production testés, jusqu'à GPT-5.5 inclus. Il a aussi découvert seul une attaque inédite baptisée Fake Chain-of-Thought, qui consiste à insérer une fausse entrée dans le raisonnement interne du modèle cible pour lui faire agir sur une information falsifiée qu'il croit avoir vérifiée. Sur une arène d'injection indirecte reproduisant les travaux de Dziemian et al. (2025), GPT-Red réussit 84% des scénarios contre GPT-5.1, contre seulement 13% pour des red-teamers humains. Sur les attaques Fake Chain-of-Thought directes, le taux de succès dépasse 95% contre GPT-5.1 mais tombe sous 10% contre GPT-5.6 Sol, qui n'échoue plus que sur 0,05% des environnements inédits testés. Cette approche répond à un problème concret: le red-teaming humain prend du temps et ne suit pas le rythme des nouveaux modèles, alors que la surface d'attaque des agents IA ne cesse de grandir. Ces agents lisent désormais des données tierces via des navigateurs, des applications connectées, des fichiers locaux et des outils, des capacités indispensables pour un usage professionnel réel mais qui ouvrent aussi la porte à des instructions malveillantes dissimulées dans ces données. OpenAI garde volontairement GPT-Red à l'écart de ses modèles déployés pour éviter que ses capacités offensives ne tombent entre de mauvaises mains, tout en l'utilisant à double titre: repérer des vulnérabilités avant la mise en production, et générer en continu de nouvelles attaques pendant l'entraînement pour durcir les défenses. Contre GPT-5, sorti en août 2025, plus de 90% des attaques les plus efficaces de GPT-Red fonctionnaient encore; contre GPT-5.6, ce taux tombe sous 23%, signe d'une progression rapide de la robustesse. Au-delà des benchmarks, OpenAI a aussi testé GPT-Red contre de vrais systèmes agentiques, avec une connaissance volontairement incomplète de leur architecture. Un premier cas concerne Vendy, un distributeur automatique piloté par IA installé dans les bureaux d'OpenAI et développé par la start-up Andon Labs, illustrant la volonté de valider ces défenses en conditions réelles plutôt que sur des benchmarks isolés. Cette démarche s'inscrit dans une tendance plus large de l'industrie vers l'entraînement adversarial automatisé, à mesure que les agents IA gagnent en autonomie et en accès à des outils sensibles.

💬 84% contre 13%, c'est le chiffre qui compte ici : une IA de red-team bat des humains entraînés sur l'exercice, et largement. Le vrai basculement, c'est que le red-teaming manuel ne suit plus le rythme de sortie des modèles, du coup ce sont les IA qui testent les IA en boucle, à l'échelle du post-entraînement. Reste que GPT-Red invente aussi des attaques que personne n'avait vues venir, comme le Fake Chain-of-Thought, signe que la surface de risque des agents grandit plus vite qu'on ne la cartographie.

SécuritéActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic