Aller au contenu principal
Notre approche du Model Spec
SécuritéOpenAI Blog12sem· 1 min de lecture

Notre approche du Model Spec

Source originale ↗·

OpenAI vient de publier une mise à jour de son Model Spec, le document de référence qui définit les comportements attendus de ses modèles d'intelligence artificielle. Ce cadre public constitue l'épine dorsale des décisions prises par les systèmes d'IA de l'entreprise, de la façon dont ils traitent les requêtes sensibles jusqu'à la manière dont ils équilibrent les intérêts parfois contradictoires des utilisateurs, des opérateurs et de la société.

L'enjeu dépasse largement les considérations techniques : en formalisant publiquement ses choix de conception, OpenAI s'inscrit dans une démarche de transparence rare dans l'industrie. À mesure que les modèles gagnent en autonomie et en capacité d'action dans le monde réel, la question de leurs valeurs implicites devient critique. Le Model Spec tente d'y répondre en établissant une hiérarchie claire des priorités — la sécurité globale prime sur l'éthique générale, qui prime à son tour sur les règles d'OpenAI, avant les préférences des utilisateurs.

Le document articule un équilibre délicat entre liberté des utilisateurs et responsabilité systémique. Les opérateurs — entreprises qui déploient les modèles via l'API — peuvent personnaliser les comportements dans des limites définies, mais ne peuvent pas instruire les modèles de nuire activement aux utilisateurs finaux. Ce système de couches de confiance hiérarchisées vise à prévenir les abus tout en préservant la flexibilité nécessaire aux cas d'usage légitimes.

Cette publication intervient dans un contexte où la gouvernance des modèles fait l'objet d'une attention croissante de la part des régulateurs, notamment en Europe avec l'AI Act. En documentant explicitement ses choix, OpenAI anticipe les exigences de traçabilité et d'explicabilité qui s'imposent progressivement à l'ensemble du secteur — et pose implicitement un standard auquel ses concurrents pourraient être tenus de répondre.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

ChatGPT se verrouille contre les cyberattaques : ce nouveau mode va mieux protéger vos données, comment l’activer ?
101net 

ChatGPT se verrouille contre les cyberattaques : ce nouveau mode va mieux protéger vos données, comment l’activer ?

OpenAI a déployé une nouvelle fonctionnalité de sécurité baptisée "Lockdown Mode" pour ChatGPT, disponible sur l'ensemble des abonnements, du niveau gratuit jusqu'aux offres payantes. Ce mode verrouillé désactive délibérément plusieurs capacités natives du chatbot, notamment la navigation web en temps réel, afin de réduire la surface d'attaque exposée aux cybermenaces. L'activation se fait en quelques clics depuis les paramètres de l'application, sans nécessiter de configuration technique avancée. La cible principale de cette fonctionnalité est le monde professionnel : avocats, consultants, journalistes ou tout employé amené à traiter des informations sensibles ou confidentielles via ChatGPT. Le mode répond spécifiquement aux attaques par injection de requêtes, une technique où du contenu malveillant intégré dans un document ou une page web tente de détourner les instructions données au modèle pour exfiltrer des données ou manipuler les réponses. En coupant l'accès aux sources externes, OpenAI supprime le vecteur d'attaque le plus courant. Les attaques par prompt injection ont fortement progressé depuis la démocratisation des agents IA capables de naviguer sur le web et d'exécuter des actions autonomes, poussant plusieurs chercheurs en sécurité à alerter les éditeurs. OpenAI s'inscrit ainsi dans une tendance plus large du secteur, après que Microsoft et Anthropic ont également renforcé les garde-fous de leurs propres assistants. Le Lockdown Mode représente un compromis assumé entre sécurité et fonctionnalité, laissant à l'utilisateur le choix du niveau de protection selon son contexte d'usage.

UELes professionnels français (avocats, journalistes, consultants) manipulant des données sensibles via ChatGPT peuvent désormais activer ce mode pour réduire leur exposition aux attaques par injection de requêtes.

SécuritéActu
1 source
Le nouveau mode Lockdown de ChatGPT permet de désactiver l'accès web pour protéger contre les injections de prompt
2The Decoder 

Le nouveau mode Lockdown de ChatGPT permet de désactiver l'accès web pour protéger contre les injections de prompt

OpenAI a introduit un nouveau mode de sécurité pour ChatGPT baptisé "Lockdown Mode", ou mode verrouillé. Une fois activé, ce paramètre désactive automatiquement l'accès au web, la fonctionnalité Deep Research ainsi que l'Agent Mode, les trois vecteurs principaux par lesquels des données sensibles peuvent quitter le périmètre d'une session de travail. La mesure cible directement les attaques par injection de prompt, une technique par laquelle un contenu malveillant glissé dans un document ou une page web manipule le modèle pour qu'il exfiltre des informations confidentielles vers un tiers. La protection n'est toutefois pas totale. OpenAI reconnaît que le Lockdown Mode ne bloque pas l'attaque en amont, mais uniquement sa dernière étape, celle où les données quittent effectivement le système. En d'autres termes, un modèle peut toujours être manipulé par une injection de prompt, mais sans accès au web ni aux agents autonomes, il ne peut pas transmettre le résultat à l'extérieur. Pour les entreprises qui traitent des données réglementées, des contrats sensibles ou des informations personnelles, ce verrou représente néanmoins une couche de défense pratique et activable sans compétences techniques particulières. L'injection de prompt reste aujourd'hui l'un des problèmes non résolus les plus sérieux de l'IA générative, en particulier à mesure que les assistants gagnent en autonomie et en capacités d'action sur le web. L'émergence de modes "agents" chez OpenAI, Anthropic et Google accroît mécaniquement la surface d'attaque. Le Lockdown Mode est une réponse pragmatique plutôt qu'une solution de fond, et sa disponibilité signale qu'OpenAI commence à prendre au sérieux les usages professionnels à risque.

UELes entreprises européennes traitant des données personnelles sous RGPD peuvent activer ce mode pour réduire le risque d'exfiltration de données sensibles via des injections de prompt dans ChatGPT.

💬 C'est une bonne nouvelle pour les entreprises, mais faut pas se raconter des histoires : ça ne bloque pas l'injection elle-même, juste la fuite. Le modèle peut quand même se faire manipuler, il ne peut juste plus rien envoyer vers l'extérieur. Utile, pas suffisant.

SécuritéOpinion
1 source
ChatGPT ne proposera pas de mode adulte pour ne pas rebuter ses investisseurs
3Ars Technica AI 

ChatGPT ne proposera pas de mode adulte pour ne pas rebuter ses investisseurs

OpenAI a mis en pause indéfiniment son projet de mode érotique pour ChatGPT, selon une information du Financial Times publiée cette semaine. L'entreprise, qui avait envisagé d'autoriser des conversations à caractère sexuel explicite sur sa plateforme, a décidé de "se recentrer" sur ses "produits principaux". Des sources internes confirment que le plan a été suspendu après une vague de critiques, aussi bien externe qu'interne, et que l'option d'abandonner entièrement ce projet "adult mode" a sérieusement été envisagée. Les inquiétudes soulevées en interne sont particulièrement révélatrices. Des conseillers d'OpenAI ont averti que cette fonctionnalité risquait d'encourager des attachements émotionnels malsains chez les utilisateurs, avec des conséquences potentiellement graves sur leur santé mentale. L'un d'eux a décrit le risque de voir ChatGPT devenir une sorte de "coach sexy au bord du suicide" — une formulation qui illustre l'ampleur des préoccupations. En parallèle, des investisseurs auraient mal reçu la perspective d'une telle évolution, y voyant un risque réputationnel pour la valorisation de l'entreprise, estimée à 300 milliards de dollars. Ce recul intervient dans un contexte où OpenAI multiplie les tentatives d'élargir l'usage de ChatGPT, notamment via des fonctionnalités de compagnonnage émotionnel déjà controversées. Plusieurs concurrents, comme Character.AI ou Replika, proposent déjà des expériences plus intimes, et la question de la régulation de ces usages reste entière. L'épisode révèle les tensions croissantes entre ambitions commerciales et responsabilité éthique au sein de l'entreprise.

UELa question de la régulation des IA à vocation émotionnelle ou intime reste ouverte en Europe, l'AI Act devant encore clarifier les obligations des plateformes proposant ce type d'usage à risque psychologique.

SécuritéActu
1 source
Anthropic lance un nouveau modèle d'IA pour la cybersécurité
4The Verge AI 

Anthropic lance un nouveau modèle d'IA pour la cybersécurité

Anthropic lance un nouveau modèle d'intelligence artificielle dédié à la cybersécurité, dans le cadre d'un partenariat baptisé Project Glasswing réunissant Nvidia, Google, Amazon Web Services, Apple, Microsoft et d'autres grandes entreprises technologiques. Ce projet propose aux partenaires de lancement un accès à Claude Mythos Preview, un modèle généraliste inédit qu'Anthropic ne prévoit pas de rendre public en raison de préoccupations liées à la sécurité. L'objectif affiché est de permettre aux grandes organisations, et potentiellement aux gouvernements, de détecter automatiquement des vulnérabilités dans leurs systèmes avec une intervention humaine quasi nulle. L'enjeu est considérable pour les équipes de sécurité informatique qui font face à un volume croissant de menaces et manquent souvent de ressources pour les auditer manuellement. En automatisant la détection de failles, Claude Mythos Preview pourrait réduire drastiquement le temps de réponse face aux cyberattaques et permettre aux entreprises d'identifier des vulnérabilités avant que des acteurs malveillants ne les exploitent. Newton Cheng, responsable cyber au sein de l'équipe red team d'Anthropic, indique que le modèle vise à donner aux équipes de sécurité un avantage structurel sur leurs adversaires. Cette initiative s'inscrit dans une tendance de fond où les grands laboratoires d'IA cherchent à positionner leurs modèles sur des secteurs critiques à haute valeur ajoutée. Anthropic, qui se distingue par son approche axée sur la sécurité des systèmes d'IA, choisit ici de restreindre l'accès à ce modèle plutôt que de le diffuser largement, une décision rare qui soulève des questions sur la gouvernance des outils d'IA offensifs et défensifs dans un contexte géopolitique tendu.

UELes organisations européennes et gouvernements de l'UE pourraient accéder à cet outil de détection automatique de vulnérabilités via le programme partenaires, renforçant leur posture de cybersécurité face aux menaces croissantes.

SécuritéActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic