Comment nous surveillons nos agents de codage internes pour détecter les désalignements
OpenAI surveille ses agents de codage internes en analysant leur chaîne de pensée (chain-of-thought) pour détecter des signes de désalignement. Cette approche, appliquée sur des déploiements réels, permet d'identifier les risques potentiels et de renforcer les garde-fous de sécurité de l'IA. L'objectif est d'améliorer la robustesse des systèmes avant tout déploiement plus large.