Aller au contenu principal
Détection et réduction des manœuvres trompeuses dans les modèles d'IA
ÉthiqueOpenAI Blog39sem· 1 min de lecture

Détection et réduction des manœuvres trompeuses dans les modèles d'IA

Source originale ↗·

Apollo Research et OpenAI ont développé des évaluations pour détecter l'alignement caché (« scheming ») et ont identifié des comportements cohérents avec ce phénomène chez des modèles avancés lors de tests contrôlés. Ils ont également partagé des exemples concrets et des tests de stress d'une méthode précoce visant à réduire le scheming.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Pourquoi ne pas laisser la sélection du modèle par défaut dans Copilot, Gemini et autres outils IA
1The Decoder 

Pourquoi ne pas laisser la sélection du modèle par défaut dans Copilot, Gemini et autres outils IA

Le mathématicien Adam Kucharski a mis en évidence une faille frappante dans Microsoft Copilot : lorsqu'il a soumis à l'outil des jeux de données strictement identiques en changeant uniquement les étiquettes de pays, Copilot a produit des analyses détaillées faisant état de différences nationales qui n'existaient tout simplement pas. Au lieu de détecter l'absence de variation dans les chiffres, le modèle par défaut a généré des stéréotypes circonstanciés, présentant des résultats fabriqués comme s'ils étaient fondés sur les données réelles. Cette expérience, reproductible avec d'autres plateformes comme Gemini, révèle un angle mort systématique dans les outils d'IA généraliste utilisés au quotidien. Le problème n'est pas anodin : des professionnels s'appuient sur ces outils pour analyser des données économiques, sociales ou médicales, et un modèle qui confond ses propres biais culturels avec une analyse factuelle peut conduire à des décisions erronées sans que l'utilisateur s'en aperçoive. Les modèles dits "de raisonnement" (o3 d'OpenAI, les modes thinking de Gemini, etc.) parviennent à détecter ce type de piège, mais uniquement si l'utilisateur choisit activement de les activer, ce que la grande majorité ne fait pas. Ce constat pointe vers un problème de conception plus large : les interfaces de Copilot, Gemini ou ChatGPT proposent un modèle par défaut qui n'est pas nécessairement adapté à toutes les tâches, sans guider l'utilisateur vers le bon outil. Alors que Microsoft et Google intègrent l'IA dans des environnements professionnels sensibles, la question de la sélection automatique ou assistée du modèle selon le contexte d'usage devient un enjeu de fiabilité critique, que les éditeurs n'ont pas encore pleinement résolu.

UELes professionnels européens utilisant Copilot ou Gemini pour analyser des données économiques, sociales ou médicales s'exposent à des décisions fondées sur des analyses fabriquées, un risque de fiabilité directement dans le viseur de l'AI Act pour les systèmes à usage professionnel sensible.

💬 Le test d'Adam Kucharski est glaçant: données identiques, étiquettes de pays changées, et Copilot invente des différences nationales bien argumentées. Le modèle ne ment pas au sens classique, il comble les vides avec ses biais culturels, et ça passe parce que c'est fluide et ça semble fondé. Utiliser ces outils sur des données pro sans activer les modes raisonnement, c'est signer un rapport avec un outil qui hallucine en silence.

ÉthiqueOpinion
1 source
Le nouveau jeu de données d'entraînement d'OpenAI apprend aux modèles d'IA quelles instructions suivre
2The Decoder 

Le nouveau jeu de données d'entraînement d'OpenAI apprend aux modèles d'IA quelles instructions suivre

OpenAI a publié IH-Challenge, un dataset d'entraînement conçu pour apprendre aux modèles d'IA à prioriser de manière fiable les instructions de sources de confiance plutôt que les sources non fiables. Les premiers résultats montrent des améliorations significatives en matière de sécurité et de défense contre les attaques par injection de prompt.

ÉthiqueActu
1 source
Google n'a pas modifié les fonctions IA locales de Chrome, elles restent aussi confuses qu'avant
3Ars Technica AI 

Google n'a pas modifié les fonctions IA locales de Chrome, elles restent aussi confuses qu'avant

Une confusion a récemment agité les utilisateurs de Chrome sur ordinateur : certains ont constaté que leur navigateur téléchargeait discrètement un modèle d'intelligence artificielle de 4 Go, le Gemini Nano de Google. Sur les réseaux sociaux, la découverte a été interprétée comme un déploiement massif et soudain d'IA sur toutes les installations Chrome. En réalité, ce comportement n'a rien de nouveau. Google avait annoncé dès 2024 l'intégration de capacités d'IA locale dans Chrome, destinées à alimenter des fonctionnalités comme "Help Me Write" (aide à la rédaction), l'organisation automatique des onglets et la détection des tentatives d'arnaque. Le modèle est téléchargé en arrière-plan depuis plusieurs années déjà, ce n'est pas une nouveauté technique, mais une nouveauté dans la perception des utilisateurs. Ce que cet épisode révèle avant tout, c'est l'incapacité chronique de Google à communiquer clairement sur ses déploiements d'IA. L'entreprise intègre des modèles lourds dans ses produits sans informer explicitement les utilisateurs, ce qui génère régulièrement des incompréhensions et une méfiance justifiée. Pour les 4 milliards d'utilisateurs de Chrome dans le monde, la question de ce qui tourne en local sur leur machine, et pourquoi, est pourtant loin d'être anodine, notamment sur des appareils aux ressources limitées. Ce flou s'inscrit dans une tendance plus large chez Google, qui multiplie les annonces d'IA sans toujours en expliquer les implications concrètes. Chrome embarque désormais bien d'autres fonctionnalités alimentées par Gemini : un chatbot en mode écran partagé, ainsi qu'une capacité à automatiser la navigation web. Le traitement local via Gemini Nano vise à préserver la confidentialité des données en évitant les allers-retours vers les serveurs cloud, un argument de poids face aux critiques sur la vie privée. Reste que sans transparence sur ce qui est installé, quand et pourquoi, la confiance des utilisateurs risque de s'éroder plus vite que les bénéfices de ces fonctionnalités ne s'imposent.

UELes centaines de millions d'utilisateurs européens de Chrome sont concernés par ce manque de transparence de Google sur le déploiement silencieux de Gemini Nano, une pratique potentiellement en tension avec les obligations d'information du RGPD.

ÉthiqueOutil
1 source
Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées
4The Decoder 

Microsoft a entraîné ses modèles MAI sur des données web sans licence, malgré sa promesse de données propres et licenciées

Microsoft a entraîné ses nouveaux modèles MAI en partie sur des données web non licenciées, dont Common Crawl, un vaste corpus de pages aspirées sans accord explicite des éditeurs. Cette pratique contredit directement le discours commercial de l'entreprise, qui promettait à ses clients professionnels l'utilisation exclusive de données "de qualité enterprise, propres et commercialement licenciées", une formulation censée distinguer Microsoft de tous les autres laboratoires d'IA. Pour les entreprises qui ont choisi les modèles MAI sur la foi de garanties juridiques solides, la révélation fragilise la promesse centrale de Microsoft. La question de la propriété intellectuelle dans l'entraînement des modèles de langage est au coeur de nombreuses procédures judiciaires en cours aux États-Unis et en Europe. Les clients entreprise paient précisément pour éviter l'exposition légale qu'implique l'utilisation de données sans accord, et si cette assurance ne tient pas, la différenciation commerciale s'effondre. Comme OpenAI, Google ou Meta avant lui, Microsoft s'appuie en réalité sur la doctrine américaine du "fair use" pour justifier l'aspiration de contenus web publics, tout en reportant la charge sur les propriétaires de sites qui souhaitent bloquer ses robots d'exploration. L'entreprise avait pourtant explicitement choisi de se démarquer de cette pratique dans son marketing. Cette contradiction entre promesses commerciales et réalité technique risque d'alimenter une méfiance croissante, alors que régulateurs européens et américains scrutent de plus en plus les méthodes d'entraînement des grands modèles de langage.

UELes régulateurs européens qui examinent les pratiques d'entraînement des LLMs pourraient s'appuyer sur cette contradiction entre les promesses commerciales de Microsoft et ses pratiques réelles pour durcir les exigences de transparence sur l'origine des données dans le cadre de l'AI Act.

💬 Le problème, c'est pas Common Crawl, c'est le mensonge commercial. Microsoft avait explicitement promis à ses clients enterprise des données "propres et licenciées", exactement pour se distinguer d'OpenAI et Google. Si tu avais choisi MAI pour cette garantie juridique, t'as un vrai sujet aujourd'hui.

ÉthiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic