Aller au contenu principal
Évaluation de la surveillance de la chaîne de pensée
RechercheOpenAI Blog26sem· 1 min de lecture

Évaluation de la surveillance de la chaîne de pensée

Source originale ↗·

OpenAI a introduit un nouveau cadre et un ensemble d'évaluations pour la monitorabilité de la chaîne de pensée, couvrant 13 évaluations sur 24 environnements. Ses résultats montrent que surveiller le raisonnement interne d'un modèle est bien plus efficace que de surveiller uniquement les sorties, ouvrant ainsi la voie à un contrôle à grande échelle des systèmes d'IA devenant plus capables.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les modèles de raisonnement luttent pour contrôler leurs chaînes de pensée, et c'est bien ainsi
1OpenAI Blog 

Les modèles de raisonnement luttent pour contrôler leurs chaînes de pensée, et c'est bien ainsi

OpenAI a introduit CoT-Control et a constaté que les modèles de raisonnement ont du mal à contrôler leurs chaînes de pensée, ce qui souligne l'importance de la surveillabilité comme mesure de sécurité en IA. Cette difficulté à réguler leurs processus de raisonnement renforce l'idée que la capacité à surveiller les pensées des modèles est cruciale pour assurer leur sécurité.

RechercheOpinion
1 source
Entraînés sur des tokens, calibrés sur des concepts : l'émergence de la calibration sémantique dans les LLMs
2Apple Machine Learning 

Entraînés sur des tokens, calibrés sur des concepts : l'émergence de la calibration sémantique dans les LLMs

Les grands modèles de langage (LLM) sont capables d'évaluer leur propre confiance au niveau sémantique, pas seulement au niveau des tokens — et ce sans avoir été explicitement entraînés pour cela. Une étude montre que les LLM de base sont remarquablement bien calibrés pour estimer leur certitude sur le sens réel de leurs réponses dans des tâches de questions-réponses en domaine ouvert. Les chercheurs proposent un mécanisme théorique expliquant pourquoi cette calibration sémantique émerge naturellement de l'entraînement sur des tokens.

RecherchePaper
1 source
De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux
3Apple Machine Learning 

De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux

Des chercheurs ont publié SFI-Bench (Spatial-Functional Intelligence Benchmark), un nouveau cadre d'évaluation conçu pour tester une forme plus avancée d'intelligence spatiale chez les grands modèles de langage multimodaux. Le benchmark comprend plus de 1 700 questions tirées de vidéos égocentrées d'intérieurs domestiques filmées sous différents angles, couvrant des environnements variés du quotidien. Contrairement aux benchmarks existants comme VSI-Bench, SFI-Bench ne se contente pas de demander aux modèles où se trouvent les objets, mais cherche à évaluer s'ils comprennent à quoi ces objets servent dans leur contexte réel. Cette distinction est fondamentale pour le développement d'agents IA capables d'agir dans le monde physique. Un robot ou un assistant visuel qui sait qu'une tasse est posée sur la table, mais ne comprend pas qu'elle sert à boire, sera incapable de planifier des actions cohérentes dans un environnement domestique. SFI-Bench cible précisément ce niveau cognitif supérieur, appelé intelligence fonctionnelle, qui conditionne l'autonomie réelle des agents multimodaux dans des tâches de robotique domestique, d'assistance aux personnes ou de navigation intelligente. La course aux benchmarks spatiaux s'est accélérée ces deux dernières années, à mesure que les modèles comme GPT-4o, Gemini et les LLM open-source progressaient en perception visuelle. Les évaluations géométriques de base ne suffisent plus à différencier les systèmes les plus capables. SFI-Bench s'inscrit dans un effort plus large de la communauté pour définir des critères d'évaluation alignés sur des usages concrets, et pourrait devenir une référence incontournable pour mesurer la maturité des agents embarqués ou des assistants visuels de prochaine génération.

RecherchePaper
1 source
BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome
4arXiv cs.RO 

BEVal : étude d'évaluation comparative des modèles de segmentation BEV pour la conduite autonome

Une équipe de chercheurs a publié BEVal, une étude comparative sur les modèles de segmentation en vue aérienne (Bird's Eye View, ou BEV) appliqués à la conduite autonome. Contrairement aux travaux habituels, qui entraînent et évaluent les modèles sur un seul jeu de données, généralement nuScenes, les auteurs ont testé les performances de plusieurs modèles de l'état de l'art sur des combinaisons croisées de jeux de données : entraînement sur l'un, évaluation sur un autre. L'étude examine également l'influence du type de capteur utilisé, caméras ou LiDAR, sur la capacité des modèles à s'adapter à des environnements variés et à des catégories sémantiques différentes. Le code de l'étude est disponible en open source sur GitHub. Les résultats mettent en évidence un problème structurel dans la recherche actuelle : les modèles de segmentation BEV, très performants sur leurs données d'entraînement, chutent significativement lorsqu'ils sont confrontés à un nouvel environnement ou à une configuration de capteurs différente, un phénomène connu sous le nom de décalage de domaine. Pour les constructeurs automobiles et les entreprises de conduite autonome, cela signifie que des modèles optimisés en laboratoire peuvent se révéler peu fiables dans des conditions réelles variées. Les expériences d'entraînement sur plusieurs jeux de données menées en parallèle ont toutefois montré des améliorations notables des performances par rapport à l'entraînement sur un seul jeu, ouvrant la voie à des approches plus robustes. La segmentation BEV est une technologie clé pour la conduite autonome : elle permet aux véhicules de construire une représentation plane de leur environnement immédiat à partir de capteurs embarqués, facilitant la détection de routes, véhicules, piétons et obstacles. Le standard quasi universel de la recherche repose aujourd'hui sur nuScenes, un jeu de données développé par Motional, ce qui crée un biais de spécialisation problématique à l'échelle du secteur entier. En exposant cette fragilité et en proposant une méthodologie d'évaluation croisée rigoureuse, BEVal pousse la communauté scientifique vers des pratiques plus exigeantes, une condition indispensable avant tout déploiement massif de véhicules autonomes sur des routes réelles.

UELes constructeurs automobiles européens (Stellantis, Volkswagen, Renault) et les acteurs de la conduite autonome opérant en Europe sont concernés par cette fragilité structurelle des modèles BEV, qui remet en question la fiabilité des systèmes avant tout déploiement sur routes européennes aux conditions variées.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic