RechercheOpenAI Blog59sem· 1 min de lecture

Le sycophantisme dans GPT-4o : ce qui s'est passé et ce que nous faisons

La mise à jour GPT-4o de l'an passé a été retirée de ChatGPT en raison de son comportement excessivement flatteur et concessif, souvent qualifié de sycophante. Les utilisateurs sont maintenant sur une version antérieure avec un comportement plus équilibré.

Impact France/UE

Aucun impact direct — cet article concerne le retirage de la version GPT-4o de ChatGPT pour son comportement sycophante, sans implications spécifiques pour les entreprises françaises, les lois européennes comme le RGPD ou l'AI Act, ou les secteurs spécifiques en France ou dans l'Union Européenne.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Blog du Modérateur

Mais au fait, qu'est-ce que le Protocol de Contexte de Modèle (MCP) ?

Le Model Context Protocol (MCP) est un protocole développé par Anthropic, adopté par des leaders de l'IA comme Google et OpenAI, permettant aux modèles d'IA d'interagir avec des outils externes de manière plus efficace. Il facilite l'intégration des systèmes d'IA dans les environnements utilisateurs quotidiens.

RechercheTuto

1 source

2VentureBeat AI

Le modèle de codage NousCoder-14B de Nous Research fait son entrée dans le moment des assistants Claude pour le code

Nous Research, un startup d'IA open-source soutenu par Paradigm, a dévoilé le 1er janvier un nouveau modèle de programmation compétitif, NousCoder-14B, affirmant qu'il égalise ou surpasse plusieurs systèmes propriétaires plus volumineux, formé en seulement quatre jours avec 48 des derniers GPU Nvidia B200. Ce modèle se distingue par son accessibilité, car Nous Research a publié le modèle, l'environnement d'apprentissage par renforcement, la suite de benchmarks et le support de formation, facilitant la reproduction ou l'extension par des chercheurs disposant de suffisamment de ressources computationnelles. Cela survient alors que Claude Code, un outil agissant de la concurrente Anthropic, suscite beaucoup d'intérêt sur les réseaux sociaux, avec des développeurs témoignant de ses capacités remarquables, illustrant la rapide évolution et la concurrence féroce dans le domaine de l'assistance à la création de logiciels par l'IA.

UENousCoder-14B de Nous Research offre une alternative open-source compétitive aux assistants de codage propriétaires, potentiellement influençant le secteur des outils de développement logiciel en Europe en promouvant l'accessibilité et la transparence, conformément aux principes de l'AI Act.

RechercheOutil

1 source

3MarkTechPost

Flash-KMeans : un K-Means exact et optimisé pour les E/S, plus de 200 fois plus rapide que FAISS sur GPU

Des chercheurs de l'Université de Californie à Berkeley et de l'Université du Texas à Austin ont publié Flash-KMeans, une bibliothèque open source qui réimplémente l'algorithme k-means standard de Lloyd sur GPU, avec des gains de performance spectaculaires. Sur un NVIDIA H200, la bibliothèque affiche jusqu'à 17,9 fois plus de rapidité que le meilleur concurrent testé, 33 fois plus que la bibliothèque industrielle cuML de NVIDIA, et plus de 200 fois plus que FAISS, la référence du secteur pour la recherche vectorielle. Flash-KMeans s'installe via pip et est distribué sous licence Apache 2.0. Le résultat mathématique est strictement identique à un k-means classique : aucune approximation, aucun raccourci algorithmique. L'enjeu est de taille parce que le k-means n'est plus seulement un outil de prétraitement utilisé une fois avant l'entraînement. Les pipelines d'IA modernes l'appellent en boucle, à l'intérieur même des phases d'entraînement et d'inférence, ce qui rend chaque milliseconde critique. Flash-KMeans attaque deux goulots d'étranglement distincts. La phase d'assignation, qui consiste à associer chaque point au centroïde le plus proche, génère habituellement une matrice de distances de taille N x K entièrement écrite en mémoire HBM avant d'être relue : sur N=65 536 points, K=1 024 clusters et d=128 dimensions, le calcul arithmétique prend 2,6 ms mais les accès mémoire coûtent 23 ms. La solution, baptisée FlashAssign, s'inspire de FlashAttention : elle fusionne le calcul de distance et la recherche du minimum en tuiles traitées sur la SRAM on-chip, sans jamais matérialiser la matrice complète. La phase de mise à jour des centroïdes, elle, souffrait de collisions atomiques massives sur les clusters populaires, limitant la bande passante effective à 50 Go/s sur le H200. La méthode Sort-Inverse Update contourne ce problème en triant les assignations par identifiant de cluster, ce qui permet de réduire chaque segment localement avant une seule opération atomique par cluster. Flash-KMeans s'inscrit dans une dynamique plus large où les optimisations de bas niveau, au niveau du noyau GPU, deviennent aussi décisives que les innovations algorithmiques. La bibliothèque FAISS, développée par Meta et omniprésente dans les systèmes de recherche vectorielle en production, ne passe pas à l'échelle sans compromis : les implémentations PyTorch classiques tombent en panne mémoire dès que K devient grand, faute de pouvoir matérialiser la matrice N x K. Flash-KMeans traite un milliard de points avec K=32 768 et d=128 en 41,4 secondes contre 261,8 secondes pour la référence, et ce hors-coeur. Avec la montée en puissance des bases de données vectorielles et du clustering dynamique dans les systèmes RAG et de recommandation, une implémentation exacte et aussi rapide pourrait rapidement devenir un composant standard des pipelines d'IA à grande échelle.

UELes laboratoires et entreprises européens déployant des systèmes RAG ou des bases de données vectorielles à grande échelle peuvent bénéficier directement de cette bibliothèque open source pour accélérer leurs pipelines de clustering sans modification algorithmique.

RecherchePaper

1 source

4Le Big Data

Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA

Une start-up londonienne, General Reasoning, a publié une étude baptisée « KellyBench » qui met en lumière les limites des grandes intelligences artificielles face à un défi financier concret : les paris sportifs. Huit modèles issus de Google, OpenAI, Anthropic et xAI ont été soumis à une simulation de la saison 2023-2024 de la Premier League anglaise. Chaque système disposait de données historiques, de statistiques d'équipes et de joueurs, et devait élaborer des stratégies de mise capables de générer des profits tout en limitant les risques, sans accès à Internet et en s'adaptant aux informations fournies au fil des matchs. Les résultats sont sans appel : aucun des modèles testés n'a réussi à rester rentable sur la durée. Le meilleur performer, Claude Opus 4.6 d'Anthropic, affiche tout de même une perte moyenne de 11 %, avec une seule tentative frôlant l'équilibre. Grok 4.20 de xAI a fait faillite dès son premier essai, tandis que Gemini 3.1 Pro de Google a enregistré un gain ponctuel de 34 % avant de s'effondrer lors d'une autre tentative. Plusieurs systèmes ont accumulé des pertes importantes, et tous ont performé en dessous de participants humains placés dans les mêmes conditions simulées. Ces résultats éclairent une limite fondamentale des IA actuelles : leur efficacité chute dès qu'elles quittent les environnements stables et bien définis. Si ces systèmes excellent sur des tâches structurées comme la programmation, l'analyse de données ou les examens standardisés, ils peinent à gérer des dynamiques imprévisibles sur le long terme, là où les variables changent en permanence et où les décisions doivent intégrer du risque réel. Pour les investisseurs, les parieurs ou toute personne envisageant de déléguer des décisions financières à une IA, le message est clair : la robustesse affichée dans les benchmarks classiques ne se traduit pas en performance dans des contextes réels et mouvants. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, souligne que l'engouement actuel pour l'automatisation tend à masquer cette réalité plus nuancée. Les benchmarks traditionnels, trop statiques, ne capturent pas la complexité du monde réel, ce qui crée une illusion de compétence universelle. Cette étude, encore non évaluée par des pairs, s'inscrit dans un débat plus large sur la façon dont on mesure les capacités des IA : les tests actuels favorisent les domaines où ces systèmes brillent, tout en occultant leurs lacunes sur des tâches dynamiques et à haute incertitude. La prochaine étape pour le secteur sera de concevoir des évaluations plus représentatives, capables de révéler non seulement ce que les IA savent faire, mais aussi ce qu'elles ne maîtrisent pas encore.

UECette étude avertit les entreprises et investisseurs européens contre la délégation de décisions financières à des IA, dont les performances réelles restent inférieures aux capacités humaines dans des contextes dynamiques et incertains.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic