Les LLM sont pris dans une routine de pensée uniforme : cette startup veut les en sortir
Voici l'article traduit et résumé :
Le studio australien Springboards a développé un modèle de langage baptisé Flint, conçu pour rompre avec l'uniformité des réponses que produisent les grands chatbots comme ChatGPT, Claude ou Gemini face à des questions ouvertes. Pip Bingemann, cofondateur et PDG de Springboards, illustre le problème avec un test simple : demander à un modèle un nombre aléatoire entre 1 et 10 renvoie presque systématiquement 7, puis 3 ou 4, puis 8 ou 9 lors des tentatives suivantes. Lors d'une démonstration, ChatGPT et Claude ont tous deux répondu 7, tandis que Flint donnait un nombre décimal comme 3,7916. Même schéma avec un type de voiture : ChatGPT et Claude citent généralement Toyota ou Honda, quand Flint propose un Ford F-150. Sur un slogan publicitaire pour les chaussures New Balance, Claude et ChatGPT ont tous deux produit "Run your way", contre "Built to last, run to win" pour Flint. Selon Bingemann, "la plupart des modèles de langage luttent contre les hallucinations, nous les accueillons à bras ouverts".
Ce phénomène de conformisme, ou "groupthink", commence à attirer l'attention de la recherche. En novembre, une équipe a publié une étude intitulée "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)", récompensée du prix du meilleur article à la conférence NeurIPS. En interrogeant 25 modèles différents, dont ceux des principales entreprises américaines ainsi que des modèles open source chinois et autres, à 50 reprises chacun sur une métaphore du temps, les chercheurs ont obtenu 1 250 réponses dont la grande majorité se résumait à des variations de "le temps est une rivière" ou "le temps est un tisserand". Kieran Browne, cofondateur et directeur technique de Springboards, explique que cette répétition est partout dès qu'on y prête attention, alors que l'interface conversationnelle donne l'illusion d'un échange personnalisé. Il cite l'exemple d'un nom de groupe de musique : la plupart des modèles proposent des mots comme "glass", "neon", "velvet" ou "static". Un test avec ChatGPT a ainsi produit une liste de 56 suggestions dominées par "Glass Harbor", "Static Empire", "Neon Hearts" et "Velvet Echo", tandis que Gemini livrait 15 propositions dont "Static Horizon".
Cette homogénéité s'expliquerait par le fait que la plupart des modèles actuels sont entraînés de façon similaire, sur des données similaires, pour accomplir des tâches similaires. Si cette convergence ne pose pas de problème pour du code ou de la recherche factuelle, elle devient un frein dès qu'il s'agit de brainstorming ou de planification créative, comme organiser un voyage. En misant sur la diversité plutôt que sur la suppression des hallucinations, Springboards cherche à ouvrir un nouveau créneau face aux géants du secteur, misant sur le constat que l'information "perdue" par les modèles dominants reste accessible, mais simplement biaisée par leurs choix d'entraînement.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




