LLMsMIT Technology Review4h· 2 min de lecture

Le sens d'un titre : une startup propose une solution au problème de la pensée unique de l'IA

La startup australienne Springboards a mis au point un modèle de langage baptisé Flint, conçu pour sortir les intelligences artificielles conversationnelles de leur tendance à toujours produire les mêmes réponses. Le constat de départ est simple à vérifier: demandez à Claude, ChatGPT ou Gemini de citer un nombre au hasard entre 1 et 10, et la réponse sera presque systématiquement 7. Ce phénomène, documenté par Will Douglas Heaven dans la newsletter The Download du MIT Technology Review, illustre un problème plus large de "pensée de groupe" chez les grands modèles de langage actuels, qui convergent vers des réponses prévisibles et peu créatives dès qu'on leur pose une question ouverte. Flint a été entraîné spécifiquement pour élargir l'éventail de ses réponses face à des questions du type "où partir en vacances en Europe", en évitant de se replier systématiquement sur les suggestions les plus consensuelles ou les plus statistiquement fréquentes dans ses données d'entraînement.

Cette uniformité des réponses n'est pas gênante pour des tâches comme la programmation ou la recherche factuelle, où la précision et la cohérence priment. Elle devient en revanche un vrai handicap pour tout usage créatif: remue-méninges, planification de voyage, génération d'idées ou exploration d'options originales. Un assistant qui reproduit toujours les mêmes schémas de réponse limite de fait sa valeur pour les utilisateurs qui cherchent justement à sortir des sentiers battus. En misant sur la diversité des réponses plutôt que sur leur seule exactitude, Springboards vise un usage encore peu exploité commercialement: celui des chatbots comme outils d'idéation plutôt que de simple recherche d'information, un segment où la personnalisation et la surprise comptent autant que la fiabilité.

Ce travail s'inscrit dans un paysage de l'IA générative en pleine effervescence, où les grands acteurs américains et chinois se disputent la suprématie technologique et financière. Le même jour, la newsletter rapportait qu'OpenAI aurait proposé de céder une participation de 5% à l'administration Trump, un geste qui pourrait s'étendre à d'autres géants comme Anthropic, Google ou Meta selon Bloomberg. Parallèlement, le modèle chinois GLM-5.2 gagne du terrain auprès de clients occidentaux grâce à des coûts réduits, tandis que Meta explore de nouvelles sources de revenus en louant sa puissance de calcul et ses modèles hébergés. Dans ce contexte de concentration autour de quelques mastodontes, l'approche de Springboards rappelle qu'il existe encore de la place pour des acteurs plus modestes cherchant à résoudre des limites techniques précises, comme ce manque criant de diversité dans les réponses des IA conversationnelles les plus utilisées au monde.

Dans nos dossiers

Meta IA OpenAI Anthropic Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MIT Technology Review

Les LLM sont pris dans une routine de pensée uniforme : cette startup veut les en sortir

Voici l'article traduit et résumé : Le studio australien Springboards a développé un modèle de langage baptisé Flint, conçu pour rompre avec l'uniformité des réponses que produisent les grands chatbots comme ChatGPT, Claude ou Gemini face à des questions ouvertes. Pip Bingemann, cofondateur et PDG de Springboards, illustre le problème avec un test simple : demander à un modèle un nombre aléatoire entre 1 et 10 renvoie presque systématiquement 7, puis 3 ou 4, puis 8 ou 9 lors des tentatives suivantes. Lors d'une démonstration, ChatGPT et Claude ont tous deux répondu 7, tandis que Flint donnait un nombre décimal comme 3,7916. Même schéma avec un type de voiture : ChatGPT et Claude citent généralement Toyota ou Honda, quand Flint propose un Ford F-150. Sur un slogan publicitaire pour les chaussures New Balance, Claude et ChatGPT ont tous deux produit "Run your way", contre "Built to last, run to win" pour Flint. Selon Bingemann, "la plupart des modèles de langage luttent contre les hallucinations, nous les accueillons à bras ouverts". Ce phénomène de conformisme, ou "groupthink", commence à attirer l'attention de la recherche. En novembre, une équipe a publié une étude intitulée "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)", récompensée du prix du meilleur article à la conférence NeurIPS. En interrogeant 25 modèles différents, dont ceux des principales entreprises américaines ainsi que des modèles open source chinois et autres, à 50 reprises chacun sur une métaphore du temps, les chercheurs ont obtenu 1 250 réponses dont la grande majorité se résumait à des variations de "le temps est une rivière" ou "le temps est un tisserand". Kieran Browne, cofondateur et directeur technique de Springboards, explique que cette répétition est partout dès qu'on y prête attention, alors que l'interface conversationnelle donne l'illusion d'un échange personnalisé. Il cite l'exemple d'un nom de groupe de musique : la plupart des modèles proposent des mots comme "glass", "neon", "velvet" ou "static". Un test avec ChatGPT a ainsi produit une liste de 56 suggestions dominées par "Glass Harbor", "Static Empire", "Neon Hearts" et "Velvet Echo", tandis que Gemini livrait 15 propositions dont "Static Horizon". Cette homogénéité s'expliquerait par le fait que la plupart des modèles actuels sont entraînés de façon similaire, sur des données similaires, pour accomplir des tâches similaires. Si cette convergence ne pose pas de problème pour du code ou de la recherche factuelle, elle devient un frein dès qu'il s'agit de brainstorming ou de planification créative, comme organiser un voyage. En misant sur la diversité plutôt que sur la suppression des hallucinations, Springboards cherche à ouvrir un nouveau créneau face aux géants du secteur, misant sur le constat que l'information "perdue" par les modèles dominants reste accessible, mais simplement biaisée par leurs choix d'entraînement.

💬 Ça confirme un truc que je sens depuis des mois sans savoir le nommer : les grands modèles ne sont pas juste biaisés, ils sont clonés les uns sur les autres. La preuve est presque comique : demande un nombre au hasard, une marque de voiture, un slogan, et ChatGPT comme Claude sortent quasi toujours la même réponse, ce qui montre que leur créativité affichée n'est qu'une moyenne statistique déguisée en réponse originale. Le pari de Flint est malin (transformer l'hallucination en feature plutôt qu'en bug), mais je doute que ça suffise face à des géants qui, eux, ont la distribution.

LLMsPaper

1 source

2Frandroid

Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Google a présenté TurboQuant, une méthode de quantification avancée capable de réduire drastiquement l'empreinte mémoire des grands modèles de langage, sans dévoiler le code source. Face à cette rétention, un développeur indépendant a décidé d'agir seul : en sept jours seulement, en s'appuyant sur l'assistant IA Claude d'Anthropic, il a réimplémenté la technique à partir des seules informations disponibles dans l'article scientifique de Google. Le résultat est fonctionnel et permet de faire tourner des modèles de plusieurs dizaines de milliards de paramètres sur un MacBook Air standard. Cet exploit illustre un changement de paradigme majeur dans l'accès à l'IA. Jusqu'ici, les modèles les plus puissants exigeaient des GPU professionnels avec des dizaines de gigaoctets de VRAM, réservant leur usage aux entreprises ou aux chercheurs disposant d'infrastructure lourde. TurboQuant contourne cette contrainte en compressant les poids des modèles avec une précision inédite, préservant les performances tout en divisant l'occupation mémoire. Si la méthode se généralise, elle pourrait démocratiser l'inférence locale pour des millions d'utilisateurs. La situation s'inscrit dans une tension croissante entre les laboratoires qui publient des recherches sans ouvrir le code — pratique de plus en plus courante chez Google, OpenAI ou Anthropic — et une communauté open source réactive, capable de combler les lacunes à vitesse record. Ce cas rappelle celui de llama.cpp ou d'autres réimplémentations communautaires qui ont précédé des publications officielles. La prochaine étape sera d'intégrer cette technique dans des outils grand public comme Ollama ou LM Studio, accélérant encore la course vers l'IA locale accessible à tous.

LLMsPaper

1 source

3Le Big Data

Comprendre la fenêtre de contexte : limites et solutions techniques des LLM

La fenêtre de contexte est la limite fondamentale qui détermine ce qu'un modèle d'intelligence artificielle peut "garder en tête" lors d'une conversation ou d'une analyse de document. Concrètement, tout ce que le modèle traite en une seule fois, qu'il s'agisse de la question posée, de l'historique des échanges, des instructions système et de la réponse en cours de génération, doit tenir dans cet espace mesuré en tokens, des unités linguistiques représentant en moyenne trois quarts de mot. Sur une fenêtre de 2 000 tokens, un texte de 900 mots consomme déjà environ 1 200 tokens en entrée, ne laissant que 800 tokens pour la réponse avant que le modèle ne s'arrête net. Les premiers modèles géraient environ 2 000 tokens, soit 1 500 mots. Aujourd'hui, certains systèmes atteignent 1 million de tokens, l'équivalent d'un roman entier, mais chaque gain décuple les besoins matériels. Cette contrainte a des conséquences directes et mesurables sur la qualité des réponses. L'architecture Transformer, utilisée par tous les grands modèles actuels, calcule les relations entre chaque paire de tokens selon une complexité quadratique O(n²) : 1 000 tokens génèrent un million de connexions, et la mémoire GPU explose rapidement. Résultat : au-delà d'un certain seuil, le modèle perd les informations placées en début de contexte, répète des idées ou invente des faits, phénomène connu sous le nom d'hallucination. Le test "needle-in-haystack", qui consiste à vérifier si un modèle retrouve une information précise noyée dans un long texte, révèle 30 % d'échecs au-delà de 500 000 tokens. Les coûts ne sont pas négligeables non plus : traiter 1 million de tokens coûte environ dix centimes, sans compter les risques de sécurité, car un prompt malveillant placé en début de contexte peut manipuler le comportement du modèle sur toute la durée d'un long document. Pour contourner ces limites, plusieurs approches techniques ont émergé. Le KV-cache, qui mémorise les calculs d'attention déjà effectués plutôt que de les recalculer à chaque nouveau token généré, peut représenter jusqu'à 100 Go de mémoire temporaire mais accélère considérablement la génération. D'autres architectures cherchent à remplacer ou compléter l'attention quadratique par des mécanismes linéaires ou par de la mémoire externe, permettant de traiter des documents bien au-delà des capacités actuelles sans explosion des coûts. L'enjeu est industriel et stratégique : les cas d'usage les plus lucratifs, analyse juridique, recherche médicale, assistance sur des bases de code entières, nécessitent précisément de maintenir la cohérence sur de très longues séquences. La course aux grandes fenêtres de contexte est donc moins une question de prouesse technique que de viabilité économique pour des applications professionnelles à grande échelle.

LLMsTuto

1 source

4Le Big Data

DiffusionGemma : l’IA de Google met un coup d’accélérateur à la génération de texte

Google a présenté DiffusionGemma, un modèle expérimental de génération de texte qui abandonne l'approche séquentielle classique au profit d'une génération par blocs parallèles. Reposant sur une architecture Mixture of Experts de 26 milliards de paramètres, dont seulement 3,8 milliards activés lors de la génération, le modèle traite jusqu'à 256 jetons simultanément plutôt que de les produire un par un. Google revendique une vitesse pouvant atteindre plus de 1 000 jetons par seconde sur certains accélérateurs haut de gamme, soit jusqu'à quatre fois plus rapide que les modèles autorégressifs traditionnels comme Gemma 4. Le fonctionnement s'inspire directement des modèles de diffusion d'images : DiffusionGemma part d'un brouillon de jetons aléatoires, qu'il affine sur plusieurs passes successives jusqu'à produire un texte cohérent. Son attention bidirectionnelle permet à chaque partie du texte généré de prendre en compte l'ensemble du bloc en cours de construction, ce qui le rend particulièrement adapté à des tâches comme l'édition, le remplissage de code ou toute application où le contexte global est déterminant. Cette vitesse d'exécution représente un enjeu concret pour les développeurs qui cherchent à intégrer des IA dans des interfaces temps réel, des outils d'autocomplétion ou des applications où la latence perçue doit être quasi nulle. En exploitant plus efficacement la parallélisation des GPU modernes, DiffusionGemma réduit aussi les ressources laissées inutilisées entre chaque jeton généré sous l'approche classique. Sa compatibilité avec des GPU grand public, grâce à l'activation partielle des paramètres, ouvre également la porte à des déploiements moins coûteux en infrastructure, un argument de poids pour les équipes qui opèrent hors des datacenters hyperscale. Cette annonce s'inscrit dans une dynamique plus large d'expérimentation autour des alternatives aux modèles autorégressifs. La recherche sur les modèles de diffusion textuelle existe depuis plusieurs années, mais leur intégration dans des architectures de grande taille et leur viabilité pratique restaient limitées. Google, en publiant DiffusionGemma sous forme expérimentale, reconnaît lui-même que la qualité globale des réponses reste inférieure à celle de Gemma 4 classique : la vitesse a un coût en précision et en cohérence générale. Le modèle n'est donc pas encore positionné comme un successeur direct de la gamme Gemma, mais comme un terrain d'expérimentation pour les cas d'usage où la rapidité prime sur la finesse. L'enjeu des prochains mois sera de savoir si la recherche parvient à combler cet écart de qualité, et si d'autres acteurs comme Meta, Mistral ou OpenAI s'engagent à leur tour sur cette voie architecturale.

UESi Mistral ou d'autres labos européens adoptent cette voie architecturale, les équipes du continent pourraient disposer d'alternatives ouvertes haute vitesse réduisant leur dépendance aux infrastructures hyperscale américaines.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic