LLMsMIT Technology Review2h· 2 min de lecture

Les LLM sont pris dans une routine de pensée uniforme : cette startup veut les en sortir

Voici l'article traduit et résumé :

Le studio australien Springboards a développé un modèle de langage baptisé Flint, conçu pour rompre avec l'uniformité des réponses que produisent les grands chatbots comme ChatGPT, Claude ou Gemini face à des questions ouvertes. Pip Bingemann, cofondateur et PDG de Springboards, illustre le problème avec un test simple : demander à un modèle un nombre aléatoire entre 1 et 10 renvoie presque systématiquement 7, puis 3 ou 4, puis 8 ou 9 lors des tentatives suivantes. Lors d'une démonstration, ChatGPT et Claude ont tous deux répondu 7, tandis que Flint donnait un nombre décimal comme 3,7916. Même schéma avec un type de voiture : ChatGPT et Claude citent généralement Toyota ou Honda, quand Flint propose un Ford F-150. Sur un slogan publicitaire pour les chaussures New Balance, Claude et ChatGPT ont tous deux produit "Run your way", contre "Built to last, run to win" pour Flint. Selon Bingemann, "la plupart des modèles de langage luttent contre les hallucinations, nous les accueillons à bras ouverts".

Ce phénomène de conformisme, ou "groupthink", commence à attirer l'attention de la recherche. En novembre, une équipe a publié une étude intitulée "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)", récompensée du prix du meilleur article à la conférence NeurIPS. En interrogeant 25 modèles différents, dont ceux des principales entreprises américaines ainsi que des modèles open source chinois et autres, à 50 reprises chacun sur une métaphore du temps, les chercheurs ont obtenu 1 250 réponses dont la grande majorité se résumait à des variations de "le temps est une rivière" ou "le temps est un tisserand". Kieran Browne, cofondateur et directeur technique de Springboards, explique que cette répétition est partout dès qu'on y prête attention, alors que l'interface conversationnelle donne l'illusion d'un échange personnalisé. Il cite l'exemple d'un nom de groupe de musique : la plupart des modèles proposent des mots comme "glass", "neon", "velvet" ou "static". Un test avec ChatGPT a ainsi produit une liste de 56 suggestions dominées par "Glass Harbor", "Static Empire", "Neon Hearts" et "Velvet Echo", tandis que Gemini livrait 15 propositions dont "Static Horizon".

Cette homogénéité s'expliquerait par le fait que la plupart des modèles actuels sont entraînés de façon similaire, sur des données similaires, pour accomplir des tâches similaires. Si cette convergence ne pose pas de problème pour du code ou de la recherche factuelle, elle devient un frein dès qu'il s'agit de brainstorming ou de planification créative, comme organiser un voyage. En misant sur la diversité plutôt que sur la suppression des hallucinations, Springboards cherche à ouvrir un nouveau créneau face aux géants du secteur, misant sur le constat que l'information "perdue" par les modèles dominants reste accessible, mais simplement biaisée par leurs choix d'entraînement.

Dans nos dossiers

Gemini Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MIT Technology Review

Une startup affirme avoir surmonté un goulot d'étranglement qui freine les LLM

La startup Subquadratic, basée à Miami, est sortie de la confidentialité le mois dernier avec une annonce retentissante : elle affirme avoir résolu un goulot d'étranglement mathématique qui freinait les grands modèles de langage depuis près d'une décennie. Son nouveau modèle, baptisé SubQ, serait non seulement plus rapide et moins coûteux que les solutions existantes, mais consommerait également beaucoup moins d'énergie. Plus frappant encore, il serait capable de traiter jusqu'à douze fois plus de texte simultanément que la plupart des modèles actuels, permettant d'analyser des centaines de documents ou des bases de code entières en une seule passe. Selon l'entreprise, SubQ égalerait sur les tâches de codage les performances des meilleurs modèles de Google DeepMind, OpenAI et Anthropic. Face au scepticisme initial, Subquadratic a publié les résultats d'une évaluation indépendante menée par Appen, spécialiste de l'évaluation de modèles d'IA. Jeanine Sinanan-Singh, directrice de la recherche en IA générative chez Appen, a confirmé que les résultats "valident l'architecture" et évoqué un potentiel "game changer". Les cofondateurs Alex Whedon (CTO) et Justin Dangel (CEO) reconnaissent qu'ils auraient dû publier ces benchmarks tiers dès le départ pour éviter les comparaisons à une "IA Theranos" qui ont circulé sur les réseaux sociaux. L'enjeu est considérable pour l'ensemble de l'industrie. Le problème que Subquadratic prétend avoir résolu, l'attention dense, est au coeur du fonctionnement de tous les grands modèles actuels. Lorsqu'un transformeur traite un texte, il multiplie la représentation numérique de chaque mot avec celle de tous les autres mots : un texte de 10 000 mots génère ainsi près de 50 millions de multiplications individuelles. C'est précisément pour cette raison que les LLM sont des gouffres énergétiques et que leur coût d'inférence reste élevé. Si SubQ tient ses promesses, les entreprises pourraient traiter de bien plus grandes quantités de données à une fraction du coût actuel, ouvrant la voie à des applications jusqu'ici économiquement inaccessibles, comme l'analyse en temps réel de bibliothèques documentaires entières ou l'audit automatisé de grandes bases de code. Le mécanisme d'attention dense remonte à l'article fondateur de 2017 publié par des chercheurs de Google, "Attention Is All You Need", qui a posé les bases de l'ère des LLM. Depuis, malgré d'immenses progrès en matière de puissance de calcul et de taille des modèles, cette contrainte architecturale fondamentale n'avait pas été surmontée. Subquadratic n'a pas encore dévoilé les détails techniques de son approche ni rendu SubQ largement accessible au public, ce qui alimente une prudence légitime dans la communauté. L'entreprise affirme néanmoins que son architecture pourrait redéfinir la manière dont les LLM sont construits : "Nous ne pensons pas que quiconque continuera à bâtir sur les transformeurs dans quelques années", déclare Justin Dangel. Si ces affirmations se confirment à plus grande échelle, Subquadratic pourrait marquer un tournant réel dans l'histoire de l'intelligence artificielle.

UESi l'architecture SubQ tient ses promesses, les laboratoires et entreprises européens développant des LLMs pourraient bénéficier de coûts d'inférence réduits et d'une meilleure efficacité énergétique, mais aucun impact direct ou immédiat sur la France ou l'UE n'est identifiable à ce stade.

💬 La comparaison à Theranos dit surtout une chose : le milieu IA a appris qu'il peut se faire avoir. Le problème de l'attention quadratique, lui, est bien réel, documenté depuis "Attention Is All You Need" en 2017, et si SubQ l'a effectivement résolu, les transformeurs actuels deviennent architecturalement dépassés du jour au lendemain, milliards d'investissements inclus. Bon, faut publier les détails techniques d'abord.

LLMsPaper

1 source

2Latent Space

Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)

Vlad Feinberg, ingénieur spécialisé dans l'infrastructure TPU chez Google, a publié mi-mai 2026 un guide destiné aux développeurs souhaitant intégrer les grands laboratoires d'IA de pointe. Son conseil central : maîtriser le travail au niveau du noyau (kernel) des modèles de langage. Il s'appuie sur le Scaling Handbook publié l'an dernier par DeepMind, un document qui cartographie les pratiques de préentraînement à grande échelle. Selon Feinberg, le principal goulot d'étranglement de tout projet LLM réside dans la capacité à rendre concrètement exécutables des modifications logiques abstraites, c'est-à-dire à optimiser les calculs au plus bas niveau du code. Il souligne aussi l'importance croissante des langages dédiés (DSL) pour le développement de kernels, et mentionne de façon inattendue les agents autonomes comme AlphaEvolve parmi les compétences désormais valorisées. Son exercice pratique est sans ambiguïté : dériver les lois de Chinchilla, les implémenter depuis zéro en JAX pour des architectures dense et MoE, puis écrire un kernel Pallas capable de surpasser jax.lax.ragged_dot pour les projections MoE en fusionnant les couches up et down, et identifier un contexte où l'accélération du forward pass est mesurable et explicable. Ce type de guide est rare dans un domaine qui recrute souvent via des réseaux opaques. En pointant vers des compétences précises et vérifiables plutôt que vers des diplômes ou des expériences académiques, Feinberg ouvre potentiellement l'accès aux laboratoires de pointe à des profils autodidactes ou venant d'industries connexes. Le travail au niveau kernel, qui consiste à optimiser les calculs matriciels sur GPU ou TPU pour réduire la latence et améliorer l'utilisation de la mémoire, est au coeur de la compétitivité des modèles. C'est aussi une compétence objectivement mesurable : soit le kernel bat le benchmark de référence, soit il ne le bat pas. Feinberg propose même d'inviter ceux qui réussissent l'exercice complet à intervenir comme speakers lors d'ateliers communautaires, signal clair que la démonstration pratique vaut plus qu'un CV. Cette publication intervient dans un contexte d'accélération générale de l'écosystème IA. Anthropic a diffusé la même semaine des bonnes pratiques pour déployer Claude Code sur des monorepos de plusieurs millions de lignes, avec diagnostics de cache de prompts et activation par défaut du mode Fast sur Opus 4.7 pour des workflows à plus faible latence. Cognition a lancé Devin Auto-Triage, un agent "premier répondant" pour les bugs et incidents en production, doté d'une mémoire long terme et capable de générer des pull requests automatiquement. LangChain a présenté LangSmith Engine comme une boucle CI/CD pour agents, détectant automatiquement les défaillances en production. À la veille de Google I/O, moment attendu pour les annonces Gemini, le secteur converge vers des agents persistants en arrière-plan plutôt que vers de simples interfaces conversationnelles, et les ingénieurs capables d'en construire les fondations bas-niveau restent la ressource la plus recherchée.

LLMsTuto

1 source

3Next INpact

OVHcloud veut ses Mistral gagnants et se lance dans les LLM

OVHcloud, le géant européen de l'hébergement basé à Roubaix, a annoncé lors du salon VivaTech son intention de lancer sa propre famille de modèles de langage (LLM). Octave Klaba, qui a repris la direction de l'entreprise fin 2025, a confirmé l'ambition à Reuters : sans maîtrise de cette technologie, OVHcloud ne pourrait « pas garantir son avenir ». Le groupe prévoit de déployer plusieurs modèles couvrant différents cas d'usage, sur le modèle d'Anthropic avec Opus, Sonnet et Haiku, ou d'OpenAI avec ses gammes GPT et o. La piste open source est explicitement envisagée, Klaba précisant que l'entreprise « regardera à quel moment elle sera suffisamment bonne pour open sourcer » ses modèles. Le budget estimé pour ce projet se situe entre 150 et 200 millions d'euros, contre environ un milliard il y a quelques années, grâce à la chute des coûts d'entraînement. Ce virage marque une montée en puissance significative pour OVHcloud, qui ne se positionne plus seulement comme fournisseur d'infrastructure mais comme acteur de la couche modèle, territoire jusqu'ici dominé par OpenAI, Anthropic et Mistral. Pour les entreprises européennes soucieuses de souveraineté numérique, l'émergence d'un LLM made in Europe, hébergé et entraîné sur sol européen, représente une alternative crédible aux géants américains. La qualification « et de l'IA » ajoutée récemment à tous les communiqués de presse d'OVHcloud signale que ce changement de positionnement est déjà assumé en interne, bien avant la sortie d'un premier modèle. Pour préparer ce lancement, OVHcloud a mené une série d'acquisitions ciblées depuis le début de l'année. En janvier, le groupe a racheté Seald, startup française spécialisée dans le chiffrement bout en bout, dont le SDK bénéficie d'un visa de sécurité CSPN délivré par l'ANSSI. En mars, c'est Dragon LLM qui a rejoint le giron, société française dédiée aux modèles souverains et spécialisés. Plus récemment, OVHcloud est entré en négociations exclusives pour acquérir Gladia, spécialisée dans l'IA vocale. Ces rachats s'accompagnent d'un renforcement des équipes internes en fine-tuning, la technique permettant de spécialiser un modèle pré-entraîné sur des tâches précises. La principale inconnue reste l'approvisionnement en GPU : Klaba a lui-même comparé les puces Nvidia à des fraises qui « pourrissent le lendemain », tant leur cycle de dépréciation est rapide face aux nouvelles générations. Entraîner des modèles compétitifs en exige des volumes importants, et la question de la rentabilité de ces investissements matériels reste entière.

UEOVHcloud, premier hébergeur européen basé à Roubaix, se positionne comme futur fournisseur de LLMs souverains entraînés et hébergés sur sol européen, offrant aux entreprises et institutions françaises une alternative concrète aux modèles américains pour répondre aux exigences de souveraineté numérique et de conformité réglementaire.

LLMsOpinion

1 source

4Le Big Data

iOS 27 : Siri a deux ans de retard sur l’IA… et Apple va nous sortir une version bêta

Apple prépare une refonte majeure de Siri avec iOS 27, et selon Mark Gurman de Bloomberg, certaines versions de test internes mentionnent déjà le nouvel assistant comme une fonctionnalité expérimentale. Une option permettrait même aux utilisateurs de désactiver ce mode bêta. Cette refonte, initialement prévue pour 2024 dans le cadre du projet Apple Intelligence, aurait accumulé près de deux ans de retard. L'objectif d'Apple est de transformer Siri en un assistant nettement plus conversationnel, capable de maintenir un contexte entre les échanges, d'interagir sous forme de messages proches des messageries instantanées, et de s'intégrer plus profondément aux applications tierces. Une version autonome de Siri sous forme d'application dédiée est également en développement, ainsi qu'une intégration avec la Dynamic Island sur les iPhone compatibles. La WWDC, prévue le mois prochain, devrait apporter les premières annonces officielles. Ce retard a des conséquences concrètes pour Apple sur un marché où la concurrence s'est installée durablement. Google Gemini et ChatGPT occupent déjà une place significative dans les usages quotidiens, et les assistants Android offrent depuis plusieurs mois des capacités conversationnelles avancées que Siri ne propose pas encore. Pour les utilisateurs de l'écosystème Apple, cela signifie continuer à dépendre d'un assistant limité dans ses échanges contextuels, à une période où l'IA conversationnelle est devenue un critère de choix pour beaucoup. L'étiquette bêta pourrait en réalité servir la stratégie d'Apple : elle réduit les attentes sur les bugs, permet un déploiement plus rapide de fonctions incomplètes, et autorise des itérations publiques sans attendre une version jugée définitive. Cette situation rappelle les débuts de Siri en 2011, lancé en bêta lors de la présentation de l'iPhone 4S avant que la mention ne disparaisse discrètement en 2013. Depuis, l'assistant n'a jamais vraiment rattrapé ses concurrents sur le plan conversationnel, accumulant les critiques sur sa compréhension limitée et ses réponses peu naturelles. Apple a longtemps justifié cette prudence par son attachement à la confidentialité, un positionnement qui reste central dans son approche de l'IA, avec des rapports évoquant des contrôles renforcés sur l'historique des conversations et des options de suppression automatique. La question qui se pose désormais est celle du timing : en choisissant de lancer un Siri encore expérimental plutôt que d'attendre une version aboutie, Apple parie sur la capacité de son écosystème fidèle à tolérer une transition progressive, tout en espérant ne pas laisser trop de terrain à des concurrents qui, eux, n'ont pas attendu.

UELes utilisateurs français d'iPhone restent tributaires d'un Siri limité face à des concurrents déjà bien implantés en Europe, sans amélioration concrète attendue avant la WWDC au mieux.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic