LLMsMIT Technology Review · 19 juin 2026, 13:40· 2 min de lecture

Une startup affirme avoir surmonté un goulot d'étranglement qui freine les LLM

Résumé IASource uniqueImpact UE Pourquoi ça compte

La startup Subquadratic, basée à Miami, est sortie de la confidentialité le mois dernier avec une annonce retentissante : elle affirme avoir résolu un goulot d'étranglement mathématique qui freinait les grands modèles de langage depuis près d'une décennie. Son nouveau modèle, baptisé SubQ, serait non seulement plus rapide et moins coûteux que les solutions existantes, mais consommerait également beaucoup moins d'énergie. Plus frappant encore, il serait capable de traiter jusqu'à douze fois plus de texte simultanément que la plupart des modèles actuels, permettant d'analyser des centaines de documents ou des bases de code entières en une seule passe. Selon l'entreprise, SubQ égalerait sur les tâches de codage les performances des meilleurs modèles de Google DeepMind, OpenAI et Anthropic. Face au scepticisme initial, Subquadratic a publié les résultats d'une évaluation indépendante menée par Appen, spécialiste de l'évaluation de modèles d'IA. Jeanine Sinanan-Singh, directrice de la recherche en IA générative chez Appen, a confirmé que les résultats "valident l'architecture" et évoqué un potentiel "game changer". Les cofondateurs Alex Whedon (CTO) et Justin Dangel (CEO) reconnaissent qu'ils auraient dû publier ces benchmarks tiers dès le départ pour éviter les comparaisons à une "IA Theranos" qui ont circulé sur les réseaux sociaux.

L'enjeu est considérable pour l'ensemble de l'industrie. Le problème que Subquadratic prétend avoir résolu, l'attention dense, est au coeur du fonctionnement de tous les grands modèles actuels. Lorsqu'un transformeur traite un texte, il multiplie la représentation numérique de chaque mot avec celle de tous les autres mots : un texte de 10 000 mots génère ainsi près de 50 millions de multiplications individuelles. C'est précisément pour cette raison que les LLM sont des gouffres énergétiques et que leur coût d'inférence reste élevé. Si SubQ tient ses promesses, les entreprises pourraient traiter de bien plus grandes quantités de données à une fraction du coût actuel, ouvrant la voie à des applications jusqu'ici économiquement inaccessibles, comme l'analyse en temps réel de bibliothèques documentaires entières ou l'audit automatisé de grandes bases de code.

Le mécanisme d'attention dense remonte à l'article fondateur de 2017 publié par des chercheurs de Google, "Attention Is All You Need", qui a posé les bases de l'ère des LLM. Depuis, malgré d'immenses progrès en matière de puissance de calcul et de taille des modèles, cette contrainte architecturale fondamentale n'avait pas été surmontée. Subquadratic n'a pas encore dévoilé les détails techniques de son approche ni rendu SubQ largement accessible au public, ce qui alimente une prudence légitime dans la communauté. L'entreprise affirme néanmoins que son architecture pourrait redéfinir la manière dont les LLM sont construits : "Nous ne pensons pas que quiconque continuera à bâtir sur les transformeurs dans quelques années", déclare Justin Dangel. Si ces affirmations se confirment à plus grande échelle, Subquadratic pourrait marquer un tournant réel dans l'histoire de l'intelligence artificielle.

Impact France/UE

Si l'architecture SubQ tient ses promesses, les laboratoires et entreprises européens développant des LLMs pourraient bénéficier de coûts d'inférence réduits et d'une meilleure efficacité énergétique, mais aucun impact direct ou immédiat sur la France ou l'UE n'est identifiable à ce stade.

💬 L'analyse de Mathieu

La comparaison à Theranos dit surtout une chose : le milieu IA a appris qu'il peut se faire avoir. Le problème de l'attention quadratique, lui, est bien réel, documenté depuis "Attention Is All You Need" en 2017, et si SubQ l'a effectivement résolu, les transformeurs actuels deviennent architecturalement dépassés du jour au lendemain, milliards d'investissements inclus. Bon, faut publier les détails techniques d'abord.

Dans nos dossiers

Google DeepMind OpenAI Anthropic

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MIT Technology Review

Les LLM sont pris dans une routine de pensée uniforme : cette startup veut les en sortir

Le studio australien Springboards a développé un modèle de langage baptisé Flint, conçu pour rompre avec l'uniformité des réponses que produisent les grands chatbots comme ChatGPT, Claude ou Gemini face à des questions ouvertes. Pip Bingemann, cofondateur et PDG de Springboards, illustre le problème avec un test simple : demander à un modèle un nombre aléatoire entre 1 et 10 renvoie presque systématiquement 7, puis 3 ou 4, puis 8 ou 9 lors des tentatives suivantes. Lors d'une démonstration, ChatGPT et Claude ont tous deux répondu 7, tandis que Flint donnait un nombre décimal comme 3,7916. Même schéma avec un type de voiture : ChatGPT et Claude citent généralement Toyota ou Honda, quand Flint propose un Ford F-150. Sur un slogan publicitaire pour les chaussures New Balance, Claude et ChatGPT ont tous deux produit "Run your way", contre "Built to last, run to win" pour Flint. Selon Bingemann, "la plupart des modèles de langage luttent contre les hallucinations, nous les accueillons à bras ouverts". Ce phénomène de conformisme, ou "groupthink", commence à attirer l'attention de la recherche. En novembre, une équipe a publié une étude intitulée "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)", récompensée du prix du meilleur article à la conférence NeurIPS. En interrogeant 25 modèles différents, dont ceux des principales entreprises américaines ainsi que des modèles open source chinois et autres, à 50 reprises chacun sur une métaphore du temps, les chercheurs ont obtenu 1 250 réponses dont la grande majorité se résumait à des variations de "le temps est une rivière" ou "le temps est un tisserand". Kieran Browne, cofondateur et directeur technique de Springboards, explique que cette répétition est partout dès qu'on y prête attention, alors que l'interface conversationnelle donne l'illusion d'un échange personnalisé. Il cite l'exemple d'un nom de groupe de musique : la plupart des modèles proposent des mots comme "glass", "neon", "velvet" ou "static". Un test avec ChatGPT a ainsi produit une liste de 56 suggestions dominées par "Glass Harbor", "Static Empire", "Neon Hearts" et "Velvet Echo", tandis que Gemini livrait 15 propositions dont "Static Horizon". Cette homogénéité s'expliquerait par le fait que la plupart des modèles actuels sont entraînés de façon similaire, sur des données similaires, pour accomplir des tâches similaires. Si cette convergence ne pose pas de problème pour du code ou de la recherche factuelle, elle devient un frein dès qu'il s'agit de brainstorming ou de planification créative, comme organiser un voyage. En misant sur la diversité plutôt que sur la suppression des hallucinations, Springboards cherche à ouvrir un nouveau créneau face aux géants du secteur, misant sur le constat que l'information "perdue" par les modèles dominants reste accessible, mais simplement biaisée par leurs choix d'entraînement.

💬 Ça confirme un truc que je sens depuis des mois sans savoir le nommer : les grands modèles ne sont pas juste biaisés, ils sont clonés les uns sur les autres. La preuve est presque comique : demande un nombre au hasard, une marque de voiture, un slogan, et ChatGPT comme Claude sortent quasi toujours la même réponse, ce qui montre que leur créativité affichée n'est qu'une moyenne statistique déguisée en réponse originale. Le pari de Flint est malin (transformer l'hallucination en feature plutôt qu'en bug), mais je doute que ça suffise face à des géants qui, eux, ont la distribution.

LLMsPaper

1 source

2VentureBeat AI

Des chercheurs affirment avoir entraîné un modèle fondamental de zéro pour environ 1 500 dollars

Des chercheurs de la startup Sapient Intelligence affirment avoir entraîné un grand modèle de langage de zéro pour environ 1 500 dollars. Le modèle, baptisé HRM-Text, compte un milliard de paramètres et repose sur une architecture radicalement différente des Transformers classiques : le Hierarchical Recurrent Model (HRM), introduit par Sapient en 2025. Contrairement aux LLM traditionnels qui s'entraînent sur des prédictions de tokens bruts à partir de milliards de pages web, HRM-Text se forme exclusivement sur des paires instruction-réponse, mimant directement les cas d'usage réels en entreprise. Malgré cette empreinte réduite en données et en calcul, le modèle atteint des performances comparables à des modèles open source bien plus volumineux sur les benchmarks sectoriels de référence, selon les résultats publiés par l'équipe de recherche. Ce résultat bouleverse une hypothèse fondamentale de l'industrie : que l'entraînement d'un modèle fondationnel est réservé aux géants disposant de centaines de millions de dollars. Pour les secteurs comme la finance, l'assurance ou la banque, cela ouvre une voie concrète vers des modèles propriétaires entraînés sur des données internes, sans dépendre d'un fournisseur externe comme OpenAI ou Google. Guan Wang, PDG de Sapient Intelligence, résume l'enjeu : une banque ou un fonds spéculatif peut avoir besoin d'un modèle qui comprend ses règles de conformité, ses modèles de risque et ses mémos d'analystes, sans jamais exposer ces données à l'extérieur. HRM-Text rend ce scénario économiquement viable, là où le fine-tuning de modèles denses existants reste lourd, coûteux et difficile à contrôler. L'architecture HRM découple le traitement en deux couches distinctes : une couche stratégique à évolution lente, chargée du raisonnement de haut niveau, et une couche d'exécution rapide pour les décisions immédiates. Cette séparation permet au modèle de concentrer sa puissance de calcul sur la compréhension de la tâche plutôt que sur la mémorisation de données internet sans rapport. Wang pointe les limites du paradigme dominant : "L'addiction à l'échelle dit : quand le modèle échoue, agrandis-le, ajoute des données, ajoute des GPU. Cela a fonctionné, mais on atteint un point de rendements décroissants." L'approche de Sapient s'inscrit dans un courant émergent qui remet en cause la toute-puissance du scaling, aux côtés d'autres travaux comme ceux de DeepSeek sur l'efficience architecturale. Si les performances annoncées se confirment à plus grande échelle et dans des cas d'usage réels, le modèle économique de l'IA d'entreprise pourrait être profondément reconfiguré.

UELes banques et assureurs européens pourraient entraîner des modèles propriétaires sur leurs données internes pour moins de 2 000 dollars, réduisant leur dépendance aux fournisseurs externes et facilitant la conformité aux exigences de l'AI Act en matière de contrôle des données sensibles.

LLMsPaper

1 source

3AWS ML Blog

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper

1 source

4MIT Technology Review

Le sens d'un titre : une startup propose une solution au problème de la pensée unique de l'IA

La startup australienne Springboards a mis au point un modèle de langage baptisé Flint, conçu pour sortir les intelligences artificielles conversationnelles de leur tendance à toujours produire les mêmes réponses. Le constat de départ est simple à vérifier: demandez à Claude, ChatGPT ou Gemini de citer un nombre au hasard entre 1 et 10, et la réponse sera presque systématiquement 7. Ce phénomène, documenté par Will Douglas Heaven dans la newsletter The Download du MIT Technology Review, illustre un problème plus large de "pensée de groupe" chez les grands modèles de langage actuels, qui convergent vers des réponses prévisibles et peu créatives dès qu'on leur pose une question ouverte. Flint a été entraîné spécifiquement pour élargir l'éventail de ses réponses face à des questions du type "où partir en vacances en Europe", en évitant de se replier systématiquement sur les suggestions les plus consensuelles ou les plus statistiquement fréquentes dans ses données d'entraînement. Cette uniformité des réponses n'est pas gênante pour des tâches comme la programmation ou la recherche factuelle, où la précision et la cohérence priment. Elle devient en revanche un vrai handicap pour tout usage créatif: remue-méninges, planification de voyage, génération d'idées ou exploration d'options originales. Un assistant qui reproduit toujours les mêmes schémas de réponse limite de fait sa valeur pour les utilisateurs qui cherchent justement à sortir des sentiers battus. En misant sur la diversité des réponses plutôt que sur leur seule exactitude, Springboards vise un usage encore peu exploité commercialement: celui des chatbots comme outils d'idéation plutôt que de simple recherche d'information, un segment où la personnalisation et la surprise comptent autant que la fiabilité. Ce travail s'inscrit dans un paysage de l'IA générative en pleine effervescence, où les grands acteurs américains et chinois se disputent la suprématie technologique et financière. Le même jour, la newsletter rapportait qu'OpenAI aurait proposé de céder une participation de 5% à l'administration Trump, un geste qui pourrait s'étendre à d'autres géants comme Anthropic, Google ou Meta selon Bloomberg. Parallèlement, le modèle chinois GLM-5.2 gagne du terrain auprès de clients occidentaux grâce à des coûts réduits, tandis que Meta explore de nouvelles sources de revenus en louant sa puissance de calcul et ses modèles hébergés. Dans ce contexte de concentration autour de quelques mastodontes, l'approche de Springboards rappelle qu'il existe encore de la place pour des acteurs plus modestes cherchant à résoudre des limites techniques précises, comme ce manque criant de diversité dans les réponses des IA conversationnelles les plus utilisées au monde.

💬 Demande à trois chatbots différents un chiffre au hasard entre 1 et 10, tu auras 7 à chaque fois, ça dit tout : nos IA ne pensent pas, elles moyennent. Springboards s'attaque à un angle mort que les géants n'ont aucun intérêt à corriger, OpenAI et Google optimisent pour rassurer, pas pour surprendre. Bonne nouvelle pour l'idéation, mais faut voir si Flint tient face à un vrai brainstorm : la diversité des réponses va devenir un critère de choix aussi important que la fiabilité.

LLMsOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic