Aller au contenu principal
Une startup affirme avoir surmonté un goulot d'étranglement qui freine les LLM
LLMsMIT Technology Review3h· 2 min de lecture

Une startup affirme avoir surmonté un goulot d'étranglement qui freine les LLM

Source originale ↗·

La startup Subquadratic, basée à Miami, est sortie de la confidentialité le mois dernier avec une annonce retentissante : elle affirme avoir résolu un goulot d'étranglement mathématique qui freinait les grands modèles de langage depuis près d'une décennie. Son nouveau modèle, baptisé SubQ, serait non seulement plus rapide et moins coûteux que les solutions existantes, mais consommerait également beaucoup moins d'énergie. Plus frappant encore, il serait capable de traiter jusqu'à douze fois plus de texte simultanément que la plupart des modèles actuels, permettant d'analyser des centaines de documents ou des bases de code entières en une seule passe. Selon l'entreprise, SubQ égalerait sur les tâches de codage les performances des meilleurs modèles de Google DeepMind, OpenAI et Anthropic. Face au scepticisme initial, Subquadratic a publié les résultats d'une évaluation indépendante menée par Appen, spécialiste de l'évaluation de modèles d'IA. Jeanine Sinanan-Singh, directrice de la recherche en IA générative chez Appen, a confirmé que les résultats "valident l'architecture" et évoqué un potentiel "game changer". Les cofondateurs Alex Whedon (CTO) et Justin Dangel (CEO) reconnaissent qu'ils auraient dû publier ces benchmarks tiers dès le départ pour éviter les comparaisons à une "IA Theranos" qui ont circulé sur les réseaux sociaux.

L'enjeu est considérable pour l'ensemble de l'industrie. Le problème que Subquadratic prétend avoir résolu, l'attention dense, est au coeur du fonctionnement de tous les grands modèles actuels. Lorsqu'un transformeur traite un texte, il multiplie la représentation numérique de chaque mot avec celle de tous les autres mots : un texte de 10 000 mots génère ainsi près de 50 millions de multiplications individuelles. C'est précisément pour cette raison que les LLM sont des gouffres énergétiques et que leur coût d'inférence reste élevé. Si SubQ tient ses promesses, les entreprises pourraient traiter de bien plus grandes quantités de données à une fraction du coût actuel, ouvrant la voie à des applications jusqu'ici économiquement inaccessibles, comme l'analyse en temps réel de bibliothèques documentaires entières ou l'audit automatisé de grandes bases de code.

Le mécanisme d'attention dense remonte à l'article fondateur de 2017 publié par des chercheurs de Google, "Attention Is All You Need", qui a posé les bases de l'ère des LLM. Depuis, malgré d'immenses progrès en matière de puissance de calcul et de taille des modèles, cette contrainte architecturale fondamentale n'avait pas été surmontée. Subquadratic n'a pas encore dévoilé les détails techniques de son approche ni rendu SubQ largement accessible au public, ce qui alimente une prudence légitime dans la communauté. L'entreprise affirme néanmoins que son architecture pourrait redéfinir la manière dont les LLM sont construits : "Nous ne pensons pas que quiconque continuera à bâtir sur les transformeurs dans quelques années", déclare Justin Dangel. Si ces affirmations se confirment à plus grande échelle, Subquadratic pourrait marquer un tournant réel dans l'histoire de l'intelligence artificielle.

Impact France/UE

Si l'architecture SubQ tient ses promesses, les laboratoires et entreprises européens développant des LLMs pourraient bénéficier de coûts d'inférence réduits et d'une meilleure efficacité énergétique, mais aucun impact direct ou immédiat sur la France ou l'UE n'est identifiable à ce stade.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des chercheurs affirment avoir entraîné un modèle fondamental de zéro pour environ 1 500 dollars
1VentureBeat AI 

Des chercheurs affirment avoir entraîné un modèle fondamental de zéro pour environ 1 500 dollars

Des chercheurs de la startup Sapient Intelligence affirment avoir entraîné un grand modèle de langage de zéro pour environ 1 500 dollars. Le modèle, baptisé HRM-Text, compte un milliard de paramètres et repose sur une architecture radicalement différente des Transformers classiques : le Hierarchical Recurrent Model (HRM), introduit par Sapient en 2025. Contrairement aux LLM traditionnels qui s'entraînent sur des prédictions de tokens bruts à partir de milliards de pages web, HRM-Text se forme exclusivement sur des paires instruction-réponse, mimant directement les cas d'usage réels en entreprise. Malgré cette empreinte réduite en données et en calcul, le modèle atteint des performances comparables à des modèles open source bien plus volumineux sur les benchmarks sectoriels de référence, selon les résultats publiés par l'équipe de recherche. Ce résultat bouleverse une hypothèse fondamentale de l'industrie : que l'entraînement d'un modèle fondationnel est réservé aux géants disposant de centaines de millions de dollars. Pour les secteurs comme la finance, l'assurance ou la banque, cela ouvre une voie concrète vers des modèles propriétaires entraînés sur des données internes, sans dépendre d'un fournisseur externe comme OpenAI ou Google. Guan Wang, PDG de Sapient Intelligence, résume l'enjeu : une banque ou un fonds spéculatif peut avoir besoin d'un modèle qui comprend ses règles de conformité, ses modèles de risque et ses mémos d'analystes, sans jamais exposer ces données à l'extérieur. HRM-Text rend ce scénario économiquement viable, là où le fine-tuning de modèles denses existants reste lourd, coûteux et difficile à contrôler. L'architecture HRM découple le traitement en deux couches distinctes : une couche stratégique à évolution lente, chargée du raisonnement de haut niveau, et une couche d'exécution rapide pour les décisions immédiates. Cette séparation permet au modèle de concentrer sa puissance de calcul sur la compréhension de la tâche plutôt que sur la mémorisation de données internet sans rapport. Wang pointe les limites du paradigme dominant : "L'addiction à l'échelle dit : quand le modèle échoue, agrandis-le, ajoute des données, ajoute des GPU. Cela a fonctionné, mais on atteint un point de rendements décroissants." L'approche de Sapient s'inscrit dans un courant émergent qui remet en cause la toute-puissance du scaling, aux côtés d'autres travaux comme ceux de DeepSeek sur l'efficience architecturale. Si les performances annoncées se confirment à plus grande échelle et dans des cas d'usage réels, le modèle économique de l'IA d'entreprise pourrait être profondément reconfiguré.

UELes banques et assureurs européens pourraient entraîner des modèles propriétaires sur leurs données internes pour moins de 2 000 dollars, réduisant leur dépendance aux fournisseurs externes et facilitant la conformité aux exigences de l'AI Act en matière de contrôle des données sensibles.

LLMsPaper
1 source
Affinage par renforcement avec un LLM comme évaluateur
2AWS ML Blog 

Affinage par renforcement avec un LLM comme évaluateur

Les grands modèles de langage (LLM) alimentent aujourd'hui les agents conversationnels les plus avancés, les outils créatifs et les systèmes d'aide à la décision. Mais leurs sorties brutes contiennent fréquemment des inexactitudes, des formulations problématiques ou des réponses en décalage avec les politiques d'usage, des défauts qui érodent la confiance et freinent leur déploiement à grande échelle. Pour y remédier, le Reinforcement Fine-Tuning (RFT) s'est imposé comme la méthode d'alignement de référence : il utilise des signaux de récompense automatisés pour éviter l'étiquetage manuel, coûteux et lent. Deux grandes approches coexistent : le RLVR (Reinforcement Learning with Verifiable Rewards), qui évalue les sorties du modèle via du code, et le RLAIF (Reinforcement Learning with AI Feedback), où un second modèle de langage joue le rôle de juge pour noter les réponses candidates. Amazon a publié une analyse approfondie de cette seconde méthode appliquée à ses modèles Nova, détaillant six étapes critiques pour concevoir et déployer efficacement un juge LLM. Là où les récompenses classiques se limitent à des scores numériques grossiers, correspondance de sous-chaînes, règles artisanales, un juge LLM raisonne simultanément sur plusieurs dimensions : exactitude, ton, sécurité, pertinence. Il produit un retour contextualisé, capable de capter des nuances fines et des spécificités métier, sans nécessiter de réentraînement spécifique à chaque tâche. Autre avantage décisif : l'explicabilité. Le juge fournit des rationales (par exemple, "la réponse A cite des études évaluées par des pairs"), ce qui accélère les itérations, pointe précisément les modes de défaillance et réduit les désalignements cachés, quelque chose qu'une fonction de récompense statique ne peut pas faire. Cette flexibilité rend le RLAIF particulièrement précieux lorsque les critères de qualité sont flous ou difficiles à formaliser en règles rigides. L'implémentation repose sur des choix architecturaux structurants. Le premier est le type de juge : l'évaluation par rubrique attribue un score absolu à une réponse unique selon des critères prédéfinis, idéale quand les dimensions de qualité sont claires et quantifiables ; l'évaluation par préférence compare deux réponses côte à côte et désigne la meilleure, ce qui correspond davantage à l'évaluation humaine naturelle mais exige des données de référence. Amazon recommande de commencer par les rubriques en l'absence de données comparatives, et privilégie un scoring booléen (succès/échec) pour leur robustesse. La définition précise des critères d'évaluation constitue ensuite le socle de tout entraînement RLAIF efficace : des prompts explicites, des exemples concrets de ce qui distingue une bonne réponse d'une mauvaise, et une attention particulière aux biais potentiels du juge lui-même. Ce cadre méthodologique illustre comment l'industrie cherche à industrialiser l'alignement des LLM sans dépendre de l'annotation humaine à grande échelle.

LLMsPaper
1 source
Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an
3VentureBeat AI 

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion
1 source
Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO
4MarkTechPost 

Guide pratique : affiner un LLM avec TRL, du supervised fine-tuning au raisonnement DPO et GRPO

Un guide complet consacré à l'entraînement post-initialisation des grands modèles de langage vient d'être publié, proposant une progression pédagogique couvrant quatre techniques clés : le réglage fin supervisé (SFT), la modélisation de récompense (RM), l'optimisation directe des préférences (DPO) et l'optimisation de politique par groupe relatif (GRPO). Le tutoriel s'appuie sur la bibliothèque TRL (Transformer Reinforcement Learning), développée et maintenue par Hugging Face, combinée à des outils comme PEFT et LoRA, qui permettent de réduire drastiquement la mémoire nécessaire. Point notable : l'ensemble du pipeline peut tourner sur un GPU T4 de Google Colab, soit environ 15 Go de VRAM, rendant ces techniques accessibles à quiconque dispose d'un compte Google. Le modèle de base utilisé est Qwen2.5-0.5B-Instruct, un modèle léger de 500 millions de paramètres développé par Alibaba, qui sert de point de départ à chacune des quatre étapes d'alignement. Ce guide se distingue par sa complétude : peu de tutoriels enchaînent l'intégralité du pipeline d'alignement, du SFT jusqu'au raisonnement par GRPO, avec du code fonctionnel et des explications progressives. Pour les équipes techniques cherchant à adapter un modèle open-weight à des usages métiers spécifiques, ou à reproduire les techniques d'alignement des grands laboratoires, ce type de ressource pratique est précieux. Le GRPO notamment, popularisé par DeepSeek-R1 en janvier 2025, est désormais intégré nativement dans TRL, ce qui permet d'entraîner des modèles à raisonner par étapes vérifiables sans les coûts prohibitifs d'un pipeline RLHF classique avec modèle de récompense séparé. L'alignement des LLMs s'est imposé comme l'un des sujets centraux de l'IA depuis qu'InstructGPT d'OpenAI a montré qu'un volume relativement faible de données de préférence pouvait radicalement améliorer le comportement d'un modèle. TRL est devenu la référence open source pour implémenter ces méthodes, avec des mises à jour qui intègrent régulièrement les dernières avancées de la recherche. La tendance est aujourd'hui aux approches qui n'exigent pas de modèle de récompense distinct, comme DPO et GRPO, car elles simplifient le pipeline tout en atteignant des résultats comparables. Ce contexte explique l'intérêt croissant pour le fine-tuning de modèles open-weight comme Qwen, Llama ou Mistral, que des startups et des équipes internes cherchent à spécialiser sans dépendre d'API propriétaires.

UEHuggingFace, entreprise française éditrice de la bibliothèque TRL au cœur de ce guide, positionne l'écosystème open source européen comme référence pour l'alignement des LLMs face aux pipelines propriétaires américains.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic