RechercheLe Big Data · 18 juin 2026, 21:16· 2 min de lecture

L’architecture Subquadratic SubQ est-elle le chaînon manquant de l’ère post-Transformer ?

L'explosion des volumes de données confronte l'informatique moderne à une limite fondamentale : la complexité quadratique O(n²), où le temps de calcul croît au carré du nombre de données traitées. Concrètement, si le volume d'information double, la puissance de calcul nécessaire quadruple. C'est dans ce contexte que l'approche Subquadratic, ou SubQ, s'impose comme une alternative mathématique structurée, désignant tout algorithme dont la complexité croît moins vite que O(n²), selon des notations comme O(n log n) ou O(n^1.5). Les ingénieurs y recourent via des stratégies éprouvées : la méthode "diviser pour régner", qui fragmente un problème en sous-unités indépendantes traitées en parallèle, ou les tables de hachage, qui permettent de cibler directement une adresse mémoire sans parcourir l'ensemble du système. Un exemple concret illustre l'enjeu : là où le tri à bulles s'effondre face aux grands volumes, le tri fusion en complexité subquadratique réduit des traitements de plusieurs heures à quelques secondes.

L'enjeu devient particulièrement critique pour les architectures Transformer, introduites en 2017 par l'article fondateur "Attention Is All You Need" et qui alimentent aujourd'hui la quasi-totalité des grands modèles de langage. Leur mécanisme central, le Self-Attention, compare chaque élément d'une séquence à tous les autres, générant une matrice de taille n×n nativement quadratique. Cette contrainte sature rapidement la mémoire graphique (VRAM) dès que les séquences s'allongent, forçant les premières générations d'IA à travailler dans des fenêtres de contexte sévèrement limitées. Le coût d'inférence qui en résulte pèse lourdement sur les budgets cloud et freine l'adoption à grande échelle, notamment dans les entreprises qui traitent des milliards de transactions quotidiennes.

La saturation des centres de données et l'essoufflement de la loi de Moore, qui garantissait jusqu'ici une progression régulière de la puissance des processeurs, ont rendu cette rupture algorithmique inévitable. Attendre la prochaine génération de puces ne suffit plus face à l'accélération des volumes de données. Les publications scientifiques récentes confirment une mobilisation croissante des chercheurs autour d'architectures post-Transformer capables de réduire structurellement ce coût quadratique. L'approche SubQ représente moins une innovation isolée qu'un changement de paradigme mathématique : non plus optimiser le matériel pour absorber des algorithmes inefficaces, mais repenser les fondements computationnels pour que la croissance des données ne dicte plus la croissance des coûts. Les acteurs qui parviendront à intégrer ces architectures dans leurs modèles de production pourraient disposer d'un avantage décisif en termes d'efficacité énergétique et d'accessibilité économique.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper

1 source

2The Decoder

Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux

Une équipe de recherche allemande vient de proposer une nouvelle architecture Transformer capable d'adapter dynamiquement son propre processus de réflexion selon la nature de la tâche. Contrairement aux modèles classiques qui appliquent un nombre fixe d'étapes de traitement, ce système laisse le modèle décider lui-même combien de fois il doit « réfléchir » avant de produire une réponse, une avancée qui reflète une intuition simple : résoudre une équation n'exige pas les mêmes ressources cognitives que se souvenir d'un fait du quotidien. L'enjeu est de taille pour le secteur. Les architectures actuelles souffrent d'un compromis structurel : augmenter les capacités de raisonnement tend à dégrader la mémorisation factuelle, et inversement. Cette nouvelle approche cherche à réconcilier les deux en couplant le mécanisme de réflexion adaptative à un module de mémoire externe, permettant au modèle de stocker et de rappeler des connaissances sans mobiliser inutilement du temps de calcul supplémentaire. Les résultats sont significatifs : sur des benchmarks de mathématiques, l'architecture surpasse des modèles de plus grande taille, ce qui suggère que l'efficacité du raisonnement peut compenser le manque de paramètres bruts. Le principe repose sur une allocation intelligente des ressources, les problèmes complexes déclenchent davantage d'itérations internes, tandis que les requêtes factuelles simples court-circuitent ce processus pour aller directement puiser dans la mémoire. Si cette approche se confirme à plus grande échelle, elle pourrait redéfinir la manière dont on conçoit les grands modèles de langage : non plus en empilant toujours plus de paramètres, mais en dotant les modèles d'une forme d'intelligence métacognitive, la capacité de savoir quand penser davantage, et quand simplement se souvenir.

UECette recherche menée par une équipe allemande renforce la position européenne dans la course à l'architecture des LLMs, avec un potentiel d'adoption par des labos et entreprises tech de l'UE.

RecherchePaper

1 source

3Apple Machine Learning

Entraînement par anticipation latente pour les Transformers

Les modèles de langage autorégressifs sont aujourd'hui entraînés via la prédiction du prochain token, une approche efficace mais fondamentalement limitée : à chaque étape, le modèle doit s'engager sur un choix unique, sans possibilité d'explorer plusieurs continuations plausibles. Une nouvelle recherche, acceptée à l'ICLR 2026 dans le cadre du workshop Latent & Implicit Thinking, propose une alternative : l'entraînement par anticipation latente (Latent Anticipation Training), conçu pour dépasser ces contraintes structurelles. L'enjeu est de taille pour le secteur. L'objectif de prédiction token par token impose une allocation de calcul uniforme : chaque token mobilise exactement un seul passage forward, quelle que soit sa difficulté. Cela bride l'expressivité du modèle sur les tokens complexes, ceux qui nécessiteraient davantage de "réflexion" avant d'être générés. En introduisant une dimension latente dans le processus d'entraînement, l'approche permet au modèle de raisonner implicitement avant de s'engager, ouvrant la voie à un calcul adaptatif selon la difficulté du contexte. Le papier s'inscrit dans un courant de recherche croissant qui cherche à aller au-delà du raisonnement par chaîne de pensée (Chain-of-Thought), en déportant une partie du raisonnement dans un espace latent non visible. Contrairement au CoT classique qui externalise le raisonnement sous forme de tokens intermédiaires explicites, l'anticipation latente opère de manière implicite, sans surcharge du contexte de génération. Cette distinction est centrale : le modèle "pense" sans écrire, ce qui réduit la latence et préserve la fluidité de génération. Si les résultats complets ne sont pas encore publics dans cet extrait, l'acceptation du travail à l'ICLR, l'une des conférences de référence en apprentissage automatique, signale une contribution jugée solide par la communauté. La convergence de plusieurs équipes vers des architectures à raisonnement latent, dont les récents travaux sur les Coconut tokens ou les espaces de pensée continues, suggère que cette direction pourrait redéfinir la prochaine génération de grands modèles de langage.

RecherchePaper

1 source

4La Tribune

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic