Aller au contenu principal
L’architecture Subquadratic SubQ est-elle le chaînon manquant de l’ère post-Transformer ?
RechercheLe Big Data2h· 2 min de lecture

L’architecture Subquadratic SubQ est-elle le chaînon manquant de l’ère post-Transformer ?

Source originale ↗·

L'explosion des volumes de données confronte l'informatique moderne à une limite fondamentale : la complexité quadratique O(n²), où le temps de calcul croît au carré du nombre de données traitées. Concrètement, si le volume d'information double, la puissance de calcul nécessaire quadruple. C'est dans ce contexte que l'approche Subquadratic, ou SubQ, s'impose comme une alternative mathématique structurée, désignant tout algorithme dont la complexité croît moins vite que O(n²), selon des notations comme O(n log n) ou O(n^1.5). Les ingénieurs y recourent via des stratégies éprouvées : la méthode "diviser pour régner", qui fragmente un problème en sous-unités indépendantes traitées en parallèle, ou les tables de hachage, qui permettent de cibler directement une adresse mémoire sans parcourir l'ensemble du système. Un exemple concret illustre l'enjeu : là où le tri à bulles s'effondre face aux grands volumes, le tri fusion en complexité subquadratique réduit des traitements de plusieurs heures à quelques secondes.

L'enjeu devient particulièrement critique pour les architectures Transformer, introduites en 2017 par l'article fondateur "Attention Is All You Need" et qui alimentent aujourd'hui la quasi-totalité des grands modèles de langage. Leur mécanisme central, le Self-Attention, compare chaque élément d'une séquence à tous les autres, générant une matrice de taille n×n nativement quadratique. Cette contrainte sature rapidement la mémoire graphique (VRAM) dès que les séquences s'allongent, forçant les premières générations d'IA à travailler dans des fenêtres de contexte sévèrement limitées. Le coût d'inférence qui en résulte pèse lourdement sur les budgets cloud et freine l'adoption à grande échelle, notamment dans les entreprises qui traitent des milliards de transactions quotidiennes.

La saturation des centres de données et l'essoufflement de la loi de Moore, qui garantissait jusqu'ici une progression régulière de la puissance des processeurs, ont rendu cette rupture algorithmique inévitable. Attendre la prochaine génération de puces ne suffit plus face à l'accélération des volumes de données. Les publications scientifiques récentes confirment une mobilisation croissante des chercheurs autour d'architectures post-Transformer capables de réduire structurellement ce coût quadratique. L'approche SubQ représente moins une innovation isolée qu'un changement de paradigme mathématique : non plus optimiser le matériel pour absorber des algorithmes inefficaces, mais repenser les fondements computationnels pour que la croissance des données ne dicte plus la croissance des coûts. Les acteurs qui parviendront à intégrer ces architectures dans leurs modèles de production pourraient disposer d'un avantage décisif en termes d'efficacité énergétique et d'accessibilité économique.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost 

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper
1 source
Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale
2La Tribune 

Santé : comment l'IA pourrait transformer les remboursements en outils de prédiction médicale

La Direction de la recherche, des études, de l'évaluation et des statistiques (Drees) a publié une étude démontrant que des modèles d'intelligence artificielle peuvent anticiper avec précision l'apparition de pathologies lourdes en exploitant le Système national des données de santé (SNDS). Cette base de données, constituée de l'ensemble des remboursements de l'Assurance maladie française, représente l'un des gisements de données médicales les plus exhaustifs au monde, couvrant près de 70 millions d'assurés sur plusieurs décennies. L'approche clé consiste à traiter les parcours de soins, enchaînements de consultations, prescriptions, hospitalisations, comme des séquences textuelles, permettant aux algorithmes de type transformeur d'y détecter des motifs invisibles aux biostatistiques classiques. Les résultats montrent que ces modèles surpassent significativement les méthodes statistiques traditionnelles pour prédire des maladies chroniques ou des complications graves avant leur déclaration clinique. Pour les médecins et les organismes de santé publique, cela ouvre la voie à une médecine préventive ciblée : identifier les patients à risque élevé plusieurs mois à l'avance, prioriser les interventions et potentiellement réduire la charge sur les hôpitaux. Les économies potentielles pour le système de santé sont considérables, dans un contexte de déficit chronique de l'Assurance maladie. Ces avancées ne vont pas sans tensions. L'exploitation du SNDS, bien que réglementée par la CNIL et le Health Data Hub, soulève des questions persistantes sur la confidentialité des données et les risques de discrimination algorithmique, notamment envers les populations défavorisées, souvent moins bien représentées dans les parcours de soins tracés. Se pose également la question de la souveraineté industrielle : qui développe ces modèles, sur quelle infrastructure, et au bénéfice de qui ? La France dispose d'un actif stratégique rare ; encore faut-il qu'elle en garde la maîtrise.

UEL'étude de la Drees exploite directement le SNDS, base de données de l'Assurance maladie française couvrant 70 millions d'assurés, et soulève des enjeux de souveraineté industrielle et de gouvernance réglementaire (CNIL, Health Data Hub) propres à la France.

💬 Le SNDS, c'est littéralement le meilleur dataset médical du monde occidental, et on commence enfin à en faire quelque chose d'utile. Traiter des parcours de soins comme des séquences textuelles pour les passer dans des transformeurs, c'est une idée simple en apparence, mais les résultats sur la prédiction de pathologies lourdes sont solides. La vraie question, c'est pas la technique, c'est qui va capter la valeur : un acteur français, européen, ou un géant américain qui lorgne dessus depuis des années.

RecherchePaper
1 source
GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot
3arXiv cs.RO 

GEGLU-Transformer pour l'estimation IMU vers EMG avec adaptation few-shot

Des chercheurs ont publié sur arXiv (référence 2604.25670) un système d'apprentissage automatique capable de reconstituer l'activité musculaire d'un individu à partir de simples capteurs de mouvement portables, sans recourir aux électrodes d'électromyographie traditionnelles. L'architecture proposée, baptisée GEGLU-Transformer, combine un encodeur de type Transformer avec des unités linéaires à porte d'erreur gaussienne (GEGLU) pour estimer en continu les enveloppes d'activation neuromusculaire des membres inférieurs. Testée selon un protocole strict dit "leave-one-subject-out" sur un jeu de données biomécanique multi-conditions, elle atteint une corrélation r = 0,706 sans aucune adaptation individuelle, puis r = 0,761 avec seulement 0,5 % des données spécifiques au sujet utilisées pour la personnalisation, soit une amélioration significative à partir d'un volume d'entraînement négligeable. Ces résultats ouvrent une voie concrète pour déployer des exosquelettes et des prothèses robotiques en dehors des laboratoires. L'électromyographie de surface, qui mesure l'activité électrique des muscles via des électrodes cutanées, est aujourd'hui indispensable au contrôle adaptatif de ces dispositifs, mais elle reste fragile : les signaux varient selon la transpiration, le placement des électrodes ou les caractéristiques physiologiques propres à chaque utilisateur. Remplacer ces capteurs par des centrales inertielles, accéléromètres et gyroscopes déjà intégrés dans la plupart des appareils portables grand public, permettrait de rendre ces systèmes nettement plus robustes, moins contraignants à calibrer et potentiellement accessibles à une population bien plus large de patients ou d'utilisateurs industriels. Le problème de la variabilité inter-individuelle est l'un des grands obstacles non résolus de la robotique neuromusculaire depuis plusieurs années. Les approches classiques nécessitaient des sessions de calibration longues et répétées pour chaque nouvel utilisateur, ce qui rendait leur usage clinique difficile à grande échelle. L'introduction d'architectures à base d'attention, popularisées par les grands modèles de langage, dans le domaine biomécanique reflète une tendance plus large à recycler des paradigmes issus du traitement du langage naturel vers des signaux physiologiques temporels. La capacité du modèle à se personnaliser rapidement avec très peu de données ouvre la perspective de dispositifs qui s'adaptent à leur porteur en quelques secondes, sans intervention d'un clinicien.

UELes fabricants européens d'exosquelettes et de prothèses pourraient bénéficier de cette approche pour réduire les contraintes de calibration clinique et élargir l'accès aux dispositifs d'assistance motrice.

RecherchePaper
1 source
Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation
4MarkTechPost 

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic