Aller au contenu principal
Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux
RechercheThe Decoder12sem· 1 min de lecture

Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux

Source originale ↗·

Une équipe de recherche allemande vient de proposer une nouvelle architecture Transformer capable d'adapter dynamiquement son propre processus de réflexion selon la nature de la tâche. Contrairement aux modèles classiques qui appliquent un nombre fixe d'étapes de traitement, ce système laisse le modèle décider lui-même combien de fois il doit « réfléchir » avant de produire une réponse — une avancée qui reflète une intuition simple : résoudre une équation n'exige pas les mêmes ressources cognitives que se souvenir d'un fait du quotidien.

L'enjeu est de taille pour le secteur. Les architectures actuelles souffrent d'un compromis structurel : augmenter les capacités de raisonnement tend à dégrader la mémorisation factuelle, et inversement. Cette nouvelle approche cherche à réconcilier les deux en couplant le mécanisme de réflexion adaptative à un module de mémoire externe, permettant au modèle de stocker et de rappeler des connaissances sans mobiliser inutilement du temps de calcul supplémentaire.

Les résultats sont significatifs : sur des benchmarks de mathématiques, l'architecture surpasse des modèles de plus grande taille, ce qui suggère que l'efficacité du raisonnement peut compenser le manque de paramètres bruts. Le principe repose sur une allocation intelligente des ressources — les problèmes complexes déclenchent davantage d'itérations internes, tandis que les requêtes factuelles simples court-circuitent ce processus pour aller directement puiser dans la mémoire.

Si cette approche se confirme à plus grande échelle, elle pourrait redéfinir la manière dont on conçoit les grands modèles de langage : non plus en empilant toujours plus de paramètres, mais en dotant les modèles d'une forme d'intelligence métacognitive — la capacité de savoir quand penser davantage, et quand simplement se souvenir.

Impact France/UE

Cette recherche menée par une équipe allemande renforce la position européenne dans la course à l'architecture des LLMs, avec un potentiel d'adoption par des labos et entreprises tech de l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel
1MarkTechPost 

Sakana AI présente KAME : une architecture vocale en tandem qui intègre les connaissances d'un LLM en temps réel

Le laboratoire d'intelligence artificielle tokyoïte Sakana AI a présenté KAME (Knowledge-Access Model Extension), une architecture hybride de traitement vocal conçue pour éliminer le compromis historique entre vitesse et qualité de réponse dans les assistants vocaux. KAME fonctionne comme un système en tandem : un module vocal de première ligne, basé sur l'architecture Moshi de KyutAI, commence à générer une réponse audio en moins de 80 millisecondes, pendant qu'un grand modèle de langage (LLM) tourne en parallèle en arrière-plan. L'innovation centrale est l'ajout d'un quatrième flux de données dit « oracle » dans l'architecture de Moshi, originellement à trois flux. Ce flux reçoit en temps réel les réponses candidates produites par le LLM à partir d'une transcription partielle de la parole de l'utilisateur, et permet au module vocal de corriger sa réponse en cours de génération, comme un humain qui se reprend à mi-phrase. Ce système résout un problème structurel qui freinait le déploiement des assistants vocaux conversationnels. Les modèles directs de type speech-to-speech, rapides à répondre, peinent à intégrer des connaissances factuelles profondes car ils consacrent une grande partie de leur capacité à modéliser les traits paralinguistiques comme le ton ou l'émotion. À l'inverse, les systèmes en cascade, qui font transiter la parole par un LLM via reconnaissance puis synthèse vocale, accusent une latence médiane de 2,1 secondes, suffisante pour rendre la conversation perceptiblement artificielle. KAME offre les deux à la fois : réactivité quasi instantanée et richesse sémantique d'un modèle de langage frontier, ce qui ouvre la voie à des assistants vocaux réellement utilisables dans des contextes professionnels, médicaux ou grand public exigeants. Sakana AI a dû résoudre un défi d'entraînement inédit : aucun jeu de données naturel ne contient de signaux oracle. L'équipe a développé une technique appelée Simulated Oracle Augmentation, utilisant un LLM simulateur pour générer des séquences synthétiques d'oracles à six niveaux de complétude de transcript (de 0 à 5), reproduisant ce qu'un LLM produirait en temps réel. Sakana AI, fondé en 2023 à Tokyo par des anciens de Google DeepMind dont David Ha et Llion Jones, s'est construit une réputation sur les architectures évolutives inspirées de la biologie. KAME s'inscrit dans une course mondiale à la voix naturelle, face à des acteurs comme OpenAI (Advanced Voice Mode) et Google (Project Astra), avec la particularité d'une approche entièrement modulaire permettant de brancher n'importe quel LLM en back-end.

UEL'architecture KAME s'appuie sur Moshi, le modèle vocal conçu par le laboratoire français KyutAI, plaçant la recherche française au cœur d'une innovation mondiale en IA vocale.

RecherchePaper
1 source
L’architecture Subquadratic SubQ est-elle le chaînon manquant de l’ère post-Transformer ?
2Le Big Data 

L’architecture Subquadratic SubQ est-elle le chaînon manquant de l’ère post-Transformer ?

L'explosion des volumes de données confronte l'informatique moderne à une limite fondamentale : la complexité quadratique O(n²), où le temps de calcul croît au carré du nombre de données traitées. Concrètement, si le volume d'information double, la puissance de calcul nécessaire quadruple. C'est dans ce contexte que l'approche Subquadratic, ou SubQ, s'impose comme une alternative mathématique structurée, désignant tout algorithme dont la complexité croît moins vite que O(n²), selon des notations comme O(n log n) ou O(n^1.5). Les ingénieurs y recourent via des stratégies éprouvées : la méthode "diviser pour régner", qui fragmente un problème en sous-unités indépendantes traitées en parallèle, ou les tables de hachage, qui permettent de cibler directement une adresse mémoire sans parcourir l'ensemble du système. Un exemple concret illustre l'enjeu : là où le tri à bulles s'effondre face aux grands volumes, le tri fusion en complexité subquadratique réduit des traitements de plusieurs heures à quelques secondes. L'enjeu devient particulièrement critique pour les architectures Transformer, introduites en 2017 par l'article fondateur "Attention Is All You Need" et qui alimentent aujourd'hui la quasi-totalité des grands modèles de langage. Leur mécanisme central, le Self-Attention, compare chaque élément d'une séquence à tous les autres, générant une matrice de taille n×n nativement quadratique. Cette contrainte sature rapidement la mémoire graphique (VRAM) dès que les séquences s'allongent, forçant les premières générations d'IA à travailler dans des fenêtres de contexte sévèrement limitées. Le coût d'inférence qui en résulte pèse lourdement sur les budgets cloud et freine l'adoption à grande échelle, notamment dans les entreprises qui traitent des milliards de transactions quotidiennes. La saturation des centres de données et l'essoufflement de la loi de Moore, qui garantissait jusqu'ici une progression régulière de la puissance des processeurs, ont rendu cette rupture algorithmique inévitable. Attendre la prochaine génération de puces ne suffit plus face à l'accélération des volumes de données. Les publications scientifiques récentes confirment une mobilisation croissante des chercheurs autour d'architectures post-Transformer capables de réduire structurellement ce coût quadratique. L'approche SubQ représente moins une innovation isolée qu'un changement de paradigme mathématique : non plus optimiser le matériel pour absorber des algorithmes inefficaces, mais repenser les fondements computationnels pour que la croissance des données ne dicte plus la croissance des coûts. Les acteurs qui parviendront à intégrer ces architectures dans leurs modèles de production pourraient disposer d'un avantage décisif en termes d'efficacité énergétique et d'accessibilité économique.

RecherchePaper
1 source
3MarkTechPost 

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper
1 source
MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
4MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic