
Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux
Une équipe de recherche allemande vient de proposer une nouvelle architecture Transformer capable d'adapter dynamiquement son propre processus de réflexion selon la nature de la tâche. Contrairement aux modèles classiques qui appliquent un nombre fixe d'étapes de traitement, ce système laisse le modèle décider lui-même combien de fois il doit « réfléchir » avant de produire une réponse — une avancée qui reflète une intuition simple : résoudre une équation n'exige pas les mêmes ressources cognitives que se souvenir d'un fait du quotidien.
L'enjeu est de taille pour le secteur. Les architectures actuelles souffrent d'un compromis structurel : augmenter les capacités de raisonnement tend à dégrader la mémorisation factuelle, et inversement. Cette nouvelle approche cherche à réconcilier les deux en couplant le mécanisme de réflexion adaptative à un module de mémoire externe, permettant au modèle de stocker et de rappeler des connaissances sans mobiliser inutilement du temps de calcul supplémentaire.
Les résultats sont significatifs : sur des benchmarks de mathématiques, l'architecture surpasse des modèles de plus grande taille, ce qui suggère que l'efficacité du raisonnement peut compenser le manque de paramètres bruts. Le principe repose sur une allocation intelligente des ressources — les problèmes complexes déclenchent davantage d'itérations internes, tandis que les requêtes factuelles simples court-circuitent ce processus pour aller directement puiser dans la mémoire.
Si cette approche se confirme à plus grande échelle, elle pourrait redéfinir la manière dont on conçoit les grands modèles de langage : non plus en empilant toujours plus de paramètres, mais en dotant les modèles d'une forme d'intelligence métacognitive — la capacité de savoir quand penser davantage, et quand simplement se souvenir.
Cette recherche menée par une équipe allemande renforce la position européenne dans la course à l'architecture des LLMs, avec un potentiel d'adoption par des labos et entreprises tech de l'UE.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


