Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux
Une équipe de recherche allemande a développé une nouvelle architecture Transformer permettant aux modèles de décider eux-mêmes du temps de réflexion nécessaire selon le type de problème. Cette approche combine mémoire adaptative pour les connaissances générales et temps de calcul variable pour les raisonnements complexes comme les mathématiques. Résultat : le modèle surpasse des modèles plus grands sur des problèmes mathématiques.
Cette recherche menée par une équipe allemande renforce la position européenne dans la course à l'architecture des LLMs, avec un potentiel d'adoption par des labos et entreprises tech de l'UE.