Aller au contenu principal
RechercheThe Decoder3h

Les maths demandent du temps de réflexion, la connaissance du quotidien demande de la mémoire — une nouvelle architecture Transformer vise à combiner les deux

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Une équipe de recherche allemande a développé une nouvelle architecture Transformer permettant aux modèles de décider eux-mêmes du temps de réflexion nécessaire selon le type de problème. Cette approche combine mémoire adaptative pour les connaissances générales et temps de calcul variable pour les raisonnements complexes comme les mathématiques. Résultat : le modèle surpasse des modèles plus grands sur des problèmes mathématiques.

Impact France/UE

Cette recherche menée par une équipe allemande renforce la position européenne dans la course à l'architecture des LLMs, avec un potentiel d'adoption par des labos et entreprises tech de l'UE.

Articles similaires

1MIT Technology Review1j

OpenAI mise tout sur la création d'un chercheur entièrement automatisé

OpenAI réoriente ses efforts de recherche vers un objectif ambitieux : construire un "chercheur IA" entièrement automatisé, capable de résoudre seul des problèmes complexes en mathématiques, sciences du vivant ou politique. Le chef scientifique Jakub Pachocki annonce un premier jalon pour septembre 2026 — un "intern IA" autonome — suivi d'un système multi-agents complet prévu pour 2028. Face à la concurrence d'Anthropic et Google DeepMind, OpenAI affirme disposer désormais de la plupart des briques nécessaires pour atteindre cet objectif.

RecherchePaper
1 source
2MarkTechPost3j

Présentation de Mamba-3 : Un nouveau front d'état spatial avec des états deux fois plus petits et une efficacité accrue des circuits de décodage MIMO

Mamba-3, développé par des chercheurs de CMU, Princeton, Together AI et Cartesia AI, est un modèle innovant qui aborde les contraintes liées à l'efficacité inference dans les Grandes Modèles de Langage (LLM). Il s'appuie sur le cadre des Modèles d'État Espace (SSM) et introduit trois mises à jour méthodologiques clés : la discrétisation exponentielle-trapézoidale, les mises à jour d'état complexes-valeurs et une formulation Multi-Input Multi-Output (MIMO). Ces améliorations permettent à Mamba-3 de fonctionner efficacement avec une taille d'état réduite de moitié par rapport aux précédents modèles, tout en optimisant l'efficacité matérielle pour le décodage.

RecherchePaper
1 source
3MarkTechPost3j

Des chercheurs de Tsinghua et Ant Group dévoilent OpenClaw, un cadre de sécurité en cinq couches orienté cycle de vie pour atténuer les vulnérabilités des agents LLM autonomes

Des chercheurs de l'Université Tsinghua et d'Ant Group ont analysé les vulnérabilités de sécurité de l'agent LLM autonome OpenClaw, révélant que son architecture "kernel-plugin" — pilotée par un composant central appelé pi-coding-agent — expose le système à des risques systémiques multi-étapes que les défenses traditionnelles ne couvrent pas. L'équipe propose un cadre de sécurité en cinq couches couvrant tout le cycle de vie de l'agent (initialisation, entrée, inférence, décision, exécution), permettant d'identifier des menaces composites comme l'empoisonnement mémoire et la compromission de la chaîne d'approvisionnement des plugins. Ces travaux soulignent que les agents autonomes à hauts privilèges ne peuvent plus être sécurisés par des mécanismes isolés, mais nécessitent une approche défensive couvrant l'ensemble de leur pipeline opérationnel.

RechercheActu
1 source