Aller au contenu principal
Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents
RechercheMarkTechPost6sem

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Résumé IASource uniqueImpact UE
Source originale ↗·

Une équipe de chercheurs de Google Cloud AI, de l'Université de l'Illinois à Urbana-Champaign et de l'Université Yale a présenté ReasoningBank, un cadre mémoire destiné aux agents IA qui distille les stratégies de raisonnement à partir de leurs réussites comme de leurs échecs. Le système fonctionne en trois étapes exécutées autour de chaque tâche accomplie : récupération mémoire, extraction mémoire, et consolidation mémoire. Avant de démarrer une nouvelle tâche, l'agent interroge ReasoningBank via une recherche par similarité vectorielle pour récupérer l'élément de mémoire le plus pertinent, injecté directement dans son prompt système. Les expériences d'ablation montrent qu'un seul élément récupéré (k=1) donne de meilleurs résultats qu'un lot plus large : le taux de succès atteint 49,7% avec k=1, contre 44,4% avec k=4. Une fois la tâche terminée, un extracteur de mémoire analyse la trajectoire et la condense en items structurés comportant un titre, une description en une phrase, et un contenu de 1 à 3 phrases. Pour évaluer si la tâche était réussie ou non, le système emploie un LLM-as-a-Judge, qui reste robuste même lorsque sa précision descend à 70%.

Le problème que ReasoningBank cherche à résoudre est fondamental : les agents IA actuels souffrent d'une amnésie structurelle. Chaque tâche est abordée comme si aucune expérience antérieure n'existait, et les leçons apprises disparaissent dès la fin de l'exécution. Les approches existantes n'y remédient qu'en partie. La mémoire de trajectoire brute, utilisée par le système Synapse, enregistre chaque action mais génère trop de bruit pour être directement réutilisable. La mémoire de flux, mise en oeuvre dans Agent Workflow Memory, extrait des procédures réutilisables, mais uniquement à partir des succès, ce qui élimine le signal d'apprentissage contenu dans les échecs. ReasoningBank traite les deux de manière asymétrique : les réussites fournissent des stratégies validées, les échecs alimentent des mises en garde et des leçons préventives.

Les chercheurs poussent le système plus loin avec MaTTS, une approche de mise à l'échelle au moment du test combinée à la mémoire. Plutôt que de générer plusieurs trajectoires pour une tâche et n'en conserver qu'une, MaTTS exploite l'ensemble de ces trajectoires comme signal contrastif pour enrichir ReasoningBank. Cette technique s'appuie sur une tendance déjà bien établie en raisonnement mathématique et en programmation, où le calcul supplémentaire au moment de l'inférence améliore nettement les performances. L'enjeu dépasse la simple optimisation technique : il s'agit de permettre aux agents déployés en entreprise, sur des tâches web, de résolution de bugs ou de navigation d'interface, de capitaliser sur leur expérience accumulée plutôt que de la jeter après chaque session.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
1VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
Comment créer des agents de raisonnement sur mesure avec un minimum de calcul
2VentureBeat AI 

Comment créer des agents de raisonnement sur mesure avec un minimum de calcul

Des chercheurs de JD.com et de plusieurs institutions académiques ont publié une nouvelle méthode d'entraînement pour les modèles d'IA raisonnants, baptisée RLSD, pour Reinforcement Learning with Verifiable Rewards with Self-Distillation. L'approche combine deux techniques existantes : l'apprentissage par renforcement avec récompenses vérifiables (RLVR), qui évalue simplement si une réponse finale est juste ou fausse, et l'auto-distillation, qui fournit un retour granulaire sur chaque étape du raisonnement. Selon les expériences publiées, les modèles entraînés avec RLSD surpassent ceux construits avec les algorithmes classiques de distillation et d'apprentissage par renforcement. Chenxu Yang, co-auteur de l'étude, a précisé à VentureBeat les défauts fondamentaux des méthodes précédentes : avec RLVR standard, une trace de raisonnement de plusieurs milliers de tokens ne reçoit qu'une seule récompense binaire, 0 ou 1, et chaque token dans cette trace obtient exactement le même crédit, qu'il s'agisse d'une étape logique décisive ou d'une phrase accessoire. Pour les équipes d'ingénierie en entreprise, RLSD réduit concrètement les barrières techniques et financières pour construire des modèles de raisonnement sur mesure adaptés à leur logique métier. La méthode concurrente dite OPD (On-Policy Distillation) exige de maintenir un grand modèle "enseignant" actif en permanence durant tout l'entraînement, ce qui, selon Yang, "double approximativement votre empreinte GPU". Elle impose également que le modèle enseignant et le modèle étudiant partagent exactement la même structure de vocabulaire, ce qui exclut de facto la majorité des configurations multi-architectures, multi-modalités ou multilingues que les entreprises utilisent réellement. RLSD contourne ces contraintes sans sacrifier la qualité du signal d'apprentissage. L'auto-distillation en mode OPSD (On-Policy Self-Distillation), qui faisait jouer au même modèle le rôle de l'enseignant et de l'étudiant, semblait être le compromis idéal, mais souffre d'un défaut structural identifié par les chercheurs : la "fuite d'information privilégiée". Lorsque la version enseignante du modèle dispose d'une clé de réponse vérifiée et que la version étudiante tente de reproduire son comportement sans cette information, il existe un écart irréductible entre les deux distributions que l'étudiant ne peut jamais combler. RLSD est conçu pour résoudre précisément ce problème, en combinant les avantages de chaque paradigme sans en hériter les défauts. Cette publication s'inscrit dans une course plus large à démocratiser l'entraînement de modèles raisonnants de qualité, jusqu'ici réservé aux acteurs disposant de grandes infrastructures de calcul.

RecherchePaper
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
3MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif
4MarkTechPost 

Construire des Transformers à profondeur récurrente avec OpenMythos : MLA, GQA, Sparse MoE et raisonnement itératif

OpenMythos est une bibliothèque Python open source permettant de construire des transformers dits "recurrent-depth", une architecture hybride qui combine des blocs d'attention avancés avec une boucle récurrente contrôlée. Un tutoriel publié récemment montre comment déployer cette bibliothèque de bout en bout dans Google Colab pour entraîner deux variantes de modèles : l'une utilisant l'attention multi-latente (MLA, inspirée de DeepSeek-V2) avec cache KV compressé, l'autre utilisant l'attention par groupes de requêtes (GQA, avec moins de têtes KV que de têtes Q). Les deux variantes intègrent également un Mixture of Experts épars (4 experts au total, 2 activés par token, 1 expert partagé), avec une dimension cachée de 128, 4 têtes d'attention, et une longueur de séquence maximale de 32 tokens. Le tutoriel valide les modèles sur une tâche de raisonnement compositionnel synthétique : prédire la somme d'une chaîne de chiffres modulo 7, une tâche conçue pour forcer le modèle à enchaîner plusieurs étapes de calcul intermédiaires. Ce type d'architecture présente un avantage concret majeur : la réutilisation des paramètres via les boucles récurrentes. Là où un transformer classique empile physiquement N couches distinctes pour N niveaux de profondeur de traitement, un modèle recurrent-depth peut traverser les mêmes couches plusieurs fois (jusqu'à 8 itérations de boucle dans ce tutoriel), simulant une profondeur de calcul bien supérieure à son nombre réel de paramètres. Le tutoriel mesure notamment le rayon spectral de la matrice d'injection récurrente, un indicateur de stabilité numérique qui doit rester inférieur à 1 pour garantir que les activations ne divergent pas au fil des boucles. Cette approche ouvre la voie à des modèles capables d'allouer dynamiquement plus de "réflexion" à des problèmes complexes sans augmenter leur empreinte mémoire permanente. L'architecture s'inscrit dans un mouvement plus large de recherche sur l'efficacité computationnelle des grands modèles de langage. L'attention MLA a été popularisée par DeepSeek-V2, un modèle chinois open source qui a démontré en 2024 qu'une compression agressive du cache KV pouvait réduire les coûts d'inférence sans dégradation notable des performances. La combinaison avec un Mixture of Experts épars rappelle l'architecture de Mixtral (Mistral AI) et de ses successeurs, où seule une fraction des paramètres est activée par token. OpenMythos cherche à réunir ces techniques dans un cadre expérimental accessible, destiné aux chercheurs et ingénieurs qui souhaitent explorer les interactions entre profondeur récurrente, routage par experts et variantes d'attention compressée, sans avoir à implémenter chaque composant depuis zéro.

UELes chercheurs et ingénieurs européens peuvent utiliser cette bibliothèque open source pour expérimenter des architectures hybrides récurrentes sans reconstruire les composants depuis zéro, réduisant la barrière à la recherche indépendante.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour