CuspAI, ou la promesse d’une science accélérée par…

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

56

1MarkTechPost

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Une équipe de chercheurs de Google Cloud AI, de l'Université de l'Illinois à Urbana-Champaign et de l'Université Yale a présenté ReasoningBank, un cadre mémoire destiné aux agents IA qui distille les stratégies de raisonnement à partir de leurs réussites comme de leurs échecs. Le système fonctionne en trois étapes exécutées autour de chaque tâche accomplie : récupération mémoire, extraction mémoire, et consolidation mémoire. Avant de démarrer une nouvelle tâche, l'agent interroge ReasoningBank via une recherche par similarité vectorielle pour récupérer l'élément de mémoire le plus pertinent, injecté directement dans son prompt système. Les expériences d'ablation montrent qu'un seul élément récupéré (k=1) donne de meilleurs résultats qu'un lot plus large : le taux de succès atteint 49,7% avec k=1, contre 44,4% avec k=4. Une fois la tâche terminée, un extracteur de mémoire analyse la trajectoire et la condense en items structurés comportant un titre, une description en une phrase, et un contenu de 1 à 3 phrases. Pour évaluer si la tâche était réussie ou non, le système emploie un LLM-as-a-Judge, qui reste robuste même lorsque sa précision descend à 70%. Le problème que ReasoningBank cherche à résoudre est fondamental : les agents IA actuels souffrent d'une amnésie structurelle. Chaque tâche est abordée comme si aucune expérience antérieure n'existait, et les leçons apprises disparaissent dès la fin de l'exécution. Les approches existantes n'y remédient qu'en partie. La mémoire de trajectoire brute, utilisée par le système Synapse, enregistre chaque action mais génère trop de bruit pour être directement réutilisable. La mémoire de flux, mise en oeuvre dans Agent Workflow Memory, extrait des procédures réutilisables, mais uniquement à partir des succès, ce qui élimine le signal d'apprentissage contenu dans les échecs. ReasoningBank traite les deux de manière asymétrique : les réussites fournissent des stratégies validées, les échecs alimentent des mises en garde et des leçons préventives. Les chercheurs poussent le système plus loin avec MaTTS, une approche de mise à l'échelle au moment du test combinée à la mémoire. Plutôt que de générer plusieurs trajectoires pour une tâche et n'en conserver qu'une, MaTTS exploite l'ensemble de ces trajectoires comme signal contrastif pour enrichir ReasoningBank. Cette technique s'appuie sur une tendance déjà bien établie en raisonnement mathématique et en programmation, où le calcul supplémentaire au moment de l'inférence améliore nettement les performances. L'enjeu dépasse la simple optimisation technique : il s'agit de permettre aux agents déployés en entreprise, sur des tâches web, de résolution de bugs ou de navigation d'interface, de capitaliser sur leur expérience accumulée plutôt que de la jeter après chaque session.

RecherchePaper

1 source

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

57

2arXiv cs.RO

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

Une équipe de chercheurs a publié une nouvelle méthode d'apprentissage par renforcement baptisée Occupancy Reward Shaping (ORS), conçue pour résoudre l'un des problèmes les plus tenaces du domaine : l'attribution du crédit. Dans les environnements à récompenses rares, un agent autonome peut enchaîner des dizaines d'actions avant d'obtenir un signal de succès ou d'échec, ce qui rend extrêmement difficile l'identification des décisions qui ont réellement conduit au résultat. L'article, publié sur arXiv sous la référence 2604.20627, propose d'extraire la géométrie temporelle du monde à partir de modèles génératifs, puis de la convertir en une fonction de récompense auxiliaire via le transport optimal. Appliquée à 13 tâches de locomotion et de manipulation à long horizon, ORS améliore les performances de 2,2 fois en moyenne par rapport aux approches existantes. La méthode a également été testée sur un problème réel et exigeant : le contrôle du plasma dans trois configurations de réacteur à fusion nucléaire de type Tokamak. L'impact potentiel de cette avancée est significatif pour tous les systèmes autonomes qui doivent apprendre à partir de données collectées offline, c'est-à-dire sans interaction en temps réel avec l'environnement. Les robots industriels, les systèmes de planification médicale ou les agents de contrôle de processus physiques complexes sont directement concernés. La garantie théorique centrale d'ORS, que le remodelage de la récompense ne modifie pas la politique optimale, est cruciale : elle signifie que la méthode accélère l'apprentissage sans introduire de biais ou de comportements indésirables, ce qui est un prérequis pour toute application dans des contextes à risque élevé comme la fusion nucléaire. L'attribution du crédit temporel est un problème fondamental de l'apprentissage par renforcement depuis ses origines, et de nombreuses approches ont tenté de le contourner via des récompenses intermédiaires conçues à la main ou des architectures récurrentes. ORS se distingue en exploitant les modèles de monde génératifs, qui connaissent un regain d'intérêt depuis les travaux de DeepMind et d'autres laboratoires sur la planification basée sur des modèles. En combinant ces modèles avec le transport optimal, un outil mathématique issu de la théorie de la mesure, les auteurs ouvrent une voie systématique pour encoder la structure géométrique de n'importe quel environnement. Le code source est disponible publiquement sur GitHub, ce qui facilitera l'adoption et les travaux de réplication dans la communauté.

UELa méthode ORS, validée sur des réacteurs Tokamak, pourrait intéresser le projet ITER hébergé à Cadarache (France), principal programme mondial de fusion nucléaire financé par l'UE.

RecherchePaper

1 source

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

57

3arXiv cs.RO

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

Des chercheurs ont publié SpaCeFormer, un nouveau modèle de segmentation d'instances 3D en vocabulaire ouvert capable d'analyser une scène entière en seulement 0,14 seconde, soit 100 à 1000 fois plus vite que les pipelines existants combinant vision 2D et reconstruction 3D. Le modèle repose sur un transformeur dit « space-curve » sans proposition préalable, qui combine une attention par fenêtres spatiales avec une sérialisation via la courbe de Morton pour produire des caractéristiques cohérentes dans l'espace. Un décodeur amélioré par RoPE prédit ensuite directement les masques d'instances à partir de requêtes apprises, sans faire appel à des propositions de régions externes. Pour l'entraîner, les auteurs ont constitué SpaCeFormer-3M, le plus grand jeu de données de segmentation 3D en vocabulaire ouvert jamais créé : 3 millions de légendes cohérentes sur plusieurs vues, couvrant 604 000 instances issues de 7 400 scènes. Ce dataset atteint un rappel de masques 21 fois supérieur aux approches monovues précédentes, soit 54,3 % contre 2,5 % à un seuil IoU supérieur à 0,5. Les performances obtenues sur les benchmarks de référence illustrent un saut qualitatif significatif. Sur ScanNet200, SpaCeFormer atteint un score mAP zero-shot de 11,1, soit 2,8 fois mieux que la meilleure méthode sans proposition antérieure. Sur ScanNet++ et Replica, il dépasse respectivement 22,9 et 24,1 mAP, surpassant tous les modèles précédents y compris ceux exploitant des entrées 2D multi-vues. Cette combinaison de vitesse et de précision ouvre la voie à des applications temps réel dans des environnements non structurés, où les catégories d'objets ne peuvent pas être définies à l'avance. La segmentation d'instances 3D en vocabulaire ouvert est une brique fondamentale pour la robotique autonome et la réalité augmentée ou virtuelle : un robot ou un casque AR doit pouvoir identifier et délimiter n'importe quel objet dans une scène, même inconnu. Les méthodes antérieures souffraient soit d'une latence prohibitive liée à l'agrégation de sorties de modèles fondationnaux sur plusieurs centaines de secondes, soit d'une fragmentation des masques due à l'absence de cohérence multi-vues. SpaCeFormer résout les deux verrous simultanément, et la mise à disposition publique du dataset SpaCeFormer-3M devrait accélérer les travaux de la communauté sur ce problème.

RecherchePaper

1 source

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points

56

4arXiv cs.RO

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points

Des chercheurs ont publié sur arXiv une nouvelle méthode de détection de fermeture de boucle pour les robots mobiles autonomes équipés de capteurs LiDAR, sous le nom de code MapClosures. Le système résout un problème fondamental de la cartographie robotique : lorsqu'un robot repasse par un endroit déjà visité, il doit reconnaître ce lieu et corriger l'accumulation d'erreurs de positionnement, un phénomène appelé dérive globale. La pipeline présentée génère des cartes locales à partir des nuages de points LiDAR, les aligne avec un module dédié à la gestion du terrain, puis produit des projections à vue aérienne en préservant la densité des points. Des descripteurs de caractéristiques ORB sont extraits de ces projections et stockés dans un arbre de recherche binaire pour accélérer les requêtes. Un mécanisme d'élagage par auto-similarité permet d'éviter les faux positifs dans les environnements répétitifs, comme des couloirs ou des rangées d'arbres. Le code source est disponible en open source sur GitHub, dans le dépôt PRBonn/MapClosures. L'impact de cette approche est particulièrement significatif pour les applications de robotique en extérieur, livraison autonome, inspection industrielle, véhicules tout-terrain, où la précision cartographique sur de longues distances est critique. Contrairement à de nombreuses solutions existantes qui dépendent d'un type précis de capteur ou d'un profil de mouvement spécifique, MapClosures fonctionne avec des LiDAR aux résolutions, champs de vision et patterns de scan très différents. Cela réduit considérablement les coûts d'intégration pour les équipes qui changent de matériel ou déploient plusieurs types de robots sur un même système. Le SLAM (Simultaneous Localization and Mapping) est un défi ouvert depuis plusieurs décennies en robotique, et la fermeture de boucle en est l'un des maillons les plus fragiles, surtout en environnements non structurés. Les travaux proviennent du laboratoire PRBonn, associé à l'Université de Bonn, acteur reconnu dans la recherche en perception robotique. En rendant la méthode agnostique au capteur et en publiant le code librement, les auteurs visent une adoption large dans la communauté académique et industrielle. Les prochaines étapes pourraient inclure l'intégration avec des systèmes de fusion multi-capteurs et des tests à plus grande échelle dans des environnements dynamiques urbains.

UEIssu du laboratoire PRBonn de l'Université de Bonn (Allemagne), ce travail open source renforce la compétitivité européenne en robotique mobile et peut bénéficier directement aux équipes françaises et européennes développant des robots autonomes ou des véhicules LiDAR.

RechercheActu

1 source

CuspAI, ou la promesse d’une science accélérée par l’intelligence artificielle

À lire aussi

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Attribution du crédit par modélisation des récompenses en apprentissage par renforcement hors ligne orienté objectifs

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

Fermeture de boucle efficace en SLAM LiDAR par cartes de densité de nuages de points