Aller au contenu principal
INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG
RecherchearXiv cs.RO3sem

INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté INHerit-SG, un nouveau système de représentation sémantique des environnements 3D destiné à améliorer la navigation des robots autonomes. Publié sur arXiv (2502.12971v2), ce travail propose une architecture dite "à double flux asynchrone" qui transforme un environnement physique en une base de connaissances structurée, compatible avec les techniques de récupération augmentée par génération (RAG). Concrètement, le système construit en continu un graphe de scène sémantique : chaque nœud du graphe représente un objet ou une zone, stocke un résumé en langage naturel, et peut être interrogé par du texte, comme on interrogerait une base documentaire. La segmentation géométrique et le raisonnement sémantique sont délibérément découplés pour ne pas ralentir la cartographie. Un pipeline de récupération interprétable, combinant plusieurs LLMs spécialisés et une étape de vérification visuelle, filtre les faux positifs avant de répondre à une requête.

L'impact est significatif pour la robotique de service et les agents incarnés : jusqu'ici, les systèmes existants peinaient à traiter des requêtes complexes du type "trouve l'objet rouge qui n'est pas sur la table et qui se trouve à gauche du canapé". INHerit-SG atteint des performances à l'état de l'art sur ce type de requêtes à contraintes spatiales chaînées ou formulées avec des négations, deux cas précisément où les approches antérieures échouaient. Les évaluations ont été conduites sur HM3DSem-SQR, un nouveau benchmark spécifiquement conçu pour ces requêtes sémantiques complexes, ainsi que dans des environnements réels.

Ce travail s'inscrit dans une vague de recherche qui cherche à doter les robots d'une compréhension de haut niveau de leur environnement, au-delà des simples cartes géométriques. L'intégration des grands modèles de langage dans la boucle de raisonnement spatial est un axe très actif depuis 2023, porté notamment par des travaux comme ConceptGraphs ou SayPlan. INHerit-SG se distingue par sa mise à jour incrémentale et asynchrone, qui permet une utilisation en temps réel sans bloquer la cartographie. Les prochaines étapes naturelles concernent la robustesse dans des environnements très dynamiques et la généralisation à des plateformes robotiques variées.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs
1InfoQ AI 

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs

Les systèmes RAG agentiques hiérarchiques représentent une nouvelle approche pour automatiser l'analyse de données complexes en entreprise. Dans un article publié récemment, Abhijit Ubale détaille comment ces architectures coordonnent des agents spécialisés, chacun dédié à un type de source ou de raisonnement, sous la supervision d'un orchestrateur central. Le cadre présenté, appelé Protocol-H, illustre concrètement ce modèle : les requêtes sont acheminées de façon déterministe vers les bons agents, qui peuvent interroger simultanément des bases vectorielles, des documents structurés ou des données multimodales comme des images et des tableaux. Ce qui distingue cette approche des RAG classiques, c'est la capacité de récupération autonome en cas d'erreur. Lorsqu'un agent produit un résultat insuffisant ou incohérent, le système déclenche automatiquement une boucle de réessai réflexif sans intervention humaine. Pour les équipes analytiques en entreprise, cela réduit drastiquement les interruptions de pipeline et améliore la fiabilité des réponses sur des requêtes complexes à sources multiples. La traçabilité est également renforcée : chaque décision de routage est journalisée, ce qui facilite l'auditabilité des workflows. Ce type d'architecture s'inscrit dans une tendance de fond qui dépasse les RAG simples pour aller vers des systèmes multi-agents capables de raisonner sur des données hétérogènes. Alors que les entreprises cherchent à déployer des pipelines IA fiables en production, les questions de robustesse, de contrôle et d'explicabilité deviennent centrales. Protocol-H propose une réponse concrète, mais sa généralisation dépendra de la capacité des équipes à maintenir des orchestrateurs complexes à grande échelle.

RecherchePaper
1 source
2InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source
Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x
3MarkTechPost 

Salesforce publie VoiceAgentRAG : un routeur mémoire à deux agents qui réduit la latence de récupération RAG vocale de 316x

Salesforce AI Research a publié VoiceAgentRAG, une architecture open source à double agent conçue pour résoudre l'un des problèmes les plus critiques des assistants vocaux : la latence de récupération des données. Dans un système RAG (Retrieval-Augmented Generation) classique, chaque requête vers une base vectorielle distante introduit entre 50 et 300 millisecondes de délai réseau — un délai qui, pour la voix, consume la totalité du budget disponible avant même que le modèle de langage commence à générer une réponse. VoiceAgentRAG réduit ce délai de récupération de 316 fois, passant de 110 ms à 0,35 ms, grâce à un cache sémantique local. Sur 200 requêtes testées avec Qdrant Cloud comme base vectorielle distante, le système atteint un taux de cache hit global de 75 % (79 % sur les tours de conversation où le cache est déjà chaud), économisant 16,5 secondes de temps de récupération au total. Ce gain de performance change fondamentalement ce qui est possible dans les interfaces vocales alimentées par l'IA. Maintenir une conversation naturelle exige une réponse en moins de 200 millisecondes — contrainte que les systèmes RAG standards ne peuvent pas respecter en production. En découplant la récupération des documents de la génération de réponse, VoiceAgentRAG permet aux agents vocaux d'accéder à une base de connaissances étendue sans sacrifier la fluidité conversationnelle. L'architecture est compatible avec les principaux fournisseurs LLM (OpenAI, Anthropic, Gemini, Ollama) et les systèmes d'embedding courants, ce qui facilite son intégration dans des stacks existants. Les scénarios de conversation thématiquement cohérents, comme la comparaison de fonctionnalités, atteignent jusqu'à 95 % de cache hit ; les scénarios plus volatils descendent à 45-55 %. L'architecture repose sur deux agents parallèles coordonnés par un bus d'événements asynchrone. Le « Fast Talker » gère le chemin critique : il interroge d'abord un cache FAISS en mémoire, et ne fait appel à la base distante qu'en cas d'échec, avant de mettre le résultat en cache pour les tours suivants. Le « Slow Thinker » opère en arrière-plan : il analyse une fenêtre glissante des six derniers tours de conversation pour anticiper trois à cinq sujets probables et pré-charger les documents correspondants avant que l'utilisateur ne pose sa prochaine question. Une subtilité technique notable : le Slow Thinker génère des descriptions stylistiquement proches des documents sources plutôt que des questions, alignant ainsi les embeddings de prédiction sur ceux des textes réels dans la base. Le cache utilise un seuil de similarité cosinus de 0,40 pour les correspondances et une politique d'éviction LRU avec une durée de vie de 300 secondes. Publié en open source sur arXiv (2603.02206), VoiceAgentRAG marque une étape concrète vers des agents vocaux capables de raisonner sur des bases documentaires larges en temps réel.

RecherchePaper
1 source
Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique
4arXiv cs.RO 

Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique

Des chercheurs d'AgibotTech ont publié sur arXiv un système baptisé Genie Sim PanoRecon, capable de reconstruire des scènes 3D photoréalistes à partir d'une seule image panoramique en quelques secondes. La méthode repose sur le Gaussian splatting, une technique de représentation 3D par nuages de points gaussiens. Concrètement, le panorama d'entrée est décomposé en six faces d'une carte cubique non superposées, traitées en parallèle puis réassemblées de façon cohérente. Pour garantir la cohérence géométrique entre les différentes vues, l'équipe a développé une stratégie de fusion guidée par la profondeur, couplée à un module d'injection de profondeur sans entraînement supplémentaire, qui oriente le réseau monoculaire vers la génération de Gaussiens 3D cohérents. Le système a été intégré directement dans Genie Sim, une plateforme de simulation pilotée par LLM dédiée à la génération de données synthétiques pour l'IA incarnée. L'enjeu central est de réduire drastiquement le coût et le temps de création d'environnements 3D pour entraîner des robots à la manipulation d'objets. Là où la construction manuelle d'une scène 3D réaliste peut prendre des heures ou des jours, PanoRecon le fait en quelques secondes à partir d'une simple photo panoramique. Pour les équipes de robotique, cela ouvre la voie à une génération massive et automatisée de scènes d'entraînement variées, ce qui est un verrou majeur dans le développement de robots polyvalents capables de generaliser à des environnements nouveaux. Le contexte est celui de la course à la simulation photorealiste pour l'IA incarnée (embodied AI), un champ où des acteurs comme NVIDIA, Google DeepMind et des startups chinoises investissent massivement pour combler le fossé entre simulation et monde réel. AgibotTech s'inscrit dans cette dynamique en combinant la puissance des LLM pour piloter la simulation et une reconstruction 3D rapide pour fournir des décors crédibles. Le code source est disponible sur GitHub, ce qui suggère une volonté de fédérer une communauté autour de Genie Sim comme standard ouvert pour la génération de données robotiques synthétiques.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour