Aller au contenu principal
INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG
RecherchearXiv cs.RO3h

INHerit-SG : graphes de scènes sémantiques hiérarchiques incrémentaux avec récupération de style RAG

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté INHerit-SG, un nouveau système de représentation sémantique des environnements 3D destiné à améliorer la navigation des robots autonomes. Publié sur arXiv (2502.12971v2), ce travail propose une architecture dite "à double flux asynchrone" qui transforme un environnement physique en une base de connaissances structurée, compatible avec les techniques de récupération augmentée par génération (RAG). Concrètement, le système construit en continu un graphe de scène sémantique : chaque nœud du graphe représente un objet ou une zone, stocke un résumé en langage naturel, et peut être interrogé par du texte, comme on interrogerait une base documentaire. La segmentation géométrique et le raisonnement sémantique sont délibérément découplés pour ne pas ralentir la cartographie. Un pipeline de récupération interprétable, combinant plusieurs LLMs spécialisés et une étape de vérification visuelle, filtre les faux positifs avant de répondre à une requête.

L'impact est significatif pour la robotique de service et les agents incarnés : jusqu'ici, les systèmes existants peinaient à traiter des requêtes complexes du type "trouve l'objet rouge qui n'est pas sur la table et qui se trouve à gauche du canapé". INHerit-SG atteint des performances à l'état de l'art sur ce type de requêtes à contraintes spatiales chaînées ou formulées avec des négations, deux cas précisément où les approches antérieures échouaient. Les évaluations ont été conduites sur HM3DSem-SQR, un nouveau benchmark spécifiquement conçu pour ces requêtes sémantiques complexes, ainsi que dans des environnements réels.

Ce travail s'inscrit dans une vague de recherche qui cherche à doter les robots d'une compréhension de haut niveau de leur environnement, au-delà des simples cartes géométriques. L'intégration des grands modèles de langage dans la boucle de raisonnement spatial est un axe très actif depuis 2023, porté notamment par des travaux comme ConceptGraphs ou SayPlan. INHerit-SG se distingue par sa mise à jour incrémentale et asynchrone, qui permet une utilisation en temps réel sans bloquer la cartographie. Les prochaines étapes naturelles concernent la robustesse dans des environnements très dynamiques et la généralisation à des plateformes robotiques variées.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs
1InfoQ AI 

Construire des systèmes RAG multi-agents hiérarchiques avec raisonnement multimodal et récupération autonome des erreurs

Les systèmes RAG agentiques hiérarchiques représentent une nouvelle approche pour automatiser l'analyse de données complexes en entreprise. Dans un article publié récemment, Abhijit Ubale détaille comment ces architectures coordonnent des agents spécialisés, chacun dédié à un type de source ou de raisonnement, sous la supervision d'un orchestrateur central. Le cadre présenté, appelé Protocol-H, illustre concrètement ce modèle : les requêtes sont acheminées de façon déterministe vers les bons agents, qui peuvent interroger simultanément des bases vectorielles, des documents structurés ou des données multimodales comme des images et des tableaux. Ce qui distingue cette approche des RAG classiques, c'est la capacité de récupération autonome en cas d'erreur. Lorsqu'un agent produit un résultat insuffisant ou incohérent, le système déclenche automatiquement une boucle de réessai réflexif sans intervention humaine. Pour les équipes analytiques en entreprise, cela réduit drastiquement les interruptions de pipeline et améliore la fiabilité des réponses sur des requêtes complexes à sources multiples. La traçabilité est également renforcée : chaque décision de routage est journalisée, ce qui facilite l'auditabilité des workflows. Ce type d'architecture s'inscrit dans une tendance de fond qui dépasse les RAG simples pour aller vers des systèmes multi-agents capables de raisonner sur des données hétérogènes. Alors que les entreprises cherchent à déployer des pipelines IA fiables en production, les questions de robustesse, de contrôle et d'explicabilité deviennent centrales. Protocol-H propose une réponse concrète, mais sa généralisation dépendra de la capacité des équipes à maintenir des orchestrateurs complexes à grande échelle.

RecherchePaper
1 source
Raisonnement par graphe de zones sémantiques pour la recherche multi-robots guidée par le langage
2arXiv cs.RO 

Raisonnement par graphe de zones sémantiques pour la recherche multi-robots guidée par le langage

Une équipe de chercheurs a publié SAGR (Semantic Area Graph Reasoning), un framework hiérarchique permettant à des grands modèles de langage (LLM) de coordonner des essaims multi-robots pour la recherche sémantique en environnement inconnu. Évalué sur 100 scénarios du dataset Habitat-Matterport3D, SAGR affiche jusqu'à 18,8 % de gain d'efficacité sur la recherche de cibles sémantiques dans les grands environnements, tout en restant compétitif avec les méthodes d'exploration state-of-the-art basées sur la couverture de frontières. Le système construit incrémentalement un graphe sémantique de zones à partir d'une carte d'occupation sémantique, encodant instances de pièces, connectivité, frontières disponibles et états des robots dans une représentation compacte transmise au LLM pour le raisonnement de haut niveau. La navigation locale et la planification géométrique restent déterministes. L'apport central est architectural : SAGR résout le problème d'interface entre raisonnement symbolique et coordination géométrique, un point de friction récurrent dans les systèmes multi-robots. Les approches classiques (frontier coverage, information gain) sont aveugles à l'intention de tâche, elles ne savent pas qu'une « cafetière » se trouve probablement dans une cuisine, pas un couloir. SAGR délègue cette inférence contextuelle au LLM via une abstraction topologique structurée, sans exposer le modèle au bruit d'une carte brute. C'est une séparation claire des responsabilités : le LLM raisonne sur la sémantique des pièces, les robots exécutent localement. Pour un intégrateur ou un opérateur d'entrepôt multi-AGV, cela ouvre la voie à des instructions en langage naturel comme « trouve le chariot de nettoyage » sans reconfiguration de la logique de navigation. Ce travail s'inscrit dans une tendance forte de 2024-2025 : l'injection de LLM dans la boucle de planification robotique, aux côtés de travaux comme SayPlan (Rana et al.), NavGPT ou des approches VLA type RT-2 et π₀. SAGR se distingue en ciblant explicitement la coordination multi-agent plutôt que le robot unique, et en validant sur un benchmark standardisé (HM3D) plutôt qu'en démo lab. La prochaine étape logique sera le passage du simulateur au réel, le sim-to-real gap sur la segmentation sémantique restant le principal obstacle non adressé par les auteurs.

RechercheActu
1 source
VeriGraph : graphes de scène pour la vérification de plans de robots
3arXiv cs.RO 

VeriGraph : graphes de scène pour la vérification de plans de robots

Des chercheurs ont publié VeriGraph (arXiv:2411.10446v3), un système de planification robotique qui combine des modèles vision-langage (VLM) avec un mécanisme de vérification formelle des actions. Le principe central repose sur l'utilisation de graphes de scène comme représentation intermédiaire : à partir d'images en entrée, le système construit un graphe capturant les objets présents et leurs relations spatiales, puis s'en sert pour valider et corriger en boucle les séquences d'actions générées par un planificateur LLM. Les gains rapportés sur des tâches de manipulation sont significatifs : +58 % de taux de complétion sur les tâches guidées par langage, +56 % sur des puzzles tangram, et +30 % sur les tâches guidées par image, par rapport aux méthodes de référence testées. Ce résultat pointe un problème structurel bien documenté dans le domaine : les VLM et LLM génèrent des plans plausibles en surface mais géométriquement ou physiquement incorrects, un objet posé sur une surface inexistante, une saisie dans un ordre impossible. VeriGraph traite ce gap en introduisant une couche de vérification symbolique ancrée dans l'état réel de la scène, ce qui réduit les hallucinations de planification sans nécessiter de fine-tuning du modèle sous-jacent. Pour les intégrateurs industriels et les équipes robotique, cela suggère une voie pragmatique : greffer un vérificateur léger sur des LLM généralistes plutôt que de tout réentraîner, ce qui abaisse potentiellement le coût d'adaptation à de nouveaux environnements. VeriGraph s'inscrit dans un courant de recherche actif autour des architectures hybrides neuro-symboliques pour la robotique, où des travaux comme SayPlan (Rana et al.), LLMTAMP ou les approches PDDL-guided cherchent tous à contraindre la génération de plans par des vérificateurs formels ou géométriques. La nouveauté ici réside dans l'usage du graphe de scène comme interface universelle entre perception et planification. Les auteurs publient le code sur un site dédié, ce qui facilite la reproductibilité, mais les expériences restent en environnement simulé ou de laboratoire contrôlé, aucun déploiement en conditions industrielles réelles n'est mentionné à ce stade.

RechercheOpinion
1 source
Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes
4InfoQ AI 

Présentation : repenser l'engagement sur les plateformes avec les réseaux de neurones de graphes

Mariia Bulycheva, ingénieure chez Zalando, a présenté comment la plateforme de mode européenne a migré son système de recommandations pour sa page d'accueil des architectures classiques de deep learning vers les réseaux de neurones sur graphes (GNN). L'approche consiste à convertir les journaux d'interactions des utilisateurs en graphes hétérogènes, où chaque noeud représente un utilisateur, un produit ou une session, et chaque arête encode un type de relation différent. L'entraînement repose sur un mécanisme dit de "passage de messages", où chaque noeud agrège progressivement les informations de ses voisins pour construire une représentation contextuelle enrichie. Cette évolution permet à Zalando de capturer des signaux comportementaux bien plus fins que les modèles séquentiels traditionnels : les GNN peuvent modéliser simultanément les affinités entre produits, les habitudes d'un utilisateur et les tendances collectives, ce qui améliore directement la pertinence des recommandations affichées dès l'arrivée sur la page. Pour une plateforme générant des milliards d'euros de chiffre d'affaires annuel, même une fraction de point de gain sur le taux de conversion représente un impact commercial significatif. Le déploiement a cependant révélé deux obstacles majeurs : le risque de fuite de données propre aux graphes, où les connexions entre noeuds peuvent involontairement exposer des informations futures lors de l'entraînement, et la latence à l'inférence, incompatible avec les exigences temps réel d'une page d'accueil. Zalando a résolu ce dernier point par une architecture hybride : les GNN génèrent des embeddings contextuels en amont, transmis ensuite à un modèle aval plus léger pour la décision finale, découplant ainsi la richesse de la représentation de la contrainte de rapidité.

UEZalando, acteur européen majeur de la mode en ligne, démontre une adoption industrielle des GNNs qui peut inspirer d'autres plateformes d'e-commerce européennes à moderniser leurs systèmes de recommandation.

RecherchePaper
1 source