Aller au contenu principal
COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène
RecherchearXiv cs.RO6sem· 1 min de lecture

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Source originale ↗·

Des chercheurs ont présenté COMPASS, un algorithme de localisation visuelle pour robots qui exploite les plans architecturaux comme référence spatiale. Là où les méthodes existantes se limitent à la géométrie des bâtiments, COMPASS extrait simultanément les informations sémantiques contenues dans ces plans, murs, fenêtres, ouvertures, pour estimer avec précision la position et l'orientation d'un robot équipé de deux caméras fisheye. L'algorithme construit un descripteur radial à cinq canaux, inspiré du "scan context" utilisé en LiDAR, en projetant 360 rayons autour d'une position et en encodant pour chacun : la distance normalisée, le type d'obstacle rencontré, le gradient de distance, la distance inverse, et la variance locale. Cette représentation compacte est générée à la fois depuis le plan et depuis les images caméra, afin de les comparer directement.

L'intérêt concret de cette approche tient à sa frugalité : les plans de bâtiments sont des ressources universellement disponibles, contrairement aux cartes 3D denses ou aux nuages de points LiDAR qui nécessitent une infrastructure coûteuse. En associant un simple plan d'étage à des caméras fisheye grand angle, COMPASS ouvre la voie à une localisation précise dans des environnements intérieurs sans déploiement de capteurs spécialisés. Les applications visées sont nombreuses : robots de livraison, assistants en milieu hospitalier, drones d'inspection, ou systèmes de navigation pour personnes malvoyantes.

Le projet en est encore au stade de preuve de concept, validée sur le dataset Hilti-Trimble SLAM Challenge 2026 : les auteurs ont démontré que les signatures visuelles extraites de la première image de chaque caméra correspondent bien aux descripteurs issus du plan, confirmant la faisabilité du matching cross-modal. La prochaine étape consiste à étendre la détection d'éléments structurels au-delà des seules fenêtres, à intégrer la fusion des deux caméras fisheye, et à tester la localisation en conditions réelles sur des trajectoires complètes, un défi technique majeur qui conditionnera l'utilité pratique de la méthode.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle
1arXiv cs.RO 

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle

Des chercheurs ont publié sur arXiv une étude portant sur une nouvelle approche de localisation intérieure basée sur le champ magnétique et les réseaux de neurones convolutifs. L'équipe a développé deux architectures, MagNetS et MagNetXL, fondées sur un CNN dilated à 7 couches, entraîné pour prédire directement les coordonnées (x, y) d'un utilisateur à l'intérieur d'un bâtiment à partir de séquences de données magnétiques. Les expériences ont été conduites sur le jeu de données MagPie, couvrant trois bâtiments distincts, Loomis, Talbot et CSL, avec des trajectoires enregistrées en main libre. Le constat central : les modèles entraînés sur les trois axes bruts du magnétomètre (Mx, My, Mz) voient leur précision se dégrader dès qu'un appareil est tenu avec une orientation différente de celle utilisée lors de l'entraînement, avec des erreurs croissantes à partir de 0°, 5° et 6° selon le bâtiment. Pour contourner ce problème, les chercheurs ont remplacé les trois canaux bruts par deux features invariantes à la rotation : la norme du champ magnétique (Mn) et sa projection sur l'axe de gravité (Mg). Ce passage de 3D à 2D, bien que réduisant le volume d'information, améliore la robustesse sans recourir à aucune infrastructure supplémentaire. MagNetXL atteint ou dépasse l'état de l'art sur MagPie, tandis que MagNetS offre des performances comparables avec seulement un tiers des paramètres, ce qui le rend adapté au déploiement sur appareils mobiles. L'invariance à la rotation permet ainsi de cartographier et de se localiser sans avoir à aligner l'orientation du téléphone, ce qui représente un gain concret pour les applications grand public. La localisation intérieure reste un problème non résolu malgré des décennies de travaux, faute de GPS utilisable à l'intérieur. Les approches par empreintes magnétiques séduisent par leur absence de coût d'infrastructure, mais souffrent historiquement de leur sensibilité à la position du téléphone dans la main. Cette étude s'inscrit dans un effort plus large pour rendre ces systèmes utilisables en conditions réelles, où les utilisateurs ne tiennent pas leur appareil de façon constante. Les résultats ouvrent la voie à des applications concrètes : navigation dans les hôpitaux, centres commerciaux, aéroports ou entrepôts, sans déployer de balises Wi-Fi ou Bluetooth.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
2arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
3MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source
Planification de trajectoires multi-robots et détection de comportements aberrants
4arXiv cs.RO 

Planification de trajectoires multi-robots et détection de comportements aberrants

Des chercheurs ont publié une nouvelle méthode permettant de détecter automatiquement les comportements anormaux dans des flottes de robots autonomes hétérogènes, dans un article référencé arXiv:2510.17261. Le système repose sur deux piliers : un cadre de génération de données structurées baptisé Nets-within-Nets (NWN), qui coordonne les actions des robots à partir de spécifications de mission formalisées en logique temporelle linéaire (LTL), et un pipeline de détection d'anomalies basé sur l'architecture Transformer. L'objectif est d'identifier les exécutions dites "spurious", c'est-à-dire les séquences de tâches incorrectes, les violations de contraintes spatiales, les incohérences temporelles ou les écarts par rapport à la sémantique attendue d'une mission. Les performances mesurées sont significatives : le système atteint 91,3 % de précision pour détecter les inefficacités d'exécution, 88,3 % pour les violations centrales de mission, et 66,8 % pour les anomalies adaptatives liées aux contraintes. Ces résultats positionnent l'approche comme une solution viable pour la supervision en temps réel de flottes robotiques dans des environnements complexes, notamment dans l'industrie, la logistique automatisée ou les missions de secours, où une mauvaise exécution peut avoir des conséquences coûteuses voire dangereuses. La capacité à classer automatiquement une trajectoire comme normale ou anormale sans intervention humaine représente un gain opérationnel concret. Ce travail s'inscrit dans un mouvement de fond visant à rendre les systèmes multi-robots plus fiables et plus auditables, à mesure que leur déploiement s'accélère dans des contextes industriels critiques. La logique temporelle linéaire est depuis longtemps utilisée en vérification formelle de logiciels, mais son application à la supervision de trajectoires robotiques en temps réel reste un terrain de recherche actif. L'usage de Transformers pour cette tâche, couplé à une étude d'ablation sur les représentations d'embedding, suggère que les architectures issues du traitement du langage naturel trouvent une seconde vie dans la robotique multi-agents. Les prochaines étapes naturelles porteraient sur des tests en conditions réelles et l'extension à des missions plus dynamiques.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic