Aller au contenu principal
Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle
RecherchearXiv cs.RO2sem

Localisation intérieure par champ magnétique via réseau de neurones convolutif et invariance rotationnelle

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié sur arXiv une étude portant sur une nouvelle approche de localisation intérieure basée sur le champ magnétique et les réseaux de neurones convolutifs. L'équipe a développé deux architectures, MagNetS et MagNetXL, fondées sur un CNN dilated à 7 couches, entraîné pour prédire directement les coordonnées (x, y) d'un utilisateur à l'intérieur d'un bâtiment à partir de séquences de données magnétiques. Les expériences ont été conduites sur le jeu de données MagPie, couvrant trois bâtiments distincts, Loomis, Talbot et CSL, avec des trajectoires enregistrées en main libre. Le constat central : les modèles entraînés sur les trois axes bruts du magnétomètre (Mx, My, Mz) voient leur précision se dégrader dès qu'un appareil est tenu avec une orientation différente de celle utilisée lors de l'entraînement, avec des erreurs croissantes à partir de 0°, 5° et 6° selon le bâtiment.

Pour contourner ce problème, les chercheurs ont remplacé les trois canaux bruts par deux features invariantes à la rotation : la norme du champ magnétique (Mn) et sa projection sur l'axe de gravité (Mg). Ce passage de 3D à 2D, bien que réduisant le volume d'information, améliore la robustesse sans recourir à aucune infrastructure supplémentaire. MagNetXL atteint ou dépasse l'état de l'art sur MagPie, tandis que MagNetS offre des performances comparables avec seulement un tiers des paramètres, ce qui le rend adapté au déploiement sur appareils mobiles. L'invariance à la rotation permet ainsi de cartographier et de se localiser sans avoir à aligner l'orientation du téléphone, ce qui représente un gain concret pour les applications grand public.

La localisation intérieure reste un problème non résolu malgré des décennies de travaux, faute de GPS utilisable à l'intérieur. Les approches par empreintes magnétiques séduisent par leur absence de coût d'infrastructure, mais souffrent historiquement de leur sensibilité à la position du téléphone dans la main. Cette étude s'inscrit dans un effort plus large pour rendre ces systèmes utilisables en conditions réelles, où les utilisateurs ne tiennent pas leur appareil de façon constante. Les résultats ouvrent la voie à des applications concrètes : navigation dans les hôpitaux, centres commerciaux, aéroports ou entrepôts, sans déployer de balises Wi-Fi ou Bluetooth.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène
1arXiv cs.RO 

COMPASS : localisation visuelle par plan de bâtiment avec carte multi-canal et signature de scène

Des chercheurs ont présenté COMPASS, un algorithme de localisation visuelle pour robots qui exploite les plans architecturaux comme référence spatiale. Là où les méthodes existantes se limitent à la géométrie des bâtiments, COMPASS extrait simultanément les informations sémantiques contenues dans ces plans, murs, fenêtres, ouvertures, pour estimer avec précision la position et l'orientation d'un robot équipé de deux caméras fisheye. L'algorithme construit un descripteur radial à cinq canaux, inspiré du "scan context" utilisé en LiDAR, en projetant 360 rayons autour d'une position et en encodant pour chacun : la distance normalisée, le type d'obstacle rencontré, le gradient de distance, la distance inverse, et la variance locale. Cette représentation compacte est générée à la fois depuis le plan et depuis les images caméra, afin de les comparer directement. L'intérêt concret de cette approche tient à sa frugalité : les plans de bâtiments sont des ressources universellement disponibles, contrairement aux cartes 3D denses ou aux nuages de points LiDAR qui nécessitent une infrastructure coûteuse. En associant un simple plan d'étage à des caméras fisheye grand angle, COMPASS ouvre la voie à une localisation précise dans des environnements intérieurs sans déploiement de capteurs spécialisés. Les applications visées sont nombreuses : robots de livraison, assistants en milieu hospitalier, drones d'inspection, ou systèmes de navigation pour personnes malvoyantes. Le projet en est encore au stade de preuve de concept, validée sur le dataset Hilti-Trimble SLAM Challenge 2026 : les auteurs ont démontré que les signatures visuelles extraites de la première image de chaque caméra correspondent bien aux descripteurs issus du plan, confirmant la faisabilité du matching cross-modal. La prochaine étape consiste à étendre la détection d'éléments structurels au-delà des seules fenêtres, à intégrer la fusion des deux caméras fisheye, et à tester la localisation en conditions réelles sur des trajectoires complètes, un défi technique majeur qui conditionnera l'utilité pratique de la méthode.

RecherchePaper
1 source
Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme
2arXiv cs.RO 

Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme

Des chercheurs ont publié sur arXiv un nouveau cadre algorithmique, baptisé EEAgent (Evolvable Embodied Agent), conçu pour doter les robots d'une capacité d'adaptation continue sans nécessiter de réentraînement lourd. Le système s'appuie sur des modèles de vision et de langage (VLMs) de grande taille pour interpréter l'environnement et planifier les actions du robot. Sa pièce maîtresse est un mécanisme appelé LSTRO (Long Short-Term Reflective Optimization), qui affine dynamiquement les instructions en combinant les expériences passées et les leçons récemment apprises. Évalué sur six tâches du benchmark VIMA-Bench, EEAgent établit un nouvel état de l'art et surpasse significativement les systèmes concurrents, notamment dans les scénarios les plus complexes. Ce travail s'attaque à un obstacle central de la robotique moderne : la généralisation. Les approches traditionnelles nécessitent des données d'entraînement massives et peinent à transférer leurs compétences d'une tâche à une autre, tout en restant difficiles à interpréter. EEAgent contourne ce problème en remplaçant le réentraînement par une réflexion structurée sur l'expérience accumulée, une approche analogue à ce qu'un opérateur humain ferait naturellement. La distinction court terme / long terme dans LSTRO permet au robot de ne pas simplement mémoriser ses erreurs récentes, mais d'en distiller des principes généraux réutilisables, améliorant les taux de réussite sur des tâches variées sans intervention humaine supplémentaire. La course à la robotique généraliste s'est intensifiée ces dernières années, portée par des acteurs comme Boston Dynamics, Figure, Physical Intelligence ou Google DeepMind. Tous cherchent à créer des systèmes capables d'opérer dans des environnements non structurés sans reprogrammation constante. L'apprentissage par prompts, que EEAgent pousse plus loin avec LSTRO, s'affirme comme une alternative légère aux pipelines d'apprentissage par renforcement classiques, coûteux en calcul et en données. Si les résultats sur VIMA-Bench sont encourageants, la prochaine étape sera de valider ce type de système dans des environnements physiques réels, là où la robustesse et l'adaptabilité sont véritablement mises à l'épreuve.

RechercheOpinion
1 source
RVPO : un alignement sensible au risque par régularisation de la variance
3Apple Machine Learning 

RVPO : un alignement sensible au risque par régularisation de la variance

Les méthodes actuelles d'alignement des grands modèles de langage par renforcement humain (RLHF), comme celles sans critique explicite, agrègent plusieurs objectifs de récompense via une simple moyenne arithmétique. Une équipe de chercheurs propose RVPO (Reward-Variance Policy Optimization), un cadre d'optimisation sensible au risque qui corrige une faille structurelle de ces approches : la "négligence des contraintes". Concrètement, un modèle peut obtenir un score global élevé en excellant sur un objectif, tout en échouant silencieusement sur un autre, comme la sécurité ou le respect du format. Ce problème n'est pas anodin : dans des déploiements réels, un modèle qui ignore systématiquement une contrainte de sécurité tout en produisant des réponses très fluentes reste dangereux, même si sa récompense moyenne paraît satisfaisante. RVPO répond à cela en pénalisant la variance entre les différentes récompenses lors de l'agrégation des avantages, déplaçant l'objectif d'un "maximiser la somme" vers un "maximiser la cohérence". Le modèle est ainsi incité à progresser de manière équilibrée sur tous les axes plutôt qu'à suroptimiser l'un d'eux. L'alignement multi-objectif est l'un des défis centraux du développement des LLM fiables, à mesure que ces systèmes doivent simultanément respecter la sécurité, la précision factuelle, les instructions de format et les préférences utilisateurs. Les approches sans modèle critique, popularisées notamment par DPO et ses dérivés, ont l'avantage d'être moins coûteuses à entraîner, mais leur agrégation naïve des signaux reste un point faible. RVPO, justifié mathématiquement via un développement de Taylor, ouvre une piste concrète pour rendre ces méthodes plus robustes face aux compromis critiques.

RechercheOpinion
1 source
De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux
4Apple Machine Learning 

De la localisation à la fonction : évaluation de l'intelligence spatiale et fonctionnelle des LLM multimodaux

Des chercheurs ont publié SFI-Bench (Spatial-Functional Intelligence Benchmark), un nouveau cadre d'évaluation conçu pour tester une forme plus avancée d'intelligence spatiale chez les grands modèles de langage multimodaux. Le benchmark comprend plus de 1 700 questions tirées de vidéos égocentrées d'intérieurs domestiques filmées sous différents angles, couvrant des environnements variés du quotidien. Contrairement aux benchmarks existants comme VSI-Bench, SFI-Bench ne se contente pas de demander aux modèles où se trouvent les objets, mais cherche à évaluer s'ils comprennent à quoi ces objets servent dans leur contexte réel. Cette distinction est fondamentale pour le développement d'agents IA capables d'agir dans le monde physique. Un robot ou un assistant visuel qui sait qu'une tasse est posée sur la table, mais ne comprend pas qu'elle sert à boire, sera incapable de planifier des actions cohérentes dans un environnement domestique. SFI-Bench cible précisément ce niveau cognitif supérieur, appelé intelligence fonctionnelle, qui conditionne l'autonomie réelle des agents multimodaux dans des tâches de robotique domestique, d'assistance aux personnes ou de navigation intelligente. La course aux benchmarks spatiaux s'est accélérée ces deux dernières années, à mesure que les modèles comme GPT-4o, Gemini et les LLM open-source progressaient en perception visuelle. Les évaluations géométriques de base ne suffisent plus à différencier les systèmes les plus capables. SFI-Bench s'inscrit dans un effort plus large de la communauté pour définir des critères d'évaluation alignés sur des usages concrets, et pourrait devenir une référence incontournable pour mesurer la maturité des agents embarqués ou des assistants visuels de prochaine génération.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour