Aller au contenu principal
SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions
RecherchearXiv cs.RO6sem

SpaCeFormer : segmentation 3D d'instances à vocabulaire ouvert, rapide et sans propositions

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié SpaCeFormer, un nouveau modèle de segmentation d'instances 3D en vocabulaire ouvert capable d'analyser une scène entière en seulement 0,14 seconde, soit 100 à 1000 fois plus vite que les pipelines existants combinant vision 2D et reconstruction 3D. Le modèle repose sur un transformeur dit « space-curve » sans proposition préalable, qui combine une attention par fenêtres spatiales avec une sérialisation via la courbe de Morton pour produire des caractéristiques cohérentes dans l'espace. Un décodeur amélioré par RoPE prédit ensuite directement les masques d'instances à partir de requêtes apprises, sans faire appel à des propositions de régions externes. Pour l'entraîner, les auteurs ont constitué SpaCeFormer-3M, le plus grand jeu de données de segmentation 3D en vocabulaire ouvert jamais créé : 3 millions de légendes cohérentes sur plusieurs vues, couvrant 604 000 instances issues de 7 400 scènes. Ce dataset atteint un rappel de masques 21 fois supérieur aux approches monovues précédentes, soit 54,3 % contre 2,5 % à un seuil IoU supérieur à 0,5.

Les performances obtenues sur les benchmarks de référence illustrent un saut qualitatif significatif. Sur ScanNet200, SpaCeFormer atteint un score mAP zero-shot de 11,1, soit 2,8 fois mieux que la meilleure méthode sans proposition antérieure. Sur ScanNet++ et Replica, il dépasse respectivement 22,9 et 24,1 mAP, surpassant tous les modèles précédents y compris ceux exploitant des entrées 2D multi-vues. Cette combinaison de vitesse et de précision ouvre la voie à des applications temps réel dans des environnements non structurés, où les catégories d'objets ne peuvent pas être définies à l'avance.

La segmentation d'instances 3D en vocabulaire ouvert est une brique fondamentale pour la robotique autonome et la réalité augmentée ou virtuelle : un robot ou un casque AR doit pouvoir identifier et délimiter n'importe quel objet dans une scène, même inconnu. Les méthodes antérieures souffraient soit d'une latence prohibitive liée à l'agrégation de sorties de modèles fondationnaux sur plusieurs centaines de secondes, soit d'une fragmentation des masques due à l'absence de cohérence multi-vues. SpaCeFormer résout les deux verrous simultanément, et la mise à disposition publique du dataset SpaCeFormer-3M devrait accélérer les travaux de la communauté sur ce problème.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel
1MarkTechPost 

TII publie Falcon Perception : un transformer early-fusion de 0,6 milliard de paramètres pour la détection et segmentation en vocabulaire ouvert à partir de prompts en langage naturel

Le Technology Innovation Institute (TII), basé à Abou Dhabi, a publié Falcon Perception, un modèle de vision par ordinateur unifié de 600 millions de paramètres capable de localiser et segmenter des objets dans une image à partir de descriptions en langage naturel. Contrairement à l'approche dominante qui combine un encodeur visuel pré-entraîné et un décodeur séparé, Falcon Perception traite les pixels et les tokens textuels dans un espace de paramètres partagé dès la première couche — ce qu'on appelle une architecture "early-fusion". Le modèle a été entraîné sur environ 685 milliards de tokens en trois phases successives, en distillant les connaissances de deux modèles enseignants : DINOv3 (ViT-H) pour les caractéristiques locales et SigLIP2 (So400m) pour l'alignement langage-vision. Le code source et les poids sont disponibles sur arXiv. Avec seulement 600 millions de paramètres, Falcon Perception démontre qu'il est possible d'atteindre des performances compétitives sur des tâches complexes de grounding et de segmentation en vocabulaire ouvert, sans l'inflation de paramètres habituelle des architectures modulaires. Cette efficacité a des implications directes pour le déploiement en production : un modèle plus compact consomme moins de mémoire GPU, réduit les coûts d'inférence et s'intègre plus facilement dans des systèmes embarqués ou des pipelines temps-réel. La capacité à raisonner sur la présence ou l'absence d'un objet avant de le localiser — via des tokens explicites ` et ` — renforce également la fiabilité du modèle dans des scénarios où les requêtes portent sur des objets absents de la scène. La publication s'inscrit dans une tendance de fond qui voit les laboratoires de recherche challenger les grandes architectures multimodales segmentées héritées de CLIP ou Mask R-CNN. Le TII, déjà connu pour sa famille de modèles de langage Falcon, étend ici son ambition à la perception visuelle dense. Plusieurs choix techniques méritent attention : l'utilisation de l'optimiseur Muon à la place d'AdamW pour les têtes spécialisées, l'encodage positionnel rotatif 3D baptisé GGROPE pour gérer les variations de ratio et de rotation, ainsi que FlexAttention pour traiter les images à leur résolution native sans padding coûteux. La prédiction des objets en ordre raster (haut-gauche vers bas-droite) a par ailleurs accéléré la convergence par rapport à un ordonnancement aléatoire. L'équipe introduit également PBench, un benchmark maison destiné à évaluer les capacités de perception au-delà des métriques classiques, signalant une volonté de poser ses propres standards d'évaluation dans ce domaine encore peu standardisé.

UELes poids et le code étant publiés en open source, les équipes de recherche et entreprises européennes travaillant sur la vision par ordinateur peuvent intégrer ce modèle compact dans leurs pipelines de production.

RecherchePaper
1 source
Identification d'objets hors distribution pour la segmentation d'anomalies LiDAR 3D
2arXiv cs.RO 

Identification d'objets hors distribution pour la segmentation d'anomalies LiDAR 3D

Des chercheurs ont publié fin avril 2026 une nouvelle méthode pour la segmentation d'anomalies en 3D à partir de données LiDAR, baptisée LIDO, accompagnée de nouveaux jeux de données mixtes réels-synthétiques. L'approche opère directement dans l'espace des caractéristiques (feature space) pour modéliser la distribution des classes connues et en déduire ce qui est anormal, sans recourir aux techniques de post-traitement empruntées à la vision 2D qui dominaient jusqu'ici le domaine. Le code source et les datasets sont disponibles publiquement sur la page du projet. Détecter des objets inconnus sur la route constitue un enjeu de sécurité critique pour les véhicules autonomes et les robots de perception : un camion renversé, un animal inattendu ou un obstacle inhabituel ne figurent pas dans les catégories apprises à l'entraînement, mais doivent absolument être signalés. Or, les méthodes existantes en 3D se contentaient d'adapter des techniques conçues pour la 2D, avec des performances limitées. La méthode proposée ici améliore l'état de l'art sur le seul dataset réel disponible publiquement, tout en montrant des résultats compétitifs sur les nouveaux benchmarks mixtes introduits par les auteurs, ce qui valide à la fois l'efficacité de l'approche et la pertinence des nouveaux jeux de données. Le domaine souffrait jusqu'ici d'un double handicap : les rares datasets 3D LiDAR dédiés à la détection d'anomalies ne proposaient que des scénarios simples, avec peu d'instances anormales, et présentaient un écart de domaine important lié à la résolution du capteur utilisé. Pour y remédier, les auteurs ont construit plusieurs datasets hybrides à partir de benchmarks de segmentation sémantique établis, en y intégrant des objets hors-distribution variés dans des environnements complexes. Ce travail s'inscrit dans une dynamique plus large de fiabilisation de la perception pour la conduite autonome, où la capacité à reconnaître ce que l'on ne connaît pas est aussi importante que reconnaître ce que l'on connaît.

UELes équipementiers et laboratoires européens spécialisés dans la conduite autonome et la robotique de perception peuvent directement exploiter ce code open source pour renforcer la robustesse de leurs systèmes face aux obstacles inconnus sur route.

RecherchePaper
1 source
Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation
3MarkTechPost 

Meta et Stanford présentent Fast Byte Latent Transformer : 50% de bande passante mémoire en moins, sans tokenisation

Des chercheurs de Meta, de Stanford University et de l'Université de Washington ont présenté trois nouvelles méthodes pour accélérer significativement le Byte Latent Transformer (BLT), une architecture de modèle de langage qui traite directement le texte en octets bruts plutôt qu'en tokens. La contribution principale s'appelle BLT Diffusion (BLT-D) et s'attaque à un problème central du BLT : son décodeur local génère les octets un à un, de manière autoregressive, ce qui implique plusieurs passes mémoire là où un modèle tokenisé n'en nécessite qu'une seule. Sur les serveurs modernes de LLM, le goulot d'étranglement n'est pas la puissance de calcul brute mais la bande passante mémoire, c'est-à-dire le coût répété de charger les poids du modèle et les caches KV depuis la mémoire. La solution proposée remplace ce décodage octet par octet par une diffusion discrète par blocs : au lieu de prédire un seul octet à la fois, le modèle génère simultanément des blocs de 4, 8 ou 16 octets en démasquant progressivement les positions les plus certaines à chaque étape, selon deux stratégies, l'une basée sur un seuil de confiance, l'autre sur une contrainte d'entropie cumulative. L'enjeu pratique est considérable. Selon les chercheurs, ces méthodes permettent de réduire la bande passante mémoire à l'inférence de plus de 50%, ce qui se traduit directement par une accélération de la génération de texte. Pour les entreprises qui déploient des LLM à grande échelle, où le coût d'inférence est un facteur économique déterminant, ce gain représente une réduction significative de la latence et des coûts opérationnels. Au-delà de la vitesse, les modèles octet-niveau comme BLT présentent des avantages intrinsèques que les architectures tokenisées peinent à égaler : meilleure gestion du texte multilingue, robustesse accrue face au bruit dans les entrées, et traitement naturel du code, des chiffres et des caractères spéciaux, sans les artefacts produits par les tokenizers comme le byte-pair encoding (BPE). Le BLT avait déjà constitué une avancée notable en démontrant qu'un modèle opérant sur des octets bruts pouvait atteindre les performances des modèles tokenisés à grande échelle, grâce à une segmentation dynamique en patches de longueur variable pilotée par l'entropie locale du texte. Les régions difficiles à prédire reçoivent des patches courts, les passages plus prévisibles des patches plus longs, avec une taille moyenne de 4 octets et un maximum de 8. La majeure partie du calcul s'effectue sur des représentations latentes compressées via trois composants : un encodeur local, un Transformer global, et un décodeur local. Le principal frein à l'adoption industrielle de cette approche restait sa lenteur à l'inférence, rendue pénalisante par le nombre élevé de passes décodeur nécessaires. Les trois techniques introduites dans ce nouveau travail visent directement ce verrou, ouvrant concrètement la voie au déploiement des modèles octet-niveau dans des environnements de production exigeants, où vitesse et coût ne sont pas négociables.

RecherchePaper
1 source
Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels
4arXiv cs.RO 

Annotation d'images efficace par segmentation semi-supervisée avec propagation de labels

Des chercheurs ont publié une méthode semi-supervisée d'annotation d'images baptisée "label propagation", conçue pour accélérer l'entraînement des robots de service domestiques. Présentée dans un article arXiv (2604.22992), l'approche combine un générateur de masques agnostique aux classes avec un ensemble de réseaux de Hopfield qui attribuent automatiquement des étiquettes en exploitant trois espaces d'embeddings issus de modèles de fondation : CLIP, ViT et Theia. Le système passe à l'échelle jusqu'à 50 classes d'objets différents tout en maintenant un effort d'annotation humaine minimal, et parvient à étiqueter automatiquement 60 % des données dans le cadre de la compétition RoboCup@Home. Le code et les jeux de données sont disponibles publiquement sur GitHub (ais-bonn/label\_propagation). Cette avancée s'attaque directement à l'un des goulets d'étranglement les plus coûteux du développement robotique : l'annotation manuelle des données d'entraînement. Dans des contextes comme RoboCup@Home, où les équipes disposent d'un temps de préparation très limité avant les épreuves, automatiser 60 % du travail d'étiquetage représente un gain opérationnel considérable. Les détecteurs à vocabulaire ouvert actuels peinent à généraliser au-delà de quelques catégories, et l'entraînement entièrement supervisé reste chronophage et difficile à déployer rapidement sur de nouveaux environnements domestiques. La robotique de service grand public bute depuis des années sur la diversité et l'imprévisibilité des objets du quotidien. Les approches classiques nécessitent des milliers d'annotations humaines pour chaque nouvelle catégorie d'objet, ce qui freine le déploiement dans des foyers réels aux configurations variées. En s'appuyant sur des modèles de fondation pré-entraînés comme CLIP pour enrichir les représentations sémantiques, cette méthode contourne partiellement ce problème en propageant les étiquettes connues vers des exemples visuellement similaires non annotés. Les compétitions comme RoboCup@Home servent de bancs d'essai réalistes pour ces techniques, et la publication ouverte du code pourrait faciliter leur adoption par d'autres équipes de recherche en robotique domestique.

UELa méthode est développée par le laboratoire AIS de l'Université de Bonn (Allemagne), ce qui en fait une contribution directement issue de la recherche européenne en robotique, avec un code open source exploitable par les équipes de recherche européennes participant aux compétitions RoboCup.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour