Know3D permet de contrôler la face cachée des…

De la scène à l'objet : prédiction du double regard guidée par le texte

42

1arXiv cs.RO

De la scène à l'objet : prédiction du double regard guidée par le texte

Des chercheurs ont présenté DualGaze-VLM, un nouveau cadre d'apprentissage automatique conçu pour prédire avec précision où un conducteur dirige son regard, non plus à l'échelle de la scène globale, mais objet par objet. Pour entraîner ce système, l'équipe a constitué G-W3DA, un jeu de données inédit qui décompose les traditionnelles cartes de chaleur macroscopiques en masques d'objets distincts, grâce à la combinaison d'un grand modèle de langage multimodal et de SAM3 (Segment Anything Model 3). Soumis au benchmark W3DA, DualGaze-VLM dépasse les meilleurs modèles existants sur les métriques d'alignement spatial, avec jusqu'à 17,8 % de gain en similarité (SIM) dans les situations critiques pour la sécurité. Un test de Turing visuel complémentaire révèle que 88,22 % des évaluateurs humains ont jugé les cartes d'attention générées indiscernables de celles produites par de vrais conducteurs. Cette avancée s'attaque à un verrou fondamental de la conduite autonome : pour qu'un véhicule prenne des décisions humainement compréhensibles, il ne suffit pas de détecter des objets, il faut modéliser l'intention cognitive du conducteur. Savoir que le système "regarde" un piéton précis plutôt qu'une zone floue de la chaussée permet de justifier une décision de freinage ou d'évitement de façon auditable. C'est un enjeu direct pour la sécurité, la certification réglementaire et la confiance des passagers dans les systèmes autonomes de niveau 3 et au-delà. Le problème central que résout cet article est celui du "découplage texte-vision" : les modèles vision-langage existants peinent à ancrer leur raisonnement sémantique sur des zones spatiales précises lorsque les données d'entraînement ne fournissent que des annotations globales. L'architecture DualGaze-VLM contourne cela via un module SE-Gate conditionné par les requêtes sémantiques, qui module dynamiquement les features visuelles. Cette approche s'inscrit dans une tendance de fond où les grands modèles multimodaux sont progressivement intégrés aux pipelines de perception automobile, une direction suivie de près par des acteurs comme Waymo, Tesla et les laboratoires universitaires qui alimentent les roadmaps réglementaires de l'UE sur l'IA embarquée.

UELes progrès en modélisation du regard conducteur objet par objet alimentent directement les exigences de certification réglementaire de l'UE pour les systèmes autonomes de niveau 3, un enjeu central des roadmaps européennes sur l'IA embarquée.

RecherchePaper

1 source

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

45

2arXiv cs.RO

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper

1 source

45

3Import AI

Import AI 453 : failles dans les agents IA, MirrorCode et dix perspectives sur la perte progressive de contrôle

METR et Epoch AI, deux organisations spécialisées dans la mesure des capacités de l'IA, ont publié MirrorCode, un benchmark inédit conçu pour évaluer la capacité des modèles à réimplémenter de manière autonome des logiciels complexes existants. Le principe est simple mais exigeant : l'agent IA reçoit un accès en exécution seule à un programme en ligne de commande, ainsi qu'un ensemble de tests visibles, mais sans accès au code source original. Il doit ensuite reproduire fidèlement le comportement du programme. Le benchmark couvre plus de 20 programmes cibles dans des domaines variés : utilitaires Unix, outils de sérialisation de données, bioinformatique, interpréteurs, analyse statique, cryptographie et compression. Le résultat le plus frappant : Claude Opus 4.6 a réussi à réimplémenter gotree, un toolkit de bioinformatique représentant environ 16 000 lignes de code Go et plus de 40 commandes, une tâche qu'un ingénieur humain sans assistance IA aurait mis entre 2 et 17 semaines à accomplir. Ces résultats suggèrent que les systèmes d'IA actuels ont déjà atteint, sur certaines tâches précises, le niveau d'un développeur expérimenté travaillant à plein temps. La capacité à rétro-ingénierer un logiciel complexe en se basant uniquement sur ses sorties est un exercice que seule une fraction des programmeurs humains pourrait réaliser, et en y consacrant plusieurs jours. MirrorCode documente aussi un phénomène important : les performances s'améliorent avec la puissance de calcul allouée à l'inférence, ce qui signifie que des projets encore hors de portée aujourd'hui pourraient devenir accessibles en augmentant simplement les ressources. Pour les entreprises tech, cela redéfinit concrètement ce qu'un agent IA peut accomplir en autonomie sur des projets de longue haleine, bien au-delà de la simple complétion de code. Ce benchmark s'inscrit dans un effort plus large pour mesurer précisément les capacités réelles des grands modèles de langage, souvent sous-estimées ou surestimées selon les contextes. METR, connue pour ses évaluations d'autonomie des agents IA, et Epoch AI, spécialisée dans les tendances de progression du domaine, combinent ici leurs expertises pour produire une méthodologie plus proche des scénarios professionnels réels. Les auteurs soulignent eux-mêmes les limites : les programmes ciblés produisent des sorties canoniques facilitant la vérification, certains résultats sur les programmes simples pourraient s'expliquer par de la mémorisation, et le benchmark ne couvre qu'une fraction de l'univers logiciel. Néanmoins, la trajectoire est claire : à mesure que les modèles progressent et que les budgets de calcul augmentent, la frontière entre ce qu'un agent IA peut faire seul et ce qui nécessite un humain continue de se déplacer rapidement.

UELes équipes de développement logiciel en France et en Europe doivent réévaluer leurs processus d'ingénierie face à des agents IA capables de réimplémenter des projets complexes de manière autonome, redéfinissant le périmètre et la valeur du travail des développeurs.

RecherchePaper

1 source

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

43

4arXiv cs.RO

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

Une équipe de chercheurs a publié sur arXiv (référence 2604.24449) une nouvelle méthode baptisée SPLIT, conçue pour simuler des capteurs tactiles à base d'images utilisés en robotique. Le travail se concentre principalement sur le capteur DIGIT, un capteur tactile optique répandu dans la communauté robotique. SPLIT repose sur une stratégie d'arithmétique dans l'espace latent qui dissocie explicitement la géométrie de contact des propriétés optiques propres au capteur. Concrètement, le système décompose ce qu'il "voit" en deux composantes indépendantes : la forme de l'objet qui appuie sur le capteur, et les caractéristiques visuelles intrinsèques du capteur lui-même. La méthode intègre également une simulation par éléments finis (FEM) calibrée avec résolution variable, offrant un compromis ajustable entre vitesse de calcul et fidélité physique. Cette capacité de dissociation change profondément la manière dont on peut entraîner des modèles d'apprentissage automatique pour la perception tactile. Jusqu'ici, chaque nouvelle unité physique d'un capteur nécessitait une recalibration coûteuse en temps et en données. SPLIT élimine cette contrainte : une fois entraîné, le modèle peut s'adapter à différentes variantes du capteur DIGIT, voire se transférer vers des capteurs d'une autre famille, comme le GelSight R1.5, sans réentraînement complet. La méthode supporte en outre une simulation bidirectionnelle : elle peut générer des images réalistes à partir de maillages de déformation, mais aussi reconstruire un maillage à partir d'une image tactile réelle. La vitesse d'inférence dépasse celle des approches concurrentes existantes. Le manque de données d'entraînement réalistes est l'un des principaux freins au développement de la robotique tactile. Collecter des interactions physiques variées est lent, coûteux et difficile à reproduire à grande échelle, ce qui pousse la communauté vers des simulateurs capables de générer des données synthétiques crédibles. SPLIT s'inscrit dans cette tendance en proposant une solution généraliste, là où les méthodes antérieures restaient souvent liées à un seul type de capteur. En permettant le transfert inter-capteurs et en réduisant le besoin en données réelles, cette approche pourrait accélérer significativement le développement de robots capables de manipuler des objets avec précision et dextérité.

RecherchePaper

1 source

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles

À lire aussi

De la scène à l'objet : prédiction du double regard guidée par le texte

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Import AI 453 : failles dans les agents IA, MirrorCode et dix perspectives sur la perte progressive de contrôle

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels