Aller au contenu principal
De la scène à l'objet : prédiction du double regard guidée par le texte
RecherchearXiv cs.RO6sem

De la scène à l'objet : prédiction du double regard guidée par le texte

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté DualGaze-VLM, un nouveau cadre d'apprentissage automatique conçu pour prédire avec précision où un conducteur dirige son regard, non plus à l'échelle de la scène globale, mais objet par objet. Pour entraîner ce système, l'équipe a constitué G-W3DA, un jeu de données inédit qui décompose les traditionnelles cartes de chaleur macroscopiques en masques d'objets distincts, grâce à la combinaison d'un grand modèle de langage multimodal et de SAM3 (Segment Anything Model 3). Soumis au benchmark W3DA, DualGaze-VLM dépasse les meilleurs modèles existants sur les métriques d'alignement spatial, avec jusqu'à 17,8 % de gain en similarité (SIM) dans les situations critiques pour la sécurité. Un test de Turing visuel complémentaire révèle que 88,22 % des évaluateurs humains ont jugé les cartes d'attention générées indiscernables de celles produites par de vrais conducteurs.

Cette avancée s'attaque à un verrou fondamental de la conduite autonome : pour qu'un véhicule prenne des décisions humainement compréhensibles, il ne suffit pas de détecter des objets, il faut modéliser l'intention cognitive du conducteur. Savoir que le système "regarde" un piéton précis plutôt qu'une zone floue de la chaussée permet de justifier une décision de freinage ou d'évitement de façon auditable. C'est un enjeu direct pour la sécurité, la certification réglementaire et la confiance des passagers dans les systèmes autonomes de niveau 3 et au-delà.

Le problème central que résout cet article est celui du "découplage texte-vision" : les modèles vision-langage existants peinent à ancrer leur raisonnement sémantique sur des zones spatiales précises lorsque les données d'entraînement ne fournissent que des annotations globales. L'architecture DualGaze-VLM contourne cela via un module SE-Gate conditionné par les requêtes sémantiques, qui module dynamiquement les features visuelles. Cette approche s'inscrit dans une tendance de fond où les grands modèles multimodaux sont progressivement intégrés aux pipelines de perception automobile, une direction suivie de près par des acteurs comme Waymo, Tesla et les laboratoires universitaires qui alimentent les roadmaps réglementaires de l'UE sur l'IA embarquée.

Impact France/UE

Les progrès en modélisation du regard conducteur objet par objet alimentent directement les exigences de certification réglementaire de l'UE pour les systèmes autonomes de niveau 3, un enjeu central des roadmaps européennes sur l'IA embarquée.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles
1The Decoder 

Know3D permet de contrôler la face cachée des objets 3D par instructions textuelles

Une équipe de chercheurs a développé Know3D, une méthode qui permet de contrôler l'apparence du dos des objets 3D générés à partir d'une seule image, en utilisant de simples commandes textuelles. Le système exploite les connaissances du monde réel encodées dans les grands modèles de langage pour inférer et diriger ce qui doit apparaître sur les faces cachées d'un objet tridimensionnel, sans que l'utilisateur ait besoin de fournir d'autres références visuelles. Cette avancée s'attaque à l'un des angles morts les plus persistants de la génération 3D à partir d'une image unique : la reconstruction des zones non visibles. Jusqu'ici, les modèles généraient ces faces cachées de manière aléatoire ou incohérente, produisant des objets 3D inutilisables en production professionnelle. Avec Know3D, un designer peut écrire une instruction comme "dos plat avec texture bois" pour obtenir un résultat cohérent et maîtrisé, ce qui ouvre des perspectives concrètes pour la création de contenus dans les jeux vidéo, la réalité augmentée et le commerce en ligne. La génération 3D à partir d'une image reste un problème ouvert très actif en recherche, avec des acteurs comme Stability AI, Luma AI ou encore des équipes académiques qui multiplient les approches concurrentes. L'originalité de Know3D réside dans le recours aux LLM non pas pour générer du texte, mais comme base de connaissance spatiale et sémantique sur la forme des objets du monde réel. Si les résultats se confirment sur des géométries complexes, cette technique pourrait s'intégrer rapidement dans les pipelines de création 3D assistée par IA déjà en cours de déploiement dans l'industrie.

RecherchePaper
1 source
Prédiction collaborative de trajectoires par fusion tardive
2arXiv cs.RO 

Prédiction collaborative de trajectoires par fusion tardive

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau cadre de prédiction collaborative des trajectoires pour véhicules autonomes, baptisé "late fusion". L'idée centrale consiste à faire coopérer plusieurs véhicules connectés en partageant non plus des cartes de caractéristiques perceptuelles volumineuses, mais directement les prédictions de trajectoires déjà calculées par chaque véhicule individuellement. Le système a été évalué sur trois jeux de données de référence du domaine : OPV2V, V2V4Real et DeepAccident. Sur le dataset réel V2V4Real, la fusion tardive améliore le taux de succès de trajectoire de 1,69 % et 1,22 % pour les deux véhicules intelligents impliqués, par rapport à une prédiction purement individuelle. Cette approche répond à un problème concret qui freine le déploiement des systèmes V2V en conditions réelles : l'échange de représentations de haute dimension entre véhicules consomme une bande passante considérable et suppose une synchronisation parfaite entre les agents, deux hypothèses rarement vérifiées sur route. En déplaçant la collaboration vers le module de prédiction plutôt que vers la perception, le volume de données échangées chute drastiquement. La robustesse du système face aux occlusions, aux angles morts et aux erreurs de capteurs s'en trouve également améliorée, puisque chaque véhicule apporte une perspective complémentaire sur les agents trafic à risque. La prédiction de trajectoire est l'un des verrous les plus critiques de la conduite autonome : anticiper le comportement des autres usagers de la route conditionne directement la sécurité des décisions de freinage et d'évitement. Les méthodes existantes de fusion collaborative, dites "early" ou "intermediate fusion", ont certes démontré leur efficacité en simulation, mais peinent à passer à l'échelle dans des environnements aux ressources réseau limitées. Ce travail, agnostique au modèle sous-jacent de prédiction, ouvre la voie à une intégration modulaire dans des pipelines autonomes existants. La prochaine étape logique sera de tester cette approche sur des flottes hétérogènes à grande échelle et dans des scénarios urbains denses où les occlusions sont les plus fréquentes.

UELes travaux sur la coopération V2V en conditions réseau réelles alimentent indirectement les débats réglementaires européens sur les véhicules connectés et autonomes, sans impact direct sur la France ou l'UE.

RecherchePaper
1 source
Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique
3MarkTechPost 

Fonctions d'activation Sigmoid et ReLU : le coût en inférence de la perte de contexte géométrique

Les réseaux de neurones profonds peuvent être compris comme des systèmes géométriques : chaque couche transforme l'espace d'entrée pour construire des frontières de décision de plus en plus complexes. Une étude comparative récente explore comment deux fonctions d'activation fondamentales, Sigmoid et ReLU (Rectified Linear Unit), influencent cette géométrie interne et, par conséquent, l'efficacité des modèles lors de l'inférence. L'expérience repose sur un jeu de données synthétique classique, le "two-moons", généré avec scikit-learn : 400 points répartis en deux classes non linéairement séparables, avec un bruit de 0,18 pour simuler des conditions réalistes. Les deux architectures sont strictement identiques, même nombre de couches, même largeur, seule la fonction d'activation diffère, ce qui permet une comparaison propre et isolée. Le constat central est le suivant : Sigmoid compresse toutes les valeurs d'entrée dans un intervalle étroit entre 0 et 1. Conséquence directe, les points éloignés des frontières de décision deviennent indiscernables les uns des autres, car l'information sur leur distance à ces frontières est effacée couche après couche. Ce phénomène, appelé perte de contexte géométrique, affaiblit la capacité du réseau à construire des représentations riches en profondeur. ReLU, à l'inverse, conserve la magnitude des entrées positives : l'information de distance continue de circuler à travers les couches, permettant au réseau de rester expressif sans nécessiter une largeur excessive ni une puissance de calcul démesurée. En pratique, cela se traduit par des modèles ReLU plus efficaces à l'inférence et mieux adaptés au passage à l'échelle. Ces observations s'inscrivent dans une évolution plus large du domaine du deep learning. ReLU a progressivement remplacé Sigmoid comme fonction d'activation standard dans les réseaux profonds dès les années 2010, notamment grâce aux travaux fondateurs d'Hinton, LeCun et Bengio sur le problème de la disparition du gradient. Sigmoid souffrait en effet d'un double problème : saturation des gradients lors de la rétropropagation, et perte d'information géométrique lors de la propagation avant. L'étude actuelle met l'accent précisément sur ce second aspect, moins souvent discuté que le premier. Avec la montée en puissance des grands modèles de langage et des architectures à des centaines de milliards de paramètres, l'efficacité à l'inférence est devenue un enjeu industriel majeur. Des variantes de ReLU comme GELU ou SwiGLU, utilisées dans GPT-4 ou LLaMA, héritent de cette même propriété de préservation de l'information, confirmant que le choix de la fonction d'activation reste un levier critique pour la performance et l'économie de calcul des systèmes d'IA modernes.

RecherchePaper
1 source
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
4arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour