Aller au contenu principal
Décision interactive pour la conduite autonome par grands modèles de langage
RobotiquearXiv cs.RO3sem

Décision interactive pour la conduite autonome par grands modèles de langage

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié sur arXiv un nouveau cadre de prise de décision pour véhicules autonomes, conçu spécifiquement pour les situations de trafic mixte à forte densité où coexistent voitures humaines et autonomes. Le système exploite les grands modèles de langage non pour générer du texte, mais pour analyser dynamiquement la scène routière et inférer les intentions des autres usagers. Il repose sur l'Object-Process Methodology (OPM), qui traduit les données perceptuelles brutes en objets, processus et relations compréhensibles par le modèle. Celui-ci identifie ensuite les intentions explicites et implicites des véhicules voisins, génère des trajectoires candidates par échantillonnage Monte Carlo, et sélectionne la trajectoire optimale sous contraintes conjointes de sécurité et d'efficacité. La décision finale est retranscrite en langage naturel et diffusée aux autres usagers via une interface homme-machine externe (eHMI). Testé dans un simulateur de conduite en convoi, le système surpasse les approches traditionnelles sur les critères de sécurité, confort et fluidité, et un test de style Turing révèle une forte ressemblance avec les comportements humains au volant.

Ce travail s'attaque à l'un des principaux freins à l'adoption des véhicules autonomes : leur tendance aux comportements excessivement prudents dans les situations conflictuelles, qui génèrent blocages et méfiance du public. En dotant le véhicule d'une capacité de lecture des intentions des autres conducteurs et d'une communication proactive en langage naturel, le cadre proposé change la nature de l'interaction : il ne s'agit plus seulement d'éviter les accidents, mais d'expliquer en temps réel les décisions du robot pour instaurer une confiance partagée avec les piétons, cyclistes et automobilistes environnants.

La conduite autonome en environnement mixte reste l'un des défis les plus complexes du secteur, au croisement de la robotique, des sciences cognitives et de l'IA générative. Des acteurs comme Waymo ou Mobileye investissent massivement dans ces problèmes d'interaction homme-machine. L'intégration des LLMs dans la boucle de décision en temps réel représente une direction émergente : elle permet d'exploiter le raisonnement de sens commun de ces modèles sans avoir à coder explicitement chaque scénario possible. Encore limité à la simulation, le système devra prouver sa robustesse et sa faible latence en conditions réelles, mais les auteurs y voient une voie crédible vers une conduite autonome réellement interactive et digne de confiance dans un trafic dense.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

ProDrive : planification proactive pour la conduite autonome par co-évolution véhicule-environnement
1arXiv cs.RO 

ProDrive : planification proactive pour la conduite autonome par co-évolution véhicule-environnement

Des chercheurs ont présenté ProDrive, un nouveau système de planification proactive pour la conduite autonome, dans un article soumis sur arXiv (référence 2604.25329). Contrairement aux approches classiques qui génèrent des trajectoires uniquement à partir de l'observation instantanée de l'environnement, ProDrive repose sur un modèle du monde entraîné conjointement avec le planificateur de trajectoires, dans une architecture bout-en-bout. Le système produit simultanément plusieurs trajectoires candidates et des représentations internes de l'ego du véhicule, que le modèle du monde utilise pour prédire l'évolution future de la scène de conduite en vue aérienne (bird's-eye view). Toutes les trajectoires candidates sont évaluées en parallèle, et le gradient circule dans les deux sens, ce qui permet au modèle du monde d'influencer directement la sélection de trajectoire. Sur le benchmark NAVSIM v1, ProDrive surpasse les meilleures solutions existantes en matière de sécurité et d'efficacité de planification. L'enjeu est majeur : les systèmes de conduite autonome actuels peinent à anticiper l'évolution dynamique de la route, ce qui entraîne des décisions myopes et des situations à risque. ProDrive rompt avec cette logique purement réactive en permettant au véhicule de simuler mentalement l'impact de ses décisions futures avant de les exécuter, un peu comme un conducteur expérimenté qui anticipe les mouvements des autres usagers. Ce couplage bidirectionnel entre planification et modélisation du monde représente une avancée architecturale significative pour l'industrie, qui cherche depuis plusieurs années à doter les véhicules autonomes d'une forme de raisonnement prospectif plutôt que d'une simple réaction aux stimuli immédiats. La conduite autonome de niveau 4 et 5 bute depuis longtemps sur le problème des situations rares et imprévisibles, où les systèmes réactifs échouent faute d'avoir pu anticiper. Les approches par modèles du monde, inspirées des travaux en IA générale et en robotique, gagnent du terrain dans la recherche, avec des acteurs comme Wayve, Tesla ou des équipes universitaires qui y investissent massivement. ProDrive s'inscrit dans cette tendance de fond, avec une contribution technique précise : l'injection des représentations du planificateur dans le modèle du monde pour créer une boucle de rétroaction différentiable. La prochaine étape sera de valider ces résultats sur des données réelles et dans des conditions de déploiement, au-delà du seul benchmark NAVSIM.

UELes constructeurs européens (Renault, Stellantis, Volkswagen) et les laboratoires de recherche en conduite autonome pourraient s'appuyer sur cette architecture pour améliorer leurs systèmes de planification, dans un secteur stratégique où l'Europe cherche à rester compétitive face aux acteurs américains et asiatiques.

RobotiquePaper
1 source
U-ViLAR : localisation visuelle intégrant l'incertitude pour la conduite autonome par association et recalage différentiables
2arXiv cs.RO 

U-ViLAR : localisation visuelle intégrant l'incertitude pour la conduite autonome par association et recalage différentiables

Des chercheurs ont présenté U-ViLAR, un nouveau système de localisation visuelle conçu pour les véhicules autonomes, capable de fonctionner avec précision là où le GPS devient peu fiable. Dans les environnements urbains denses, les immeubles et chantiers de construction dégradent fortement la qualité du signal GNSS, rendant les systèmes de navigation classiques insuffisants. U-ViLAR contourne ce problème en exploitant uniquement des données visuelles, qu'il projette dans un espace dit "Bird's-Eye-View" (vue à vol d'oiseau) pour les aligner avec des cartes haute définition ou des cartes de navigation standard. Le système intègre deux modules clés : une association guidée par l'incertitude perceptive, qui filtre les erreurs liées à l'interprétation de la scène visuelle, et un recalage guidé par l'incertitude de localisation, qui affine la position estimée. Les résultats expérimentaux indiquent que cette approche atteint des performances à l'état de l'art sur plusieurs benchmarks de localisation, et le modèle a été testé à grande échelle sur des flottes de véhicules autonomes en conditions urbaines réelles. Cette avancée est directement pertinente pour l'industrie du véhicule autonome, qui bute depuis des années sur la fiabilité de la localisation dans les villes. Un taxi robot ou un camion de livraison autonome qui perd son signal GPS en passant sous un viaduc ou entre deux rangées de gratte-ciels peut commettre des erreurs fatales. En combinant localisation grossière à grande échelle et recalage fin de haute précision dans un seul cadre différentiable, U-ViLAR offre une robustesse accrue sans nécessiter un matériel GPS de haute gamme. La compatibilité avec les cartes de navigation ordinaires, pas seulement les cartes HD coûteuses, pourrait abaisser significativement la barrière à l'adoption pour les constructeurs. La localisation visuelle pour la conduite autonome est un champ de recherche très actif, notamment depuis que les limites du GPS en milieu urbain sont devenues un verrou industriel reconnu. Des acteurs comme Waymo, Mobileye ou les équipes de recherche de Baidu ont tous investit dans des approches alternatives, combinant LiDAR, caméras et cartes vectorielles. U-ViLAR se distingue par son traitement explicite de l'incertitude à chaque étape du pipeline, une approche plus prudente que les méthodes déterministes. La prochaine étape probable pour ces travaux sera une intégration dans des architectures de conduite autonome de niveau 4, où la précision de localisation conditionne directement la sécurité du système.

UECette avancée en localisation visuelle sans GPS pourrait accélérer le déploiement de véhicules autonomes dans les villes européennes denses, où les contraintes réglementaires (règlement européen sur les systèmes de conduite automatisée) exigent une haute fiabilité de localisation indépendante du signal satellitaire.

RobotiquePaper
1 source
Un modèle vision-langage-action pour l'insertion et le suivi d'aiguille guidés par échographie
3arXiv cs.RO 

Un modèle vision-langage-action pour l'insertion et le suivi d'aiguille guidés par échographie

Des chercheurs ont présenté un nouveau système robotique capable de réaliser des insertions d'aiguille guidées par échographie de façon entièrement automatisée et adaptative. Publiée sur arXiv (arXiv:2504.20347), l'étude introduit un modèle de type Vision-Language-Action (VLA) intégré à un système d'échographie robotique (RUS). Le cadre repose sur deux composants clés développés par l'équipe : une tête de suivi baptisée Cross-Depth Fusion (CDF), qui fusionne des caractéristiques visuelles superficielles et sémantiques profondes pour localiser l'aiguille en temps réel, et un registre de conditionnement appelé TraCon (Tracking-Conditioning), qui adapte efficacement un modèle visuel pré-entraîné à grande échelle aux tâches de suivi sans réentraînement complet. À ces composants s'ajoutent une politique de contrôle tenant compte des incertitudes et un pipeline VLA asynchrone, permettant des décisions d'insertion rapides et contextuellement adaptées. L'importance de cette avancée est directe : les insertions d'aiguille guidées par échographie sont omniprésentes en médecine, des biopsies aux anesthésies péridurales en passant par les ponctions vasculaires. Jusqu'ici, les systèmes automatisés reposaient sur des pipelines modulaires construits à la main, peu robustes face aux conditions d'imagerie difficiles, aux variations anatomiques ou aux mouvements du patient. Le nouveau système unifie suivi et contrôle dans un seul modèle bout-en-bout, ce qui lui permet de surpasser en précision de suivi et en taux de succès d'insertion non seulement les méthodes automatisées existantes, mais aussi les opérateurs humains lors des expériences menées, tout en réduisant le temps de procédure. Le guidage échographique reste l'une des modalités les plus utilisées pour les interventions percutanées, mais sa fiabilité dépend fortement de l'expérience du praticien et de la qualité de l'image, deux facteurs très variables en clinique. Les approches à base de vision par ordinateur ont progressé ces dernières années, mais aucune n'avait encore proposé un modèle aussi unifié et adaptatif. Ce travail s'inscrit dans une tendance plus large d'application des grands modèles multimodaux à la robotique chirurgicale, un domaine où des acteurs académiques et industriels comme Intuitive Surgical ou Activ Surgical investissent massivement. Les prochaines étapes naturelles concernent la validation sur des patients réels et l'intégration dans des blocs opératoires, avec toutes les contraintes réglementaires que cela implique.

UELa validation clinique et l'intégration en bloc opératoire devront se conformer au règlement européen sur les dispositifs médicaux (MDR), conditionnant tout déploiement futur en Europe.

RobotiqueActu
1 source
Kakao Mobility dévoile sa feuille de route pour la conduite autonome de niveau 4
4AI News 

Kakao Mobility dévoile sa feuille de route pour la conduite autonome de niveau 4

Kakao Mobility, la filiale mobilité du groupe sud-coréen Kakao, a présenté sa feuille de route pour le développement en interne de technologies de conduite autonome de niveau 4. Kim Jin-kyu, vice-président et directeur de la division Physical AI de l'entreprise, a détaillé ce plan lors du World IT Show 2026, organisé au centre de conférences COEX de Séoul, un événement réunissant 460 entreprises et organisations issues de 17 pays. La stratégie repose sur trois piliers technologiques : des modèles de machine learning capables de gérer la perception, la prise de décision et le contrôle du véhicule sans intervention humaine ; des architectures de véhicules avec systèmes redondants garantissant la continuité des fonctions critiques en cas de défaillance d'un composant ; et une plateforme de validation combinant simulations virtuelles et données de conduite réelle. En parallèle, Kakao Mobility développe un outil de visualisation 3D appelé Autonomous Vehicle Visualizer, qui retransmet en temps réel le champ de vision du véhicule aux passagers, ainsi qu'un centre de contrôle opérationnel 24h/24 et un système de détection d'anomalies basé sur des modèles vision-langage pour permettre une intervention à distance en cas d'urgence. La conduite autonome de niveau 4, telle que définie par la National Highway Traffic Safety Administration américaine, désigne des systèmes capables d'assurer l'intégralité de la conduite dans des zones de service délimitées sans que les passagers n'aient à surveiller la route ni reprendre le contrôle. Atteindre ce seuil représente un enjeu industriel majeur : c'est à ce stade que les services de taxi sans conducteur deviennent commercialement viables à grande échelle. Pour Kakao Mobility, qui opère déjà un service de véhicules autonomes en soirée dans le quartier de Gangnam à Séoul, cette feuille de route vise à transformer son infrastructure de mobilité existante en fondation pour des services entièrement autonomes, et à renforcer la compétitivité locale de la Corée du Sud face aux acteurs mondiaux du secteur. Le gouvernement sud-coréen a d'ailleurs positionné le World IT Show 2026 comme un signal fort de sa transition vers une économie d'IA physique, où l'intelligence artificielle s'intègre directement aux infrastructures industrielles et urbaines. Dans ce contexte, Kakao Mobility entend ne pas rester un utilisateur de technologies développées ailleurs : l'entreprise prévoit de partager avec des startups, fabricants et partenaires industriels ses jeux de données de conduite autonome à grande échelle, ses cartes haute définition et ses API de plateforme pour le covoiturage et la dispatch. Cette stratégie d'écosystème ouvert cherche à éviter que chaque acteur du secteur reconstruise seul l'infrastructure de base, tout en positionnant Kakao comme orchestrateur central du marché autonome coréen.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour