RobotiquearXiv cs.RO2h

Un modèle vision-langage-action pour l'insertion et le suivi d'aiguille guidés par échographie

1 source couvre ce sujet·Source originale ↗·

Des chercheurs ont présenté un nouveau système robotique capable de réaliser des insertions d'aiguille guidées par échographie de façon entièrement automatisée et adaptative. Publiée sur arXiv (arXiv:2504.20347), l'étude introduit un modèle de type Vision-Language-Action (VLA) intégré à un système d'échographie robotique (RUS). Le cadre repose sur deux composants clés développés par l'équipe : une tête de suivi baptisée Cross-Depth Fusion (CDF), qui fusionne des caractéristiques visuelles superficielles et sémantiques profondes pour localiser l'aiguille en temps réel, et un registre de conditionnement appelé TraCon (Tracking-Conditioning), qui adapte efficacement un modèle visuel pré-entraîné à grande échelle aux tâches de suivi sans réentraînement complet. À ces composants s'ajoutent une politique de contrôle tenant compte des incertitudes et un pipeline VLA asynchrone, permettant des décisions d'insertion rapides et contextuellement adaptées.

L'importance de cette avancée est directe : les insertions d'aiguille guidées par échographie sont omniprésentes en médecine, des biopsies aux anesthésies péridurales en passant par les ponctions vasculaires. Jusqu'ici, les systèmes automatisés reposaient sur des pipelines modulaires construits à la main, peu robustes face aux conditions d'imagerie difficiles, aux variations anatomiques ou aux mouvements du patient. Le nouveau système unifie suivi et contrôle dans un seul modèle bout-en-bout, ce qui lui permet de surpasser en précision de suivi et en taux de succès d'insertion non seulement les méthodes automatisées existantes, mais aussi les opérateurs humains lors des expériences menées, tout en réduisant le temps de procédure.

Le guidage échographique reste l'une des modalités les plus utilisées pour les interventions percutanées, mais sa fiabilité dépend fortement de l'expérience du praticien et de la qualité de l'image, deux facteurs très variables en clinique. Les approches à base de vision par ordinateur ont progressé ces dernières années, mais aucune n'avait encore proposé un modèle aussi unifié et adaptatif. Ce travail s'inscrit dans une tendance plus large d'application des grands modèles multimodaux à la robotique chirurgicale, un domaine où des acteurs académiques et industriels comme Intuitive Surgical ou Activ Surgical investissent massivement. Les prochaines étapes naturelles concernent la validation sur des patients réels et l'intégration dans des blocs opératoires, avec toutes les contraintes réglementaires que cela implique.

Impact France/UE

La validation clinique et l'intégration en bloc opératoire devront se conformer au règlement européen sur les dispositifs médicaux (MDR), conditionnant tout déploiement futur en Europe.

À lire aussi

1arXiv cs.RO

Navigation autonome d'un robot par apprentissage structurel en ligne et planification par inférence active

Des chercheurs de l'université de Gand ont publié sur arXiv un système de navigation robotique autonome baptisé AIMAPP (Active Inference MAPping and Planning), capable d'explorer des environnements inconnus sans carte préalable ni phase d'entraînement. Le robot construit en temps réel une carte topologique sparse, apprend dynamiquement les transitions d'états et planifie ses actions en minimisant ce que les auteurs appellent l'Énergie Libre Attendue (Expected Free Energy), un principe emprunté à la théorie de l'inférence active. Le système est compatible avec ROS, indépendant du type de capteurs utilisés et fonctionne en mode entièrement auto-supervisé, sans aucune intervention humaine préalable. L'intérêt principal d'AIMAPP réside dans sa robustesse face aux conditions réelles d'opération : il continue de fonctionner même en cas de défaillance partielle des capteurs ou de dérive odométrique cumulative, deux problèmes qui paralysent souvent les systèmes classiques de navigation SLAM. Contrairement aux approches par apprentissage profond qui nécessitent d'importants volumes de données annotées, AIMAPP s'adapte en ligne à des environnements changeants et à des observations ambiguës. Dans des évaluations conduites à grande échelle, en environnements réels et simulés, le système surpasse ou égale les planificateurs de référence actuels, ouvrant la voie à des robots déployables dans des contextes non structurés comme des entrepôts, des zones sinistrées ou des espaces extérieurs. L'inférence active est un cadre théorique issu des neurosciences computationnelles, initialement développé pour modéliser la perception et l'action chez les êtres vivants. Son application à la robotique est encore émergente, mais AIMAPP représente une des implémentations les plus complètes à ce jour, combinant cartographie, localisation et prise de décision dans un modèle génératif unifié. Le code est disponible publiquement sur GitHub (decide-ugent/aimapp), ce qui pourrait accélérer son adoption dans la communauté robotique. La prochaine étape naturelle sera de tester le système sur des flottes de robots opérant en parallèle, ainsi que dans des environnements dynamiques peuplés d'humains.

UERecherche conduite par l'Université de Gand (Belgique), le code open-source publié sur GitHub est directement exploitable par les laboratoires et industriels européens actifs en robotique autonome.

💬 Pas de données annotées, pas de carte préalable, et ça tient quand les capteurs flanchent, là où SLAM se plante souvent. C'est le problème qu'on n'arrivait pas à régler proprement depuis des années en robotique mobile. Le code est sur GitHub et compatible ROS, donc les labos n'ont pas besoin de repartir de zéro.

RobotiquePaper

1 source

2arXiv cs.RO

CARLA-Air: infrastructure unifiée pour drones et agents autonomes aériens et terrestres dans CARLA

Des chercheurs ont publié CARLA-Air, une plateforme de simulation open source qui permet, pour la première fois, de faire voler des drones multirotor directement dans l'environnement urbain de CARLA, le simulateur de référence pour la conduite autonome, développé initialement par Waymo et maintenu par la communauté. La plateforme tourne au sein d'un unique processus Unreal Engine, garantissant une cohérence spatiale et temporelle stricte entre les agents au sol et les drones, tout en capturant simultanément jusqu'à 18 modalités de capteurs à chaque pas de simulation. Elle préserve les API Python natives de CARLA et d'AirSim, ainsi que les interfaces ROS 2, ce qui permet de réutiliser du code existant sans aucune modification. L'enjeu est considérable pour les équipes qui travaillent sur les systèmes robotiques mixtes air-sol, un domaine en pleine expansion avec le développement des économies à basse altitude, livraisons par drone, inspection d'infrastructures, mobilité urbaine aérienne. Jusqu'ici, les simulateurs de conduite manquaient de dynamique aérienne réaliste, tandis que les simulateurs de drones proposaient des environnements urbains trop simplifiés. Les solutions de co-simulation par pont introduisaient des décalages temporels incompatibles avec l'entraînement de politiques de navigation ou de perception multi-modale. CARLA-Air supprime ces compromis en offrant un seul environnement avec trafic conforme aux règles de circulation, piétons à comportement social, et dynamique aérodynamique cohérente. Le projet répond aussi à une urgence pratique : Microsoft a archivé le développement d'AirSim, le simulateur de drones le plus utilisé dans la recherche académique, laissant orphelines de nombreuses équipes. CARLA-Air reprend cet héritage et l'intègre dans une infrastructure moderne et activement maintenue. La plateforme est déjà conçue pour accueillir des charges de travail avancées : coopération air-sol, navigation incarnée, actions guidées par le langage, construction de jeux de données et entraînement par renforcement. Le code source complet et des binaires précompilés sont disponibles sur GitHub, ce qui devrait faciliter son adoption rapide dans la communauté robotique et autonome.

UELes équipes de recherche européennes en robotique et mobilité urbaine aérienne disposent d'une alternative open source maintenue à AirSim pour développer et entraîner des systèmes autonomes mixtes air-sol.

RobotiqueOpinion

1 source

3arXiv cs.RO

NanoCockpit : un framework applicatif optimisé pour la nanorobotique autonome pilotée par IA

Des chercheurs ont présenté NanoCockpit, un framework logiciel conçu pour optimiser les performances des nano-drones autonomes embarquant des modèles d'intelligence artificielle compacts, appelés TinyML. Ces micro-engins de quelques dizaines de grammes, dont le Bitcraze Crazyflie fait figure de référence dans le domaine, ne disposent que de microcontrôleurs fonctionnant sous la barre des 100 milliwatts. NanoCockpit s'appuie sur une architecture de multitâche par coroutines pour orchestrer simultanément l'acquisition d'images en multi-buffer, le calcul multi-cœur, les échanges de données entre microcontrôleurs et la transmission Wi-Fi. Les expériences menées sur trois applications réelles de nano-robotique ont démontré une latence bout-en-bout idéale, c'est-à-dire sans aucun overhead lié à la sérialisation des tâches, une réduction de 30 % de l'erreur de position moyenne, et un taux de réussite des missions passé de 40 % à 100 %. Ces résultats sont significatifs pour un domaine où chaque milliseconde de latence et chaque milliwatt comptent. En robotique embarquée, une mauvaise gestion des ressources logicielles se traduit directement par une instabilité de vol, des collisions ou des missions avortées. Le fait de passer d'un taux de succès de 40 % à 100 % en modifiant uniquement la couche logicielle, sans toucher au matériel, illustre à quel point l'inefficacité du code peut brider des systèmes physiquement capables. Pour les ingénieurs et chercheurs travaillant sur des applications comme la surveillance, l'inspection industrielle ou la navigation en environnements contraints, NanoCockpit offre un gain de performance immédiat sans surcoût matériel. Le domaine des nano-drones autonomes connaît une accélération rapide, portée par les progrès des modèles TinyML capables de faire tourner de la vision par ordinateur sur des puces minuscules. Jusqu'ici, l'absence de couche logicielle adaptée forçait les développeurs à sous-exploiter les ressources disponibles, créant un goulot d'étranglement artificiel. NanoCockpit s'attaque directement à ce problème en standardisant le pipeline de traitement sur le Crazyflie, la plateforme la plus répandue dans la recherche académique. La prochaine étape logique serait l'adoption de ce framework comme socle commun pour la communauté, ce qui faciliterait la reproductibilité des expériences et accélérerait le transfert vers des applications industrielles réelles.

UELe framework cible la plateforme Crazyflie de Bitcraze (entreprise suédoise), ce qui pourrait faciliter son adoption par les laboratoires de recherche européens travaillant sur les nano-drones autonomes.

💬 Passer de 40 % à 100 % de missions réussies juste en changeant la couche logicielle, ça m'a fait lire l'abstract deux fois. Tout le monde se focalisait sur le matériel, les puces, les modèles TinyML, et personne ne s'occupait sérieusement d'orchestrer tout ça proprement sur des microcontrôleurs à 100 milliwatts. Si tu travailles sur de l'embarqué, c'est le genre de truc qu'on attendait depuis un moment.

RobotiqueOpinion

1 source

4arXiv cs.RO

Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO

Des chercheurs ont publié une architecture permettant d'intégrer un agent de sécurité guidé par un grand modèle de langage (LLM) dans des robots embarqués fonctionnant à la périphérie du réseau, tout en respectant les normes industrielles de sécurité fonctionnelle. Le système, présenté dans une prépublication arXiv (2604.20193), repose sur une architecture perception-calcul-contrôle conforme à la norme ISO 13849. Concrètement, il convertit des règles de sécurité formulées en langage naturel en prédicats exécutables, déployés sur un environnement d'exécution hétérogène et redondant. Pour garantir la tolérance aux pannes, les chercheurs adoptent une redondance duale symétrique : deux modules indépendants fonctionnent en parallèle pour la perception, le calcul et le contrôle. Le prototype tourne sur une plateforme à double processeur RK3588, une puce ARM développée par Rockchip, et a été évalué dans des scénarios typiques d'interaction humain-robot. L'enjeu est fondamental : la sécurité fonctionnelle industrielle exige des comportements déterministes, c'est-à-dire prévisibles et reproductibles à chaque exécution, alors que la perception par IA reste intrinsèquement probabiliste. Cette incompatibilité freine depuis des années le déploiement de robots intelligents dans des espaces où des humains circulent. En atteignant le niveau ISO 13849 Catégorie 3 et Performance Level d avec du matériel grand public peu coûteux, cette approche ouvre la voie à des systèmes robotiques certifiables sans processeurs spécialisés hors de prix. Pour les intégrateurs industriels et fabricants de cobots, c'est un signal clair : la sécurité certifiable pourrait bientôt s'appliquer à bien plus large échelle. La montée en puissance des robots collaboratifs dans les usines, entrepôts et environnements de soins a rendu urgente la question de la certification. Les normes ISO 13849 définissent des niveaux de performance de PL a à PL e selon la probabilité de défaillance dangereuse ; atteindre PL d est généralement requis pour des équipements opérant à proximité directe d'humains. L'utilisation d'un LLM pour interpréter et codifier automatiquement des règles de sécurité en langage naturel est une approche originale qui pourrait simplifier radicalement la configuration de ces systèmes. La prochaine étape décisive sera la validation formelle par des organismes de certification indépendants, condition indispensable à une adoption industrielle à grande échelle.

UELes fabricants européens de cobots et intégrateurs industriels pourraient accéder à une voie de certification ISO 13849 PL d à moindre coût, sous réserve de validation par des organismes notifiés européens.

RobotiqueOpinion

1 source