Aller au contenu principal
Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints
RecherchearXiv cs.RO6sem· 1 min de lecture

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Source originale ↗·

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov.

L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation.

La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Planification kinodynamique ultra-rapide par échantillonnage via la platitude différentielle
1arXiv cs.RO 

Planification kinodynamique ultra-rapide par échantillonnage via la platitude différentielle

Des chercheurs ont développé FLASK, un nouveau cadre de planification de mouvement cinodynamique pour robots, capable de générer des trajectoires dynamiquement réalisables en quelques microsecondes à quelques millisecondes seulement. Présenté dans un preprint arXiv mis à jour (arXiv:2603.16059v2), le système s'applique à une large classe de robots dits "différentiellement plats", incluant les bras manipulateurs à plusieurs degrés de liberté, les véhicules terrestres et les drones. L'approche repose sur une transformation mathématique du problème de planification depuis l'espace d'état classique vers un "espace de sortie plat", où les équations de trajectoire admettent une solution analytique en forme fermée, éliminant ainsi le recours à des résolutions numériques itératives. La planification cinodynamique, qui intègre les contraintes physiques réelles du robot dans le calcul des trajectoires, est un verrou majeur pour le déploiement sûr de robots en environnements encombrés ou dynamiques. Les approches existantes exigent soit de résoudre des problèmes aux valeurs limites à deux points (BVP), soit de propager les équations de dynamique pas à pas, deux méthodes coûteuses en temps de calcul qui peuvent ralentir drastiquement la planification. FLASK contourne ce goulot d'étranglement en exploitant la platitude différentielle pour obtenir une solution analytique exacte, puis en la validant massivement en parallèle via le paradigme SIMD ("single instruction, multiple data"). Le résultat : un planificateur exact, compatible avec n'importe quel algorithme d'échantillonnage existant, et assorti de garanties théoriques formelles sur l'exhaustivité probabiliste et l'optimalité asymptotique. La planification de mouvement sous contraintes dynamiques est un défi fondamental en robotique depuis des décennies, notamment pour les manipulateurs industriels et les robots mobiles autonomes amenés à opérer près des humains. Les planificateurs géométriques rapides, bien qu'efficaces en millisecondes grâce à la parallélisation GPU, ignorent la dynamique réelle et produisent des trajectoires que le robot ne peut pas toujours suivre fidèlement. FLASK comble cet écart en combinant la vitesse de l'échantillonnage massif parallèle avec la rigueur des trajectoires physiquement faisables. Les expériences menées en simulation et en conditions réelles dans des environnements encombrés et dynamiques confirment l'efficacité de l'approche, ouvrant la voie à des robots industriels, chirurgicaux ou autonomes capables de planifier en temps réel sans compromis sur la sécurité.

RechercheActu
1 source
Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires
2arXiv cs.RO 

Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires

Des chercheurs ont publié sur arXiv un nouveau cadre d'apprentissage par renforcement basé sur un modèle, conçu pour contrôler de manière optimale des systèmes robotiques non linéaires. L'approche repose sur la théorie de l'opérateur de Koopman, un outil mathématique qui permet de représenter des dynamiques non linéaires complexes sous une forme linéaire dans un espace de dimension supérieure. Ce modèle linéarisé est ensuite intégré dans une architecture acteur-critique classique afin d'optimiser la politique de contrôle. Pour limiter les coûts de calcul et éviter l'accumulation d'erreurs lors des simulations en plusieurs étapes, les gradients de politique sont estimés à partir de prédictions à un seul pas de temps, ce qui permet un entraînement en ligne sur des mini-lots de données issues d'interactions en continu. Le cadre a été évalué sur plusieurs benchmarks de contrôle simulés ainsi que sur deux plateformes matérielles réelles : un bras robotique Kinova Gen3 et un robot quadrupède Unitree Go1. Les résultats expérimentaux montrent que cette approche surpasse les méthodes d'apprentissage par renforcement sans modèle en termes d'efficacité d'échantillonnage, tout en offrant de meilleures performances de contrôle que les méthodes par renforcement basées sur un modèle classiques. Elle atteint même un niveau comparable aux méthodes de contrôle traditionnel qui nécessitent une connaissance exacte des dynamiques du système, un avantage considérable, car ces connaissances sont rarement disponibles dans des applications réelles. La robotique reste l'un des terrains les plus exigeants pour l'apprentissage automatique : les systèmes physiques sont non linéaires, les interactions avec le monde réel coûteuses, et les erreurs de modèle peuvent endommager le matériel. L'opérateur de Koopman suscite depuis plusieurs années un intérêt croissant dans la communauté du contrôle automatique, précisément parce qu'il permet de réconcilier la puissance expressive des modèles non linéaires avec la tractabilité des méthodes linéaires. En l'intégrant directement dans une boucle d'apprentissage par renforcement, ce travail ouvre la voie à des robots capables d'apprendre des comportements complexes avec moins d'essais et sans nécessiter un modèle analytique complet du système, une propriété clé pour le déploiement industriel à grande échelle.

RecherchePaper
1 source
Système automatique de prévention des collisions au sol par apprentissage par renforcement
3arXiv cs.RO 

Système automatique de prévention des collisions au sol par apprentissage par renforcement

Des chercheurs ont publié sur arXiv une étude évaluant un système automatique d'évitement de collision avec le sol (AGCAS) basé sur l'intelligence artificielle et l'apprentissage par renforcement, conçu spécifiquement pour les avions d'entraînement avancés. Le système, développé pour répondre aux contraintes temporelles strictes du vol militaire, repose sur des requêtes de ligne de visée vers un serveur de terrain pour calculer en temps réel la trajectoire de récupération optimale. L'approche se distingue par sa capacité à fonctionner dans un espace d'observation limité, ce qui représente un défi technique majeur pour les systèmes embarqués soumis à des ressources de calcul contraintes. L'enjeu est directement opérationnel : les collisions avec le relief en vol dit CFIT (Controlled Flight Into Terrain) restent l'une des principales causes de pertes d'appareils militaires, y compris lors de phases d'entraînement. Un AGCAS efficace peut déclencher une manoeuvre de redressement automatique lorsque le pilote est incapacité, désorienté ou distrait, sans nécessiter d'intervention humaine. L'intégration de l'apprentissage par renforcement permet au système d'adapter ses décisions à des configurations de terrain variées et imprévues, là où les systèmes à règles fixes atteignent leurs limites. Pour les forces aériennes utilisant des jets d'entraînement avancés comme le T-38 ou des équivalents, une telle technologie pourrait réduire significativement les accidents évitables. Ce travail s'inscrit dans une tendance de fond : l'armée américaine et plusieurs agences de défense occidentales investissent massivement dans l'IA embarquée pour l'aviation militaire depuis plusieurs années, avec des programmes comme le DARPA Air Combat Evolution (ACE). L'AGCAS n'est pas un concept nouveau, la version traditionnelle équipe déjà certains F-16 de l'USAF, mais son adaptation par apprentissage par renforcement ouvre la voie à des systèmes plus génériques et adaptables. La prochaine étape sera de valider ces résultats en simulation haute-fidélité, puis potentiellement en vol réel, avant toute intégration sur des plateformes opérationnelles.

UELes armées de l'air européennes, dont l'armée de l'Air et de l'Espace française, pourraient s'appuyer sur ces travaux pour développer des systèmes anti-collision terrain plus adaptatifs sur leurs appareils d'entraînement militaires.

RecherchePaper
1 source
Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données
4arXiv cs.RO 

Apprentissage par imitation : des métriques de régularité pour évaluer la qualité des données

Des chercheurs ont présenté RINSE (Ranking and INdexing Smooth Examples), un cadre léger pour évaluer automatiquement la qualité des démonstrations utilisées dans l'apprentissage par imitation robotique. Publié sur arXiv (référence 2604.23000), le système s'appuie sur deux métriques complémentaires : SAL (Spectral Arc Length), qui mesure la régularité fréquentielle d'une trajectoire, et TED (Trajectory-Envelope Distance), qui quantifie les déviations spatiales en tenant compte des points de contact. Ancré dans la théorie du contrôle moteur, RINSE postule que la fluidité du mouvement est un indicateur fiable d'expertise opérateur. Sur les benchmarks RoboMimic, le filtrage par SAL atteint un taux de succès supérieur de 16% en n'utilisant qu'un sixième des données initiales ; sur des tâches de manipulation réelle, TED améliore les performances de 20% avec seulement la moitié des données. Intégré dans le pipeline STRAP sur le benchmark LIBERO-10, RINSE améliore encore le taux de succès moyen de 5,6%. L'enjeu est considérable pour la robotique apprenante. Le clonage comportemental, méthode standard d'apprentissage par imitation, traite toutes les démonstrations à égalité, sans distinguer opérateurs habiles et débutants. Cette indifférence à la qualité plafonne les performances et limite la généralisation des modèles en conditions réelles. Les méthodes de curation existantes exigent soit un entraînement coûteux en boucle fermée, soit une annotation manuelle, freinant leur passage à l'échelle. RINSE contourne ces obstacles en opérant directement sur les trajectoires brutes, sans dépendance à une architecture particulière. Ses scores présentent une corrélation très élevée avec les allocations apprises par la méthode Re-Mix (Spearman rho supérieur ou égal à 0,89), validant leur pertinence comme signal de qualité universel. Ce travail reflète une prise de conscience croissante dans le domaine : la qualité des données d'entraînement est aussi déterminante que l'architecture des modèles. Alors que de grandes entreprises et laboratoires investissent massivement dans la collecte de démonstrations pour des robots généralistes, capables d'opérer dans des environnements industriels ou domestiques, disposer d'outils automatiques pour trier de vastes corpus hétérogènes devient stratégique. En ancrant sa méthode dans des principes neuromoteurs établis plutôt que dans des heuristiques ad hoc, RINSE ouvre la voie à des pipelines de curation plus robustes, applicables aussi bien au filtrage qu'à la pondération des données dans des régimes d'imitation à grande échelle.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic