RecherchearXiv cs.RO · 28 avr. 2026, 07:00· 1 min de lecture

Exploitation de la platitude différentielle pour la commande prédictive par apprentissage de systèmes affines multi-entrées contraints

Des chercheurs ont publié sur arXiv une nouvelle approche de contrôle automatique pour les systèmes robotiques à dynamique incertaine, exploitant une propriété mathématique appelée platitude différentielle. Le contrôleur proposé repose sur une combinaison d'apprentissage machine et de commande prédictive par modèle (MPC), et se distingue des solutions existantes par sa capacité à gérer simultanément des systèmes à entrées multiples, des contraintes sur les commandes et des contraintes d'état dans l'espace plat. Techniquement, l'architecture repose sur une extension du système et une formulation diagonale par blocs du coût, permettant de résoudre le problème de contrôle en seulement deux optimisations convexes séquentielles, tout en offrant des garanties probabilistes de stabilité via un critère de Lyapunov.

L'apport principal est d'ordre computationnel : la méthode atteint des performances comparables à un contrôleur MPC basé sur des processus gaussiens (GP-MPC), référence de l'état de l'art, mais en étant plusieurs fois plus rapide en temps de calcul. Pour les applications robotiques en temps réel, notamment les drones, les bras manipulateurs ou les véhicules autonomes, cette réduction de charge de calcul est déterminante. Elle permet d'envisager des boucles de contrôle plus rapides, des plateformes embarquées moins puissantes, ou des horizons de prédiction plus longs sans compromettre la réactivité du système. Les expériences sur matériel réel confirment un suivi de trajectoire compétitif, validant la transposabilité de l'approche au-delà de la simulation.

La platitude différentielle est une propriété bien connue en automatique, exploitée depuis les années 1990 pour simplifier la planification de trajectoires dans des systèmes comme les quadrotors ou les voitures. Jusqu'ici, les travaux combinant flatness et apprentissage machine se heurtaient à des limitations majeures : absence de gestion des contraintes d'entrée, restriction aux systèmes mono-entrée, ou dépendance à une plateforme spécifique. Cette publication généralise l'approche à une classe beaucoup plus large de systèmes non linéaires, ouvrant la voie à des contrôleurs apprenants suffisamment efficaces pour quitter les bancs de simulation et équiper des robots industriels ou autonomes en conditions réelles.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

Planification kinodynamique ultra-rapide par échantillonnage via la platitude différentielle

Des chercheurs ont développé FLASK, un nouveau cadre de planification de mouvement cinodynamique pour robots, capable de générer des trajectoires dynamiquement réalisables en quelques microsecondes à quelques millisecondes seulement. Présenté dans un preprint arXiv mis à jour (arXiv:2603.16059v2), le système s'applique à une large classe de robots dits "différentiellement plats", incluant les bras manipulateurs à plusieurs degrés de liberté, les véhicules terrestres et les drones. L'approche repose sur une transformation mathématique du problème de planification depuis l'espace d'état classique vers un "espace de sortie plat", où les équations de trajectoire admettent une solution analytique en forme fermée, éliminant ainsi le recours à des résolutions numériques itératives. La planification cinodynamique, qui intègre les contraintes physiques réelles du robot dans le calcul des trajectoires, est un verrou majeur pour le déploiement sûr de robots en environnements encombrés ou dynamiques. Les approches existantes exigent soit de résoudre des problèmes aux valeurs limites à deux points (BVP), soit de propager les équations de dynamique pas à pas, deux méthodes coûteuses en temps de calcul qui peuvent ralentir drastiquement la planification. FLASK contourne ce goulot d'étranglement en exploitant la platitude différentielle pour obtenir une solution analytique exacte, puis en la validant massivement en parallèle via le paradigme SIMD ("single instruction, multiple data"). Le résultat : un planificateur exact, compatible avec n'importe quel algorithme d'échantillonnage existant, et assorti de garanties théoriques formelles sur l'exhaustivité probabiliste et l'optimalité asymptotique. La planification de mouvement sous contraintes dynamiques est un défi fondamental en robotique depuis des décennies, notamment pour les manipulateurs industriels et les robots mobiles autonomes amenés à opérer près des humains. Les planificateurs géométriques rapides, bien qu'efficaces en millisecondes grâce à la parallélisation GPU, ignorent la dynamique réelle et produisent des trajectoires que le robot ne peut pas toujours suivre fidèlement. FLASK comble cet écart en combinant la vitesse de l'échantillonnage massif parallèle avec la rigueur des trajectoires physiquement faisables. Les expériences menées en simulation et en conditions réelles dans des environnements encombrés et dynamiques confirment l'efficacité de l'approche, ouvrant la voie à des robots industriels, chirurgicaux ou autonomes capables de planifier en temps réel sans compromis sur la sécurité.

RechercheActu

1 source

2arXiv cs.RO

Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires

Des chercheurs ont publié sur arXiv un nouveau cadre d'apprentissage par renforcement basé sur un modèle, conçu pour contrôler de manière optimale des systèmes robotiques non linéaires. L'approche repose sur la théorie de l'opérateur de Koopman, un outil mathématique qui permet de représenter des dynamiques non linéaires complexes sous une forme linéaire dans un espace de dimension supérieure. Ce modèle linéarisé est ensuite intégré dans une architecture acteur-critique classique afin d'optimiser la politique de contrôle. Pour limiter les coûts de calcul et éviter l'accumulation d'erreurs lors des simulations en plusieurs étapes, les gradients de politique sont estimés à partir de prédictions à un seul pas de temps, ce qui permet un entraînement en ligne sur des mini-lots de données issues d'interactions en continu. Le cadre a été évalué sur plusieurs benchmarks de contrôle simulés ainsi que sur deux plateformes matérielles réelles : un bras robotique Kinova Gen3 et un robot quadrupède Unitree Go1. Les résultats expérimentaux montrent que cette approche surpasse les méthodes d'apprentissage par renforcement sans modèle en termes d'efficacité d'échantillonnage, tout en offrant de meilleures performances de contrôle que les méthodes par renforcement basées sur un modèle classiques. Elle atteint même un niveau comparable aux méthodes de contrôle traditionnel qui nécessitent une connaissance exacte des dynamiques du système, un avantage considérable, car ces connaissances sont rarement disponibles dans des applications réelles. La robotique reste l'un des terrains les plus exigeants pour l'apprentissage automatique : les systèmes physiques sont non linéaires, les interactions avec le monde réel coûteuses, et les erreurs de modèle peuvent endommager le matériel. L'opérateur de Koopman suscite depuis plusieurs années un intérêt croissant dans la communauté du contrôle automatique, précisément parce qu'il permet de réconcilier la puissance expressive des modèles non linéaires avec la tractabilité des méthodes linéaires. En l'intégrant directement dans une boucle d'apprentissage par renforcement, ce travail ouvre la voie à des robots capables d'apprendre des comportements complexes avec moins d'essais et sans nécessiter un modèle analytique complet du système, une propriété clé pour le déploiement industriel à grande échelle.

RecherchePaper

1 source

3arXiv cs.RO

Système automatique de prévention des collisions au sol par apprentissage par renforcement

Des chercheurs ont publié sur arXiv une étude évaluant un système automatique d'évitement de collision avec le sol (AGCAS) basé sur l'intelligence artificielle et l'apprentissage par renforcement, conçu spécifiquement pour les avions d'entraînement avancés. Le système, développé pour répondre aux contraintes temporelles strictes du vol militaire, repose sur des requêtes de ligne de visée vers un serveur de terrain pour calculer en temps réel la trajectoire de récupération optimale. L'approche se distingue par sa capacité à fonctionner dans un espace d'observation limité, ce qui représente un défi technique majeur pour les systèmes embarqués soumis à des ressources de calcul contraintes. L'enjeu est directement opérationnel : les collisions avec le relief en vol dit CFIT (Controlled Flight Into Terrain) restent l'une des principales causes de pertes d'appareils militaires, y compris lors de phases d'entraînement. Un AGCAS efficace peut déclencher une manoeuvre de redressement automatique lorsque le pilote est incapacité, désorienté ou distrait, sans nécessiter d'intervention humaine. L'intégration de l'apprentissage par renforcement permet au système d'adapter ses décisions à des configurations de terrain variées et imprévues, là où les systèmes à règles fixes atteignent leurs limites. Pour les forces aériennes utilisant des jets d'entraînement avancés comme le T-38 ou des équivalents, une telle technologie pourrait réduire significativement les accidents évitables. Ce travail s'inscrit dans une tendance de fond : l'armée américaine et plusieurs agences de défense occidentales investissent massivement dans l'IA embarquée pour l'aviation militaire depuis plusieurs années, avec des programmes comme le DARPA Air Combat Evolution (ACE). L'AGCAS n'est pas un concept nouveau, la version traditionnelle équipe déjà certains F-16 de l'USAF, mais son adaptation par apprentissage par renforcement ouvre la voie à des systèmes plus génériques et adaptables. La prochaine étape sera de valider ces résultats en simulation haute-fidélité, puis potentiellement en vol réel, avant toute intégration sur des plateformes opérationnelles.

UELes armées de l'air européennes, dont l'armée de l'Air et de l'Espace française, pourraient s'appuyer sur ces travaux pour développer des systèmes anti-collision terrain plus adaptatifs sur leurs appareils d'entraînement militaires.

RecherchePaper

1 source

4Apple Machine Learning

Apprentissage du raisonnement structuré par contrôle de trajectoire exploitable

Les chercheurs à l'origine du framework Ctrl-R proposent une nouvelle méthode pour entraîner les grands modèles de langage à raisonner de façon plus structurée et diversifiée. Le constat de départ est que ces modèles développent parfois spontanément des comportements de raisonnement, comme l'usage récurrent de mots tels que "wait" pour signaler une phase de vérification, mais que ces trajectoires de raisonnement complexes restent rares lorsqu'on les laisse émerger sans contrainte. Les méthodes d'apprentissage par renforcement (RL) classiques échouent généralement à garantir l'acquisition de comportements de raisonnement variés chez ces systèmes. Ctrl-R propose donc un contrôle ciblé et tractable des trajectoires, en forçant une exploration systématique de motifs de raisonnement spécifiques pendant l'entraînement par renforcement. Cette avancée compte pour l'industrie de l'IA car la qualité du raisonnement conditionne directement la fiabilité des modèles sur des tâches complexes, qu'il s'agisse de mathématiques, de programmation ou d'analyse. En orientant explicitement l'apprentissage vers une diversité de stratégies de vérification et de raisonnement plutôt que de laisser le hasard de l'échantillonnage décider, cette approche pourrait produire des modèles plus robustes et plus prévisibles, capables de mieux détecter leurs propres erreurs. Le problème que Ctrl-R cherche à résoudre s'inscrit dans un enjeu plus large de la recherche en IA : comment garantir qu'un modèle apprend réellement à raisonner, et non simplement à reproduire des schémas de surface issus de ses données d'entraînement. Les méthodes de RL actuelles, notamment celles popularisées par les modèles de raisonnement récents, peinent à structurer explicitement ce processus. En rendant les trajectoires de raisonnement contrôlables et donc mesurables, cette recherche ouvre la voie à des méthodes d'entraînement plus fines, où les développeurs pourraient cibler précisément les capacités cognitives qu'ils souhaitent renforcer chez leurs modèles.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic