Aller au contenu principal
Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques
RechercheApple Machine Learning6sem

Apprentissage de représentations motrices à long terme pour la génération efficace de cinématiques

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont développé une méthode permettant de prédire et générer des mouvements réalistes à long terme de façon bien plus efficace que les approches existantes. Leur système repose sur un espace de représentation de mouvement appris à partir de vastes collections de trajectoires extraites par des modèles de suivi d'objets. Plutôt que de synthétiser des vidéos complètes pour modéliser la dynamique d'une scène, le modèle opère directement sur ces embeddings compacts, ce qui réduit drastiquement le coût de calcul. Les séquences de mouvement générées peuvent être guidées par des instructions en langage naturel ou par des indications spatiales directement pointées sur l'image.

Cette avancée s'attaque à un goulot d'étranglement central en vision artificielle : explorer plusieurs futurs possibles à partir d'une même scène est actuellement prohibitif si chaque hypothèse nécessite la génération d'une vidéo pixel par pixel. En travaillant directement sur des représentations condensées du mouvement, la méthode permet de simuler des dynamiques longues et cohérentes avec une fraction des ressources habituellement requises. Les bénéfices sont concrets pour la robotique, l'animation et la génération de données synthétiques pour l'entraînement d'autres modèles d'IA.

La prédiction de mouvement est un enjeu fondamental de l'intelligence visuelle : comprendre comment les objets et les personnes vont se déplacer est indispensable pour qu'une machine interprète le monde physique. Si les grands modèles vidéo ont progressé dans la compréhension des scènes dynamiques, leur usage pour simuler des futurs alternatifs demeure trop lourd pour être pratique. Cette approche par embeddings de mouvement appris à grande échelle pourrait s'imposer comme un composant clé des futurs modèles du monde, ces systèmes qui cherchent à simuler la réalité physique de manière efficace et pilotable.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Réseau de Rodrigues pour l'apprentissage des actions robotiques
1arXiv cs.RO 

Réseau de Rodrigues pour l'apprentissage des actions robotiques

Des chercheurs en robotique et apprentissage automatique ont proposé une nouvelle architecture neuronale baptisée RodriNet, décrite dans un article pré-publié sur arXiv (arXiv:2506.02618). L'équipe introduit d'abord un composant fondamental, le Neural Rodrigues Operator, une généralisation apprenante de l'opération classique de cinématique directe, qui permet d'encoder la structure géométrique des systèmes articulés directement dans le calcul neuronal. Sur deux tâches synthétiques de prédiction cinématique et de mouvement, RodriNet affiche des gains significatifs par rapport aux architectures standard comme les MLPs et les Transformers. Les auteurs valident ensuite l'approche sur deux applications concrètes : l'apprentissage par imitation sur des bancs d'essai robotiques en combinant RodriNet avec la Diffusion Policy, et la reconstruction 3D d'une main à partir d'une seule image. L'enjeu central est celui du biais inductif : les réseaux classiques traitent les actions articulées comme des vecteurs numériques quelconques, sans tenir compte du fait qu'un bras robotique ou une main humaine obéissent à des contraintes géométriques précises, celles de la cinématique. En intégrant ces contraintes directement dans l'architecture, RodriNet apprend plus efficacement à partir de données limitées et généralise mieux aux configurations inédites. Pour l'industrie de la robotique, cela représente une voie vers des politiques de contrôle plus robustes sans nécessiter de jeux de données massifs, ce qui est particulièrement précieux dans le cadre du déploiement de robots en environnements réels. Cette contribution s'inscrit dans une tendance plus large visant à réintroduire des connaissances physiques et géométriques dans les architectures d'apprentissage profond, après une décennie dominée par des modèles généralistes sans a priori structurels. La Diffusion Policy, utilisée ici comme cadre d'imitation, est elle-même une approche récente qui modélise les trajectoires robotiques comme des processus de diffusion. Le couplage de ces deux innovations suggère que la prochaine frontière en robotique apprenante passe par des architectures hybrides, à la fois flexibles et ancrées dans la physique du corps articulé.

RecherchePaper
1 source
Athena : représentations intermédiaires pour la génération itérative d'applications guidée par LLM
2Apple Machine Learning 

Athena : représentations intermédiaires pour la génération itérative d'applications guidée par LLM

Générer automatiquement le code d'une interface utilisateur complète à partir d'un grand modèle de langage (LLM) reste un défi technique majeur. Des chercheurs ont développé Athena, un système qui introduit des représentations intermédiaires pour décomposer et guider ce processus de génération de manière itérative. Le problème central est que les interfaces applicatives modernes sont constituées de multiples fichiers interdépendants — écrans, flux de navigation, modèles de données — dont la cohérence est difficile à maintenir dans une seule requête adressée à un LLM. La génération directe produit typiquement un fichier monolithique, peu lisible et difficile à maintenir. Athena change d'approche en introduisant une étape de structuration intermédiaire avant la génération finale du code. Plutôt que de demander à un LLM de tout produire en une seule passe, le système décompose la tâche en représentations abstraites qui servent d'échafaudage — d'où le terme "scaffolded generation". Cela permet au modèle de raisonner sur l'architecture de l'application avant d'écrire la moindre ligne de code, réduisant les incohérences entre composants. Cette recherche s'inscrit dans un mouvement plus large visant à rendre les LLMs réellement utilisables pour le développement logiciel complet, au-delà des simples snippets de code. Les outils actuels de génération de code — GitHub Copilot, Cursor, ou encore Claude — peinent encore à produire des applications entières et cohérentes. Athena propose une piste concrète pour franchir ce cap, en s'inspirant des pratiques de décomposition utilisées par les développeurs humains eux-mêmes. Les suites naturelles incluent l'intégration de ce type d'approche dans des environnements de développement intégrés et des agents de codage autonomes.

RecherchePaper
1 source
Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte
3Apple Machine Learning 

Apprentissage de représentations visuelles sémantiquement riches par JEPA conditionné au texte

Des chercheurs proposent TC-JEPA (Text-Conditional JEPA), une extension de l'architecture I-JEPA développée pour l'apprentissage auto-supervisé des représentations visuelles. Le principe d'I-JEPA repose sur la prédiction de caractéristiques masquées dans l'espace des features : plutôt qu'apprendre à reconstruire des pixels, le modèle prédit des représentations abstraites de régions cachées d'une image. TC-JEPA y ajoute un conditionneur textuel : les légendes associées aux images servent de signal auxiliaire, calculé via une attention croisée sparse sur les tokens textuels, pour guider la prédiction des patches masqués. L'apport central est de réduire l'incertitude inhérente à la prédiction visuelle. Sans texte, plusieurs reconstructions plausibles existent pour une zone masquée, ce qui pousse le modèle à produire des représentations floues ou moyennées. En ancrant la prédiction dans une description textuelle fine, TC-JEPA force l'encodeur visuel à apprendre des features sémantiquement plus riches et précises, avec des retombées potentielles sur la classification, la détection d'objets et la compréhension multimodale. Cette direction s'inscrit dans un mouvement de fond qui cherche à dépasser les limites du contrastif pur (CLIP, ALIGN) en revenant à des architectures prédictives plus proches de la vision de Yann LeCun pour un apprentissage "de type monde". I-JEPA, publié par Meta en 2023, avait déjà montré des gains sur ImageNet sans augmentation agressive. TC-JEPA tente d'en corriger le principal défaut : la supervision visuelle seule reste trop ambiguë pour forcer l'émergence de concepts sémantiques robustes, un problème que le signal textuel vient partiellement résoudre.

RecherchePaper
1 source
Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires
4arXiv cs.RO 

Apprentissage par renforcement efficace via la dynamique de Koopman linéaire pour les systèmes robotiques non linéaires

Des chercheurs ont publié sur arXiv un nouveau cadre d'apprentissage par renforcement basé sur un modèle, conçu pour contrôler de manière optimale des systèmes robotiques non linéaires. L'approche repose sur la théorie de l'opérateur de Koopman, un outil mathématique qui permet de représenter des dynamiques non linéaires complexes sous une forme linéaire dans un espace de dimension supérieure. Ce modèle linéarisé est ensuite intégré dans une architecture acteur-critique classique afin d'optimiser la politique de contrôle. Pour limiter les coûts de calcul et éviter l'accumulation d'erreurs lors des simulations en plusieurs étapes, les gradients de politique sont estimés à partir de prédictions à un seul pas de temps, ce qui permet un entraînement en ligne sur des mini-lots de données issues d'interactions en continu. Le cadre a été évalué sur plusieurs benchmarks de contrôle simulés ainsi que sur deux plateformes matérielles réelles : un bras robotique Kinova Gen3 et un robot quadrupède Unitree Go1. Les résultats expérimentaux montrent que cette approche surpasse les méthodes d'apprentissage par renforcement sans modèle en termes d'efficacité d'échantillonnage, tout en offrant de meilleures performances de contrôle que les méthodes par renforcement basées sur un modèle classiques. Elle atteint même un niveau comparable aux méthodes de contrôle traditionnel qui nécessitent une connaissance exacte des dynamiques du système, un avantage considérable, car ces connaissances sont rarement disponibles dans des applications réelles. La robotique reste l'un des terrains les plus exigeants pour l'apprentissage automatique : les systèmes physiques sont non linéaires, les interactions avec le monde réel coûteuses, et les erreurs de modèle peuvent endommager le matériel. L'opérateur de Koopman suscite depuis plusieurs années un intérêt croissant dans la communauté du contrôle automatique, précisément parce qu'il permet de réconcilier la puissance expressive des modèles non linéaires avec la tractabilité des méthodes linéaires. En l'intégrant directement dans une boucle d'apprentissage par renforcement, ce travail ouvre la voie à des robots capables d'apprendre des comportements complexes avec moins d'essais et sans nécessiter un modèle analytique complet du système, une propriété clé pour le déploiement industriel à grande échelle.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour