Aller au contenu principal
SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques
RecherchearXiv cs.RO2sem

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Résumé IASource uniqueImpact UE
Source originale ↗·
SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques
▶ Voir sur YouTube

Des chercheurs ont publié sur arXiv une méthode appelée SMP (Score-Matching Motion Priors), conçue pour rendre les personnages virtuels animés par simulation physique capables de mouvements naturels, sans avoir à tout réentraîner à chaque nouveau projet. La technique repose sur des modèles de diffusion de mouvement pré-entraînés combinés à une technique baptisée score distillation sampling (SDS), empruntée au domaine de la génération 3D à partir de texte. Le principe : entraîner une fois un prior de mouvement sur un grand corpus de données de capture de mouvement, puis le geler et le réutiliser comme fonction de récompense universelle pour entraîner n'importe quelle nouvelle politique de contrôle sur des tâches variées.

L'enjeu est considérable pour les studios de jeux vidéo, les équipes de simulation robotique et les développeurs d'avatars en réalité virtuelle. Jusqu'ici, la méthode dominante reposait sur l'apprentissage par imitation adversariale, efficace mais contraignante : chaque nouveau contrôleur nécessitait un réentraînement complet du prior, et les données de référence devaient être conservées à chaque étape. SMP rompt avec cette logique en proposant un prior généraliste, modulable et composable. Les auteurs montrent qu'un seul modèle entraîné sur de larges datasets peut être redirigé vers des styles de mouvement spécifiques, et que plusieurs styles peuvent être composés pour en synthétiser de nouveaux, absents du dataset original.

Cette avancée s'inscrit dans une tendance plus large d'adaptation des modèles de diffusion, popularisés en génération d'images, à d'autres modalités comme le mouvement corporel. Les méthodes adversariales, issues des GANs, ont longtemps dominé la synthèse de mouvements réalistes pour personnages humanoïdes simulés physiquement, mais leur manque de réutilisabilité freinait leur déploiement à grande échelle dans des pipelines de production. SMP propose une alternative modulaire qui pourrait simplifier le développement de personnages animés dans les moteurs physiques, sans sacrifier la qualité visuelle. Les résultats présentés sur une suite diversifiée de tâches de contrôle montrent des performances comparables aux meilleures méthodes adversariales actuelles.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels
1arXiv cs.RO 

SPLIT : séparation des contacts physiques par arithmétique latente dans les capteurs tactiles visuels

Une équipe de chercheurs a publié sur arXiv (référence 2604.24449) une nouvelle méthode baptisée SPLIT, conçue pour simuler des capteurs tactiles à base d'images utilisés en robotique. Le travail se concentre principalement sur le capteur DIGIT, un capteur tactile optique répandu dans la communauté robotique. SPLIT repose sur une stratégie d'arithmétique dans l'espace latent qui dissocie explicitement la géométrie de contact des propriétés optiques propres au capteur. Concrètement, le système décompose ce qu'il "voit" en deux composantes indépendantes : la forme de l'objet qui appuie sur le capteur, et les caractéristiques visuelles intrinsèques du capteur lui-même. La méthode intègre également une simulation par éléments finis (FEM) calibrée avec résolution variable, offrant un compromis ajustable entre vitesse de calcul et fidélité physique. Cette capacité de dissociation change profondément la manière dont on peut entraîner des modèles d'apprentissage automatique pour la perception tactile. Jusqu'ici, chaque nouvelle unité physique d'un capteur nécessitait une recalibration coûteuse en temps et en données. SPLIT élimine cette contrainte : une fois entraîné, le modèle peut s'adapter à différentes variantes du capteur DIGIT, voire se transférer vers des capteurs d'une autre famille, comme le GelSight R1.5, sans réentraînement complet. La méthode supporte en outre une simulation bidirectionnelle : elle peut générer des images réalistes à partir de maillages de déformation, mais aussi reconstruire un maillage à partir d'une image tactile réelle. La vitesse d'inférence dépasse celle des approches concurrentes existantes. Le manque de données d'entraînement réalistes est l'un des principaux freins au développement de la robotique tactile. Collecter des interactions physiques variées est lent, coûteux et difficile à reproduire à grande échelle, ce qui pousse la communauté vers des simulateurs capables de générer des données synthétiques crédibles. SPLIT s'inscrit dans cette tendance en proposant une solution généraliste, là où les méthodes antérieures restaient souvent liées à un seul type de capteur. En permettant le transfert inter-capteurs et en réduisant le besoin en données réelles, cette approche pourrait accélérer significativement le développement de robots capables de manipuler des objets avec précision et dextérité.

RecherchePaper
1 source
Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux
2arXiv cs.RO 

Affordance-R1 : apprentissage par renforcement pour le raisonnement sur les affordances dans les LLM multimodaux

Des chercheurs ont présenté Affordance-R1, un nouveau modèle d'intelligence artificielle conçu pour permettre aux robots de déterminer précisément comment saisir et manipuler des objets dans leur environnement. Publiée sur arXiv (référence 2508.06206), cette étude introduit le premier cadre unifié d'affordance grounding combinant l'apprentissage par renforcement avec un raisonnement de type chaîne de pensée (Chain-of-Thought, CoT). Le système s'appuie sur une variante de l'optimisation politique appelée GRPO (Group Relative Policy Optimization) et a été entraîné sur un nouveau jeu de données spécialement constitué pour l'occasion, baptisé ReasonAff. Malgré l'absence de données de raisonnement explicite durant l'entraînement, le modèle parvient à une généralisation zéro-shot convaincante et développe des capacités de raisonnement émergentes lors de l'inférence. Le code et le jeu de données sont disponibles publiquement sur GitHub. Cette avancée concerne directement la robotique incarnée, l'interaction humain-robot et la manipulation d'objets en environnement ouvert. L'enjeu central est la capacité d'un robot à identifier, sans entraînement préalable sur un objet donné, quelle zone précise saisir ou activer pour accomplir une tâche, par exemple tenir une tasse par son anse ou appuyer sur le bouton d'un appareil. Jusqu'ici, les modèles existants échouaient à transférer cette compréhension d'un objet à un autre, faute d'un raisonnement structuré. Affordance-R1 comble ce manque en permettant une généralisation hors-domaine (OOD), ce qui pourrait accélérer le déploiement de robots polyvalents dans des environnements industriels, domestiques ou médicaux. Le concept d'affordance, emprunté à la psychologie cognitive, désigne les actions qu'un objet permet naturellement à un agent. Dans le domaine de la robotique IA, le défi est d'apprendre à un modèle à percevoir ces possibilités d'action de façon générique, sans dépendre d'une liste exhaustive d'objets connus. Les approches précédentes reposaient sur de la supervision directe, limitant leur adaptabilité face à des situations inédites. L'utilisation du GRPO, une méthode d'apprentissage par renforcement popularisée notamment par DeepSeek, représente ici un changement de paradigme : plutôt que d'enseigner explicitement le raisonnement, on récompense le modèle selon des critères de format, de perception et de cognition. Cette approche rejoint une tendance plus large visant à doter les grands modèles multimodaux d'une véritable capacité de planification physique dans le monde réel.

RecherchePaper
1 source
Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM
3MarkTechPost 

Créer un agent d'apprentissage par renforcement pour retrouver des mémoires pertinentes et améliorer les réponses des LLM

Des chercheurs ont publié un tutoriel détaillé montrant comment construire un agent d'apprentissage par renforcement capable de récupérer des souvenirs pertinents dans une base de mémoire à long terme, pour améliorer la précision des réponses d'un grand modèle de langage. Le système repose sur une combinaison de plusieurs briques technologiques : les embeddings vectoriels d'OpenAI (modèle text-embedding-3-small), un environnement d'entraînement personnalisé codé avec la bibliothèque Gymnasium, et l'algorithme PPO (Proximal Policy Optimization) de Stable-Baselines3. Le pipeline commence par la génération d'un jeu de données synthétique de "souvenirs" accompagné de requêtes associées, chaque souvenir et chaque requête étant convertis en vecteurs numériques pour permettre un calcul de similarité. L'agent apprend ensuite une politique de sélection, en observant les caractéristiques des candidats mémoire et en choisissant lequel récupérer. La réponse finale est générée par gpt-4o-mini, qui ne dispose que des souvenirs récupérés comme contexte. L'enjeu central de cette approche est de dépasser les limites de la simple recherche par similarité cosinus, qui reste la méthode dominante dans la plupart des systèmes RAG (Retrieval-Augmented Generation) actuels. En entraînant un agent à optimiser ses décisions de récupération via un signal de récompense, le système apprend à distinguer les souvenirs superficiellement proches mais peu utiles des souvenirs véritablement pertinents pour répondre à une question donnée. Pour les applications concrètes, assistants personnels, agents autonomes, systèmes de support client avec historique, cette capacité à mieux cibler l'information pertinente peut significativement améliorer la qualité des réponses sans augmenter la taille du contexte envoyé au modèle. L'évaluation s'appuie elle-même sur un LLM jouant le rôle de juge strict, retournant un score binaire (1.0 ou 0.0) selon que la réponse prédite correspond sémantiquement à la réponse attendue. Cette publication s'inscrit dans un courant de recherche actif qui cherche à doter les LLMs d'une mémoire externe persistante et intelligemment gérée. Les approches RAG classiques encodent et cherchent des documents de façon statique, sans jamais apprendre de leurs erreurs de récupération. L'idée d'utiliser l'apprentissage par renforcement pour optimiser ce processus de sélection est explorée depuis quelques années dans la littérature académique, mais reste peu répandue en production. Ce tutoriel la rend accessible à un large public de praticiens, avec un code reproductible sous Python 3, ce qui pourrait accélérer son adoption dans des projets concrets. La prochaine étape naturelle serait d'appliquer cette méthode à des bases de mémoire réelles, dynamiques et de grande taille, là où la différence entre une bonne et une mauvaise récupération a un impact direct sur la fiabilité de l'agent.

RechercheTuto
1 source
4MarkTechPost 

Google présente Simula : un framework de raisonnement pour générer des datasets synthétiques contrôlables dans des domaines IA spécialisés

Google et l'École polytechnique fédérale de Lausanne (EPFL) ont présenté Simula, un nouveau cadre de génération de données synthétiques pensé pour les domaines spécialisés de l'IA, cybersécurité, raisonnement juridique, santé, où les données réelles sont rares, coûteuses ou inaccessibles pour des raisons de confidentialité. Contrairement aux approches classiques qui s'appuient sur des données de départ existantes ou des prompts artisanaux, Simula construit chaque jeu de données à partir de zéro, en traitant la génération de données comme un problème de conception de mécanismes. Le système décompose le processus en quatre étapes distinctes et contrôlables, pilotées par un modèle multimodal (appelé M3), et est capable de produire des jeux d'entraînement à très grande échelle, jusqu'à 512 000 exemples, tout en garantissant qualité, diversité et complexité simultanément. Le défi que Simula tente de résoudre est au cœur du prochain palier de développement de l'IA. Si les modèles généralistes ont pu s'entraîner sur l'immensité du web, les modèles spécialisés butent contre un mur : annoter manuellement des données dans des domaines pointus est lent, cher et sujet aux erreurs. Simplement demander à un grand modèle de langage de générer des données d'entraînement produit des résultats biaisés, répétitifs et peu complexes. Simula répond à cela par une architecture en taxonomies hiérarchiques, le système identifie d'abord les axes de variation d'un domaine (type d'attaque, classe de vulnérabilité, acteur menaçant pour la cybersécurité, par exemple), puis les développe en arbre pour couvrir les cas rares, avec une stratégie "Best-of-N" et une étape de critique automatique pour détecter les sous-catégories manquantes. La diversité locale est gérée par des "méta-prompts" générés à partir de combinaisons de nœuds taxonomiques, tandis qu'une fraction configurable d'exemples passe par une étape de complexification explicite. La publication de Simula s'inscrit dans une course plus large à la donnée synthétique de qualité, portée par des acteurs comme Microsoft, Meta ou des startups spécialisées, mais l'approche de Google se distingue par sa transparence méthodologique et son refus de dépendre de données sources existantes, ce qui ouvre la voie à des domaines où même les données de départ font défaut. L'enjeu est considérable : qui maîtrise la génération de données synthétiques contrôlées maîtrise potentiellement la capacité à entraîner des modèles surspécialisés sans contrainte réglementaire ni coût d'annotation. Google et l'EPFL ont publié leurs travaux via le blog de recherche Google, mais Simula n'est pas encore disponible en open source, la suite dépendra de la décision de Google d'ouvrir ou non l'accès à ce cadre à la communauté.

UEL'EPFL, partenaire européen clé de ce projet, positionne la recherche européenne en pointe sur la génération de données synthétiques, un enjeu stratégique pour les domaines sensibles (santé, droit) où les réglementations européennes comme le RGPD limitent fortement l'accès aux données réelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour