Aller au contenu principal
Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes
RecherchearXiv cs.RO6sem· 1 min de lecture

Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes

Source originale ↗·

Des chercheurs ont publié le 28 avril 2026 sur arXiv un framework capable d'estimer avec précision le coefficient de frottement entre deux matériaux quelconques, sans avoir à les tester directement l'un contre l'autre. Le système, baptisé proxy-based modeling framework, repose sur un petit ensemble fixe de matériaux de référence, appelés proxies. Pour chaque nouveau matériau A, le modèle mesure son frottement contre ces quelques proxies, puis construit un vecteur d'embedding compact qui représente les propriétés tribologiques du matériau. Une fonction de fusion combine ensuite les embeddings de deux matériaux A et B pour prédire leur frottement mutuel, sans avoir jamais eu besoin de les mettre en contact direct.

L'enjeu pratique est considérable : tester exhaustivement toutes les paires possibles d'une bibliothèque de matériaux requiert un nombre d'expériences qui croît de façon quadratique, rendant rapidement le processus coûteux et inaccessible. Ce framework réduit drastiquement le nombre de mesures nécessaires tout en maintenant une haute précision prédictive, y compris lorsque certaines données proxy sont manquantes ou bruitées. Les embeddings appris sont interprétables et fournissent des estimations d'incertitude calibrées, ce qui les rend directement exploitables dans des pipelines de décision automatisée en robotique, en fabrication numérique ou en simulation physique.

La friction entre matériaux reste l'un des paramètres les plus difficiles à modéliser dans les systèmes physiques, car elle dépend de combinaisons de propriétés de surface rarement capturées par des descripteurs simples. Les approches existantes exigent soit des mesures exhaustives, soit des hypothèses fortes sur la structure des matériaux. Ce travail s'inscrit dans une tendance plus large qui cherche à apporter des garanties probabilistes aux modèles de simulation physique utilisés en robotique et en conception assistée. Les auteurs valident leur méthode à la fois sur des datasets simulés et sur des mesures expérimentales réelles, ouvrant la voie à des bibliothèques de matériaux généralisables à grande échelle avec un effort expérimental minimal.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
1arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
2Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire
3MarkTechPost 

Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire

Des chercheurs et développeurs en bioinformatique disposent désormais d'un tutoriel détaillé pour construire un pipeline multi-agents capable de modéliser des systèmes biologiques complexes en un seul environnement de calcul unifié. Publié sous forme de notebook Google Colab, ce guide propose d'assembler plusieurs agents spécialisés autour de quatre domaines distincts : l'analyse des réseaux de régulation génique, la prédiction des interactions protéine-protéine, l'optimisation des voies métaboliques et la simulation des cascades de signalisation cellulaire. Chaque agent traite des données synthétiques générées en amont, avec des paramètres contrôlés (14 gènes, 40 protéines, 70 pas de simulation), et un modèle OpenAI GPT-4o-mini joue le rôle d'investigateur principal, synthétisant l'ensemble des résultats en une interprétation biologique cohérente qui relie régulation, métabolisme et signalisation. L'intérêt de cette approche dépasse la simple démonstration technique. En centralisant dans un seul workflow des analyses qui nécessitent habituellement des outils et des équipes séparées, le pipeline réduit la friction entre disciplines et rend la biologie computationnelle reproductible à coût quasi nul. Les chercheurs en génomique, pharmacologie ou biologie synthétique peuvent ainsi prototyper des hypothèses sur des interactions moléculaires sans avoir accès à des données expérimentales réelles, ce qui accélère la phase exploratoire avant les expériences en laboratoire. Le recours à un LLM comme chef d'orchestre final est particulièrement notable : il ne remplace pas l'expertise humaine, mais il agrège des sorties hétérogènes en une narration scientifique structurée, comblant le fossé entre calcul brut et interprétation biologique. Ce type d'infrastructure reflète une tendance de fond dans la bioinformatique computationnelle : l'émergence de systèmes multi-agents où des modules IA spécialisés collaborent plutôt que de concentrer toute la logique dans un seul modèle monolithique. Des entreprises comme Recursion Pharmaceuticals ou Insilico Medicine ont déjà industrialisé des pipelines similaires pour la découverte de médicaments, mais l'accès à ces outils reste souvent réservé à des équipes bien dotées. La mise à disposition d'un tel tutoriel open-source, fondé sur des bibliothèques standard comme NumPy, NetworkX et scikit-learn, démocratise une approche jusque-là réservée aux grands laboratoires. La prochaine étape logique serait d'y intégrer de vraies données omiques, comme des profils d'expression ARN issus de bases publiques telles que GEO ou TCGA, pour transformer ce prototype pédagogique en outil de recherche opérationnel.

RechercheTuto
1 source
Estimation d'état monoculaire métrique par alignement inertiel et priors cinétodynamiques
4arXiv cs.RO 

Estimation d'état monoculaire métrique par alignement inertiel et priors cinétodynamiques

Une équipe de chercheurs présente une nouvelle méthode d'estimation d'état pour robots à structure flexible, publiée sur arXiv sous la référence 2511.20496. Le système exploite une caméra monoculaire, c'est-à-dire une seule caméra, couplée à des modèles physiques appelés "priors kinetodynamiques", pour localiser précisément un robot sans recourir aux capteurs inertiels classiques. La méthode repose sur deux composantes complémentaires : un réseau de neurones de type MLP (perceptron multicouche) qui apprend les propriétés élastiques du système, et des modèles cinématiques B-spline en temps continu qui capturent la fluidité du mouvement. Ces deux briques sont reliées par l'application de la deuxième loi de Newton, qui met en relation l'accélération dérivée visuellement et l'accélération générée par les déformations de la plateforme. Les chercheurs ont validé leur approche sur un prototype minimaliste composé d'un ressort et d'une caméra. Ce travail s'attaque à un problème fondamental de la robotique : les méthodes d'odométrie visuelle monoculaire peinent traditionnellement à récupérer l'échelle métrique absolue et l'orientation gravitationnelle, deux informations pourtant indispensables à la navigation autonome. Jusqu'ici, les algorithmes de localisation supposaient que la plateforme est un corps rigide, une hypothèse qui s'effondre dès qu'un drone aux bras flexibles, un robot mou ou tout système à structure déformable entre en jeu. En modélisant correctement la physique de la plateforme, les auteurs parviennent non seulement à une estimation de pose robuste sur des systèmes non rigides, mais aussi à récupérer les propriétés inertielles, rendant en partie superflue l'intégration d'une centrale inertielle dédiée. L'odométrie visuelle monoculaire est un domaine de recherche actif depuis plus d'une décennie, porté par l'essor des drones, des robots mobiles et des systèmes autonomes légers qui cherchent à minimiser poids et coût des capteurs. La robotique souple et les plateformes à géométrie variable représentent des cas d'usage croissants pour lesquels les hypothèses de corps rigide constituent un obstacle majeur. En intégrant directement les lois de la mécanique newtonienne dans le pipeline d'estimation, cette approche ouvre la voie à une nouvelle génération d'algorithmes capables de s'adapter à la déformabilité des plateformes réelles, avec des applications potentielles dans l'inspection industrielle, la livraison par drone et la chirurgie robotique.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic