Aller au contenu principal
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
RechercheApple Machine Learning6sem· 1 min de lecture

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Source originale ↗·

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images.

L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives.

Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
1arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source
Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes
2arXiv cs.RO 

Estimation généralisable du coefficient de frottement par plongements de matériaux et modélisation des interactions indirectes

Des chercheurs ont publié le 28 avril 2026 sur arXiv un framework capable d'estimer avec précision le coefficient de frottement entre deux matériaux quelconques, sans avoir à les tester directement l'un contre l'autre. Le système, baptisé proxy-based modeling framework, repose sur un petit ensemble fixe de matériaux de référence, appelés proxies. Pour chaque nouveau matériau A, le modèle mesure son frottement contre ces quelques proxies, puis construit un vecteur d'embedding compact qui représente les propriétés tribologiques du matériau. Une fonction de fusion combine ensuite les embeddings de deux matériaux A et B pour prédire leur frottement mutuel, sans avoir jamais eu besoin de les mettre en contact direct. L'enjeu pratique est considérable : tester exhaustivement toutes les paires possibles d'une bibliothèque de matériaux requiert un nombre d'expériences qui croît de façon quadratique, rendant rapidement le processus coûteux et inaccessible. Ce framework réduit drastiquement le nombre de mesures nécessaires tout en maintenant une haute précision prédictive, y compris lorsque certaines données proxy sont manquantes ou bruitées. Les embeddings appris sont interprétables et fournissent des estimations d'incertitude calibrées, ce qui les rend directement exploitables dans des pipelines de décision automatisée en robotique, en fabrication numérique ou en simulation physique. La friction entre matériaux reste l'un des paramètres les plus difficiles à modéliser dans les systèmes physiques, car elle dépend de combinaisons de propriétés de surface rarement capturées par des descripteurs simples. Les approches existantes exigent soit des mesures exhaustives, soit des hypothèses fortes sur la structure des matériaux. Ce travail s'inscrit dans une tendance plus large qui cherche à apporter des garanties probabilistes aux modèles de simulation physique utilisés en robotique et en conception assistée. Les auteurs valident leur méthode à la fois sur des datasets simulés et sur des mesures expérimentales réelles, ouvrant la voie à des bibliothèques de matériaux généralisables à grande échelle avec un effort expérimental minimal.

RecherchePaper
1 source
Flots normalisants avec débruitage itératif
3Apple Machine Learning 

Flots normalisants avec débruitage itératif

Des chercheurs ont introduit iTARFlow (iterative TARFlow), une nouvelle architecture de modèle génératif appartenant à la famille des flux normalisants (Normalizing Flows). Contrairement aux modèles de diffusion aujourd'hui dominants, iTARFlow conserve un objectif d'entraînement entièrement basé sur la vraisemblance, calculée de bout en bout sans approximations. Lors de la génération d'images, le modèle combine génération autorégressive et débruitage itératif, une approche hybride inédite pour cette classe de méthodes. Ces travaux s'appuient directement sur TARFlow, un flux normalisant récent qui avait démontré des performances compétitives sur des benchmarks d'images standard. Cette avancée est significative pour un domaine longtemps éclipsé par les modèles de diffusion et les GAN. Les flux normalisants offrent un avantage théorique majeur : la capacité à calculer exactement la probabilité d'une donnée, ce qui les rend précieux pour la détection d'anomalies, la compression et l'évaluation rigoureuse de modèles. En comblant le fossé de performance qui pénalisait ces méthodes, iTARFlow les rend plus compétitifs pour des applications réelles en synthèse d'images. Les flux normalisants avaient suscité un fort intérêt entre 2018 et 2020 avant de perdre du terrain face aux modèles de diffusion. TARFlow avait relancé cette famille en montrant que des architectures transformer autorégressive pouvaient rivaliser avec les approches modernes. iTARFlow prolonge cette dynamique en intégrant le débruitage itératif au processus de génération, une technique empruntée aux modèles de diffusion, tout en préservant les garanties mathématiques propres aux flux normalisants. Cette synthèse pourrait marquer le retour en force d'une approche plus interprétable et rigoureuse dans le paysage de la génération d'images.

RecherchePaper
1 source
VSAS-Bench : évaluation en temps réel des modèles d'assistants visuels en flux continu
4Apple Machine Learning 

VSAS-Bench : évaluation en temps réel des modèles d'assistants visuels en flux continu

Des chercheurs ont proposé VSAS-Bench, un nouveau cadre d'évaluation conçu spécifiquement pour les modèles de vision-langage (VLM) opérant en temps réel sur des flux vidéo continus. Contrairement aux benchmarks existants, qui évaluent les modèles dans des conditions hors ligne, c'est-à-dire sur des vidéos enregistrées et traitées après coup, VSAS-Bench cible un cas d'usage fondamentalement différent : celui des assistants visuels capables de percevoir et de répondre à un flux d'images en direct, de manière continue et sans interruption. Cette distinction est loin d'être anodine. Un modèle performant en mode hors ligne peut se révéler inutilisable en conditions réelles s'il répond avec retard ou si ses sorties manquent de cohérence d'une seconde à l'autre. VSAS-Bench introduit deux métriques inédites pour capturer ces dimensions : la proactivité, qui mesure la rapidité avec laquelle le modèle produit une réponse pertinente au bon moment, et la consistance, qui évalue la stabilité de ces réponses dans le temps. Ces critères sont essentiels pour des applications comme la surveillance automatique, l'assistance aux personnes ou les interfaces homme-machine en temps réel. Les VLM en streaming constituent un domaine en pleine émergence, porté par la montée en puissance des assistants embarqués et des robots dotés de perception visuelle. Jusqu'ici, l'absence de benchmarks adaptés freinait la comparaison objective entre systèmes. VSAS-Bench comble ce manque méthodologique et devrait accélérer la recherche sur les modèles capables de traiter des flux vidéo de façon proactive, ouvrant la voie à une nouvelle génération d'assistants visuels véritablement interactifs.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic