
Un seul modèle, trois modalités : ByteDance lance Lance pour comprendre, générer et éditer images et vidéos
L'équipe de recherche de ByteDance a publié Lance, un modèle d'intelligence artificielle capable de comprendre, générer et modifier des images et des vidéos au sein d'une seule et même architecture. Présenté dans un article de recherche disponible sur arXiv, Lance organise ses capacités autour de trois familles de sorties : texte, images et vidéos. Côté compréhension, il prend en charge la description d'images et de vidéos, les questions-réponses visuelles, la reconnaissance optique de caractères et le raisonnement visuel. Côté génération, il couvre la création d'images et de vidéos à partir de texte, la conversion image-vers-vidéo, la génération guidée par un sujet, et l'édition cohérente multi-tours sur les deux modalités. Le modèle repose sur une architecture de 3 milliards de paramètres initialisée depuis Qwen2.5-VL 3B de Alibaba, et intègre le codec vidéo 3D causal VAE de Wan2.2, également développé par ByteDance.
Réunir compréhension et génération dans un seul modèle représente un défi technique de premier ordre, car les deux tâches tirent dans des directions opposées : la compréhension requiert des représentations sémantiques compactes alignées sur le langage, tandis que la génération exige des représentations continues à bas niveau pour préserver textures, géométrie et dynamiques temporelles. La plupart des systèmes existants contournent cette tension en séparant les deux blocs puis en les connectant après coup. Lance est l'un des rares modèles à les unifier nativement dès l'entraînement, grâce à une architecture à double flux de type mixture-of-experts : un expert dédié à la compréhension (LLMUND) et un expert dédié à la génération (LLMGEN), partageant le même contexte d'entrée sans se concurrencer sur les mêmes paramètres. Pour les professionnels du multimédia, des plateformes de contenu ou des développeurs d'outils créatifs, cette convergence ouvre la voie à des pipelines considérablement simplifiés.
Le principal obstacle architectural résidait dans la coexistence de types de tokens hétérogènes au sein d'une même séquence : tokens textuels, tokens visuels sémantiques produits par le encodeur ViT de Qwen2.5-VL, et tokens latents continus issus du VAE avec un sous-échantillonnage spatial de 16× et temporel de 4×. Le positionnement rotatif standard en 3D (3D-RoPE) ne permettait pas de distinguer ces groupes, créant des ambiguïtés de frontières préjudiciables à l'alignement entre tâches. ByteDance a introduit MaPE (Modality-Aware Rotary Positional Encoding), qui applique un décalage temporel fixe à chaque groupe de modalité selon son ordre dans la séquence, tout en laissant les coordonnées spatiales intactes. Lance s'inscrit dans une course plus large entre les grands laboratoires asiatiques et occidentaux pour produire des modèles visuels unifiés : des approches similaires ont été explorées par Google avec Gemini et par des équipes académiques, mais peu ont démontré une couverture aussi complète du cycle image-vidéo dans un seul modèle entraîné conjointement.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



