Aller au contenu principal
Le modèle vidéo IA d'Alibaba grimpe à la 2e place mondiale, pendant que Sora d'OpenAI et Seedance de ByteDance reculent
CréationVentureBeat AI9h· 2 min de lecture

Le modèle vidéo IA d'Alibaba grimpe à la 2e place mondiale, pendant que Sora d'OpenAI et Seedance de ByteDance reculent

Source originale ↗·

Alibaba Cloud a lancé dimanche HappyHorse 1.1, une mise à jour majeure de son modèle de génération vidéo par intelligence artificielle, désormais disponible sur Alibaba Cloud Model Studio avec accès API complet pour les entreprises et les développeurs. Pour marquer le lancement, la plateforme propose une réduction de 40 % pendant deux semaines. Ce modèle repose sur un Transformer unifié de 15 milliards de paramètres capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans une seule séquence, sans recourir à des outils tiers pour la synchronisation audio ou le post-traitement. Sur le classement indépendant Artificial Analysis Video Arena, HappyHorse 1.0 occupe actuellement la deuxième place avec un score Elo de 1 444 dans les catégories texte-vers-vidéo et image-vers-vidéo, devançant Google Veo-3.1 de 69 points et xAI Grok-Imagine-Video de 23 points.

Ce lancement intervient dans un marché brusquement reconfiguré. OpenAI a mis fin à Sora, jugé financièrement non viable, tandis que ByteDance a indéfiniment suspendu le déploiement international de Seedance 2.0 après une vague de plaintes pour violation de droits d'auteur de la part des studios hollywoodiens. Pour les équipes achats des entreprises qui évaluaient ou intégraient ces outils dans leurs workflows marketing, publicité ou production de contenus, le choix s'est considérablement rétréci en quelques mois. HappyHorse 1.1 arrive donc à point nommé : conçu comme un produit API-first pour s'intégrer dans des stacks logiciels d'entreprise, il mise sur une architecture unifiée qui réduit le nombre de dépendances fournisseurs et accélère la mise en production. Pour les acheteurs sensibles au coût total de possession, c'est un argument concret.

HappyHorse a d'abord émergé début avril comme soumission anonyme sur l'Artificial Analysis Video Arena, où il s'est immédiatement classé premier avant qu'Alibaba ne soit confirmé comme créateur. Le modèle est développé par l'ATH (Alibaba Token Hub) AI Innovation Unit, une équipe issue du Future Life Lab rattachée au groupe Taobao et Tmall, avant une restructuration organisationnelle stratégique. Derrière ce lancement se profile un enjeu bien plus large : Alibaba a annoncé un programme d'investissement en infrastructure de 52,7 milliards de dollars à l'échelle mondiale, et la vidéo générative représente un marché que les analystes anticipent à plusieurs dizaines de milliards de dollars d'ici la fin de la décennie. La vraie question est de savoir si Alibaba parviendra à convertir cette avance technique en adoption réelle sur les marchés occidentaux, dans un contexte de tensions croissantes entre Washington et Pékin sur les technologies d'intelligence artificielle.

Impact France/UE

Les entreprises européennes qui intégraient Sora ou Seedance dans leurs workflows de production vidéo ou marketing doivent reconsidérer leurs options, le marché s'étant brutalement rétréci avec la fermeture de Sora et la suspension internationale de Seedance 2.0.

💬 L'analyse de Mathieu

Sora est mort, Seedance suspendu, et HappyHorse 1.1 arrive deuxième mondial. Le vrai sujet n'est pas la qualité du modèle : c'est que le marché de la vidéo générative B2B s'est retrouvé à trois candidats sérieux en moins de six mois. Intégrer Alibaba dans sa stack de production, ça va faire tiquer les DSI européens, surtout en ce moment.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0
1Pandaily 

Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0

Le 27 avril 2026, Alibaba a annoncé le lancement en bêta de HappyHorse 1.0, son nouveau modèle de génération vidéo par intelligence artificielle. Actuellement accessible aux créateurs professionnels et aux entreprises via inscription, le modèle est également disponible au grand public dans l'application Qwen. HappyHorse 1.0 prend en charge la génération vidéo à partir de texte, d'images ou d'audio, avec des séquences pouvant atteindre 15 secondes, un upscaling en 1080p, plusieurs formats d'image et une narration multi-plans. Le tarif de référence est fixé à 0,9 yuan par seconde pour une vidéo en 720p. Le modèle supporte également plusieurs langues, dont le cantonais, l'anglais, le français et le coréen. Un déploiement commercial est prévu pour le mois de mai, après une phase d'élargissement des tests d'ici fin avril. L'arrivée de HappyHorse 1.0 sur le marché illustre la montée en puissance des géants technologiques asiatiques dans la course à la vidéo générative, un segment en pleine explosion. Pour les créateurs de contenu et les entreprises, un outil capable de produire des vidéos courtes de qualité professionnelle à moins d'un yuan la seconde représente une baisse significative des coûts de production. La prise en charge multilingue native, notamment du français, élargit considérablement le périmètre commercial potentiel au-delà de la Chine. HappyHorse 1.0 a été développé par l'unité ATH d'Alibaba en collaboration avec plusieurs équipes internes, une information confirmée par le groupe le 10 avril. Avant son annonce officielle, le modèle avait déjà figuré sous un nom anonyme dans le classement AI Video Arena d'Artificial Analysis, ce qui suggère qu'Alibaba cherchait à valider ses performances en conditions réelles avant tout lancement public. Cette stratégie s'inscrit dans un contexte de concurrence intense entre acteurs comme Sora (OpenAI), Kling (Kuaishou) ou Vidu (Tencent), tous engagés dans une course à la qualité et à l'accessibilité tarifaire pour s'imposer comme référence de la vidéo générée par IA.

UELa prise en charge native du français ouvre HappyHorse 1.0 aux créateurs et entreprises européens comme outil de production vidéo à faible coût, sans présence ni partenariat européen annoncé à ce stade.

CréationOpinion
1 source
Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique
2MarkTechPost 

Netflix ouvre en open source VOID, un modèle IA qui efface des objets de vidéos en respectant la physique

Netflix et l'institut bulgare INSAIT, rattaché à l'Université Sofia « St. Kliment Ohridski », ont publié en open source VOID (Video Object and Interaction Deletion), un modèle d'intelligence artificielle capable de supprimer des objets dans des vidéos en tenant compte de leurs effets physiques sur la scène. Construit sur CogVideoX-Fun-V1.5-5b-InP, un modèle 3D Transformer d'Alibaba PAI comptant 5 milliards de paramètres, VOID a été affiné pour le video inpainting avec un système de masques à quatre niveaux. Il fonctionne à une résolution de 384×672 pixels, traite jusqu'à 197 images consécutives, et tourne en BF16 avec quantification FP8 pour limiter la consommation mémoire. L'article de recherche est disponible sur arXiv (2604.02296) et le code a été mis à disposition publiquement. Ce que VOID résout est fondamentalement différent de ce que font les outils d'inpainting existants. Supprimer un objet d'une vidéo en remplissant les pixels manquants est un problème résolu depuis des années — ce que les équipes VFX passent des semaines à corriger, c'est la causalité physique : si l'on efface un acteur qui tient une guitare, la guitare doit tomber naturellement, pas rester en suspension. VOID introduit un « quadmask », un masque à quatre valeurs (0, 63, 127, 255) qui distingue l'objet primaire à supprimer, les zones de chevauchement, les régions affectées par les interactions physiques, et l'arrière-plan à conserver. Testé face à ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE et Gen-Omnimatte sur des données synthétiques et réelles, VOID surpasse tous ses concurrents dans le maintien de la cohérence dynamique de la scène après suppression. L'enjeu dépasse largement l'outillage de post-production hollywoodien. Netflix, qui investit massivement dans la production de contenu original à l'échelle mondiale, a un intérêt direct à automatiser des tâches VFX qui mobilisent aujourd'hui des dizaines de spécialistes humains pendant des semaines. En open-sourçant VOID, l'équipe accélère l'adoption dans des studios indépendants et des pipelines de production à plus petits budgets, tout en se positionnant comme acteur de référence dans la recherche en vidéo générative. La dépendance au checkpoint CogVideoX d'Alibaba PAI, téléchargeable séparément sur Hugging Face, soulève par ailleurs des questions sur les chaînes de dépendances dans l'écosystème open source de l'IA vidéo — un sujet qui prendra de l'importance à mesure que ces modèles entrent dans des workflows de production professionnels réglementés.

UEL'institut bulgare INSAIT (membre de l'UE) est co-auteur du modèle, et les studios de production vidéo européens à petit budget peuvent intégrer VOID immédiatement dans leurs pipelines VFX pour automatiser la suppression d'objets physiquement cohérente.

💬 Le vrai problème que VOID résout, c'est pas l'inpainting des pixels, c'est la causalité : si tu effaces un personnage qui porte quelque chose, les effets physiques de cet objet doivent continuer d'exister dans la scène. C'est exactement ce qui bloque des équipes VFX pendant des semaines, et personne avait encore publié un modèle open source qui s'y attaquait sérieusement. Reste à voir comment ça tient sur des scènes complexes en prod, mais la dépendance au checkpoint Alibaba va poser des questions dans les pipelines professionnels réglementés, surtout en Europe.

CréationOpinion
1 source
Gemini Omni vs Seedance 2.0 : quelle est la meilleure IA de génération vidéo en 2026 ?
3Le Big Data 

Gemini Omni vs Seedance 2.0 : quelle est la meilleure IA de génération vidéo en 2026 ?

Google a officiellement lancé Gemini Omni le 19 mai 2026 lors de son Google I/O annuel, entrant directement en concurrence avec Seedance 2.0 de ByteDance, sorti dès le 12 février 2026. Ces deux modèles représentent aujourd'hui le sommet de la génération vidéo par IA. Gemini Omni remplace Veo 3.1 dans l'application Gemini et introduit une nouveauté de fond : l'édition conversationnelle. L'utilisateur génère un clip, puis demande en langage naturel de modifier l'arrière-plan, de changer un personnage ou de stabiliser une séquence, sans passer par une timeline ou des calques. Seedance 2.0, lui, trône en tête du classement Artificial Analysis Video Arena avec un score Elo de 1 269 en texte-vers-vidéo et 1 351 en image-vers-vidéo, devant Kling 3.0, Veo 3.1 et Sora 2. Sa signature technique est la génération audio native et synchronisée en une seule passe : chaque son d'impact, chaque ambiance musicale est produit automatiquement au bon moment, sans post-production. L'enjeu commercial est clair : la vidéo générée par IA sort du stade expérimental pour devenir un outil de production réel. Pour les créateurs de contenu, les agences et les entreprises, le choix entre ces deux plateformes aura des conséquences concrètes sur les flux de travail. Gemini Omni cible les utilisateurs déjà dans l'écosystème Google, avec une intégration native à Google Photos, Workspace, YouTube et Android, ainsi que la possibilité de créer des avatars numériques réutilisables. Seedance 2.0 s'adresse davantage aux professionnels qui cherchent une qualité visuelle maximale et un contrôle précis via des références multiples et des keyframes. Sur le plan tarifaire, Google propose Gemini Omni dès 19,99 dollars par mois (plan Pro), avec un plan Ultra redescendu à 99,99 dollars lors du Google I/O, après avoir été affiché à 249 dollars. L'API, attendue dans les semaines à venir, devrait coûter environ 0,10 dollar par seconde en qualité standard. Cette confrontation s'inscrit dans une bataille plus large entre les grandes plateformes technologiques pour contrôler les outils de création vidéo à l'ère de l'IA générative. ByteDance bénéficie d'un avantage structurel : Seedance 2.0 a été entraîné sur des milliards de vidéos TikTok et Douyin, lui conférant une compréhension fine des dynamiques corporelles et des esthétiques populaires. Google, de son côté, mise sur l'intégration écosystème et la facilité d'usage conversationnel pour compenser un léger retard sur la qualité brute de génération, reconnu par les premières analyses indépendantes. L'API Gemini Omni n'étant pas encore disponible, le déploiement est encore partiel, ce qui laisse à Seedance 2.0 quelques semaines supplémentaires pour consolider sa position de référence sur le marché.

UELes professionnels européens de la création vidéo ont accès à deux nouvelles plateformes de génération vidéo IA de niveau production, susceptibles de transformer leurs flux de travail et de réduire les coûts de post-production.

💬 Seedance 2.0 écrase les benchmarks, c'est factuel. Mais Google joue un jeu différent : l'édition conversationnelle sans timeline, intégrée nativement dans l'écosystème que tout le monde utilise déjà, c'est le genre de truc qui fait bouger les usages en masse, même avec un léger retard sur la qualité brute. L'API Gemini pas encore dispo, ByteDance entraîné sur des milliards de TikToks : les prochaines semaines vont être intéressantes à suivre.

CréationOpinion
1 source
HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba
4Le Big Data 

HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba

Le vendredi 10 avril 2026, Alibaba a officiellement revendiqué la paternité de HappyHorse-1.0, le modèle d'intelligence artificielle génératrice de vidéos qui avait envahi les réseaux sociaux et les plateformes de benchmark en l'espace de quelques jours. L'annonce est tombée via un post sur X signé par l'équipe du projet, confirmant que le modèle est développé au sein de l'unité ATH AI Innovation Unit, rattachée au géant chinois du e-commerce. Apparu début avril sans affiliation déclarée, HappyHorse-1.0 avait immédiatement pris la première place du classement text-to-video d'Artificial Analysis, devançant des modèles soutenus par des acteurs majeurs de l'industrie. Ses capacités couvrent aussi bien la génération vidéo à partir de texte que la création d'images animées, deux segments très convoités du marché. Le modèle se trouve encore en phase de test bêta, mais un accès via API est annoncé prochainement pour les développeurs. La révélation a eu un effet immédiat sur les marchés : l'action Alibaba a clôturé en hausse de 2,12 % à Hong Kong le jour de l'annonce, après avoir déjà bondi de plus de 6 % deux jours plus tôt, quand les premières spéculations sur l'origine du modèle avaient circulé. Cette réaction boursière illustre l'importance stratégique que les investisseurs accordent désormais aux capacités IA des grandes entreprises technologiques chinoises. Pour Alibaba, HappyHorse représente une validation publique et quantifiable de la stratégie portée par Eddie Wu, le dirigeant qui a fait de l'intelligence artificielle la priorité absolue du groupe depuis son arrivée à la tête de l'entreprise. Un succès technique aussi visible, obtenu en quelques jours sur des benchmarks internationaux, constitue un signal fort envoyé à la fois aux concurrents américains et aux investisseurs mondiaux. Ce lancement intervient dans un moment de turbulences pour le secteur de la vidéo IA. OpenAI a récemment réduit la place de Sora dans sa stratégie globale, préférant concentrer ses ressources sur d'autres usages. ByteDance, de son côté, fait face à des controverses autour de ses outils vidéo expérimentaux, notamment sur des questions de droits d'auteur. Dans ce contexte, Alibaba choisit de s'imposer avec un modèle performant, lancé de façon discrète puis révélé au bon moment, une mécanique de communication qui rappelle les stratégies adoptées par DeepSeek lors de la publication de ses modèles. Le fait qu'un acteur chinois prenne la tête des classements mondiaux sur un segment aussi compétitif que la génération vidéo soulève des questions sur l'équilibre des forces dans la course à l'IA générative, et annonce probablement une intensification de la rivalité technologique entre Pékin et la Silicon Valley.

CréationOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic