Aller au contenu principal
Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son
CréationLe Big Data3h· 2 min de lecture

Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son

Source originale ↗·

xAI, la société d'intelligence artificielle fondée par Elon Musk, a annoncé le 17 juin 2026 la disponibilité générale de Grok Imagine Video 1.5, son modèle de génération de vidéo par image. Disponible sur le web via grok.com/imagine, sur les applications mobiles iOS et Android, et via l'API sous le nom grok-imagine-video-1.5, le modèle sort officiellement de sa phase de prévisualisation lancée début juin. La nouveauté la plus marquante de cette version finale est l'intégration du son natif : effets sonores, ambiances sonores et dialogues sont désormais générés simultanément à la vidéo, sans étape supplémentaire. Pour les utilisateurs grand public, xAI déploie en parallèle une version Video 1.5 Fast qui ramène le temps de génération d'une vidéo six secondes en 720p à environ 25 secondes, contre plus de 40 secondes avec le modèle précédent, soit un gain de performance de près de 40%.

La synchronisation audio-vidéo native représente un changement concret pour les créateurs de contenu, qui devaient auparavant assembler son et image dans des outils tiers. La génération simultanée améliore la cohérence entre l'action et le son, et xAI indique que les voix gagnent en naturalité. Sur le plan visuel, le modèle corrige plusieurs faiblesses récurrentes des générateurs vidéo : meilleure cohérence des personnages et objets entre les images, réduction des déformations visuelles, et simulation plus réaliste de la physique, notamment le poids et l'élan. Le flux de travail créatif est également repensé avec l'ajout de projets organisables depuis une barre latérale, la possibilité de lancer plusieurs générations en parallèle via des agents simultanés, et un moteur de recherche intégré à la bibliothèque personnelle de l'utilisateur.

xAI s'inscrit dans une course à la génération vidéo IA qui oppose désormais des acteurs comme Runway, Sora d'OpenAI, Veo de Google et Kling de Kuaishou. En intégrant le son directement dans le pipeline de génération, la société cherche à se différencier sur un marché où la qualité de production cinématographique devient un argument central. Pour illustrer le potentiel du modèle, xAI met en avant le projet "Odyssey" du créateur David Thompson, qui a réalisé une bande-annonce à l'esthétique cinématographique entièrement avec Grok Imagine 1.5. La disponibilité via API ouvre également la voie à des intégrations dans des outils professionnels de production. La prochaine étape pour xAI sera probablement d'étendre les durées de vidéo et la résolution maximale, deux limites encore non précisées officiellement, pour rivaliser avec les offres premium de ses concurrents.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Seedance 2.0 : Comment créer des vidéos TikTok avec l’IA ?
1Le Big Data 

Seedance 2.0 : Comment créer des vidéos TikTok avec l’IA ?

Seedance 2.0, la nouvelle version du générateur vidéo IA développé par ByteDance, s'est imposée comme un outil de référence pour la création de contenu vertical destiné à TikTok. La mise à jour introduit deux avancées majeures : un moteur de mouvement de caméra piloté par prompt textuel, et un système de cohérence de personnage capable de mémoriser les traits faciaux, vêtements et détails graphiques d'un sujet d'une scène à l'autre. Concrètement, le créateur intègre des commandes comme « Zoom », « Pan » ou « Tilt » directement dans sa description textuelle, et le modèle génère automatiquement des séquences animées au format 9:16, sans studio ni équipe de production. Une image de référence ou un identifiant suffit pour que le système reproduise un personnage avec une précision quasi identique sur plusieurs épisodes. Ces fonctionnalités répondent à deux problèmes chroniques des créateurs de contenu sur TikTok : la qualité visuelle insuffisante des outils accessibles au grand public, et l'incohérence visuelle qui brise la narration dans les formats sériels. Jusqu'ici, maintenir l'apparence d'un personnage entre plusieurs séquences générées par IA nécessitait un travail manuel fastidieux ou des compétences techniques avancées. Seedance 2.0 automatise ce processus, ce qui ouvre la création de storytelling long terme à des créateurs solo, sans budget de production. Pour les marques et les créateurs qui construisent une identité visuelle sur la plateforme, l'outil permet de standardiser un univers graphique cohérent à grande échelle, un avantage compétitif direct dans un environnement où l'attention se gagne en moins d'une seconde. Seedance s'inscrit dans une course effrénée entre les grandes plateformes et startups à proposer des générateurs vidéo IA crédibles : Sora d'OpenAI, Veo de Google, Kling, Runway ou encore Pika Labs occupent le même terrain. ByteDance, maison mère de TikTok, dispose d'un avantage structurel évident : sa connaissance intime des formats qui performent sur sa propre plateforme et l'accès à des données d'entraînement massives issues des millions de vidéos publiées chaque jour. La version 2.0 marque une montée en gamme délibérée vers les créateurs professionnels et semi-professionnels, avec un positionnement qui cherche à dépasser le statut d'outil expérimental pour devenir un composant réel du workflow de production. La question qui reste ouverte est celle des droits : à mesure que ces outils génèrent des personnages de plus en plus réalistes et persistants, les enjeux juridiques autour de la ressemblance, du consentement et de la propriété des identités numériques vont inévitablement s'intensifier.

UELes enjeux de consentement et de droits sur les personnages générés de manière persistante entrent directement en résonance avec l'AI Act européen et le RGPD sur le traitement des données biométriques.

CréationOutil
1 source
Pourquoi les agents vidéo sont la prochaine étape, Ethan He, xAI Grok Imagine
2Latent Space 

Pourquoi les agents vidéo sont la prochaine étape, Ethan He, xAI Grok Imagine

Ethan He, chercheur passé de NVIDIA à xAI, a co-animé un épisode du podcast Latent Space où il développe une thèse radicale sur l'avenir de la génération vidéo : le prochain Sora ne sera pas un meilleur modèle vidéo, mais un agent vidéo. He est l'un des architectes du modèle Cosmos World Model de NVIDIA, avant de rejoindre xAI pour construire Grok Imagine en seulement trois mois avec une petite équipe. Dans cet épisode, il détaille la pile technique complète des systèmes vidéo frontier : VAE (autoencodeurs variationnels), diffusion transformers, alignement audio-vidéo, distillation de modèles pour accélérer l'inférence, et les coûts cachés liés au stockage et au transfert de datasets vidéo massifs. La thèse centrale d'Ethan He est que l'intelligence des modèles vidéo provient principalement des LLM, et non de l'entraînement sur des données vidéo brutes. Cette distinction change profondément la trajectoire du domaine. Selon lui, la génération vidéo va suivre la même évolution que le code : les modèles de codage sont d'abord devenus très bons en sortie one-shot, puis l'étape décisive a été l'orchestration, la capacité à planifier, éditer, tester et itérer. De la même façon, les agents vidéo capables de planifier une tâche créative, générer des segments, se critiquer eux-mêmes et itérer deviendront le vrai différenciateur, bien davantage que les gains marginaux en réalisme ou en cohérence temporelle. Cette évolution concerne directement les équipes de production créative, les studios et toute l'industrie des médias synthétiques, pour qui la question n'est plus « à quoi ressemble la vidéo générée » mais « combien de tours de boucle le système peut-il exécuter sans intervention humaine ». Le contexte plus large est celui d'une course où la vitesse d'itération interne prime sur tout. He souligne que les plus grands gains de qualité chez xAI sont venus de la correction de petits bugs dans les pipelines de données et d'entraînement, pas de changements architecturaux majeurs. Il aborde également Flipbook, un projet souvent traité comme une démo anecdotique, mais qu'il considère comme un signal sérieux : avec la baisse continue des coûts d'inférence, une interface utilisateur générée en temps réel à partir de l'intention de l'utilisateur, sans HTML ni CSS traditionnels, devient un horizon crédible. Grok Imagine 0.9 intègre déjà la génération audio-vidéo à grande échelle, un problème qu'il décrit comme plus difficile que l'alignement texte-vidéo. La prochaine étape, Grok Imagine Agent, vise à transformer la génération vidéo en système de bout en bout piloté par des agents, confirmant que la frontière se déplace désormais du modèle vers l'orchestration.

CréationOpinion
1 source
Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0
3Pandaily 

Alibaba lance la bêta de son modèle de génération vidéo HappyHorse 1.0

Le 27 avril 2026, Alibaba a annoncé le lancement en bêta de HappyHorse 1.0, son nouveau modèle de génération vidéo par intelligence artificielle. Actuellement accessible aux créateurs professionnels et aux entreprises via inscription, le modèle est également disponible au grand public dans l'application Qwen. HappyHorse 1.0 prend en charge la génération vidéo à partir de texte, d'images ou d'audio, avec des séquences pouvant atteindre 15 secondes, un upscaling en 1080p, plusieurs formats d'image et une narration multi-plans. Le tarif de référence est fixé à 0,9 yuan par seconde pour une vidéo en 720p. Le modèle supporte également plusieurs langues, dont le cantonais, l'anglais, le français et le coréen. Un déploiement commercial est prévu pour le mois de mai, après une phase d'élargissement des tests d'ici fin avril. L'arrivée de HappyHorse 1.0 sur le marché illustre la montée en puissance des géants technologiques asiatiques dans la course à la vidéo générative, un segment en pleine explosion. Pour les créateurs de contenu et les entreprises, un outil capable de produire des vidéos courtes de qualité professionnelle à moins d'un yuan la seconde représente une baisse significative des coûts de production. La prise en charge multilingue native, notamment du français, élargit considérablement le périmètre commercial potentiel au-delà de la Chine. HappyHorse 1.0 a été développé par l'unité ATH d'Alibaba en collaboration avec plusieurs équipes internes, une information confirmée par le groupe le 10 avril. Avant son annonce officielle, le modèle avait déjà figuré sous un nom anonyme dans le classement AI Video Arena d'Artificial Analysis, ce qui suggère qu'Alibaba cherchait à valider ses performances en conditions réelles avant tout lancement public. Cette stratégie s'inscrit dans un contexte de concurrence intense entre acteurs comme Sora (OpenAI), Kling (Kuaishou) ou Vidu (Tencent), tous engagés dans une course à la qualité et à l'accessibilité tarifaire pour s'imposer comme référence de la vidéo générée par IA.

UELa prise en charge native du français ouvre HappyHorse 1.0 aux créateurs et entreprises européens comme outil de production vidéo à faible coût, sans présence ni partenariat européen annoncé à ce stade.

CréationOpinion
1 source
Cette IA vous permet de créer des jeux vidéo à partir de Google Maps, mais il y a une condition
4Presse-citron 

Cette IA vous permet de créer des jeux vidéo à partir de Google Maps, mais il y a une condition

En mai 2026, Google a annoncé l'intégration de Genie, son modèle d'IA générative spécialisé dans la création d'environnements de jeux vidéo, avec Google Maps. Concrètement, les utilisateurs peuvent désormais soumettre n'importe quel lieu du monde réel à Genie, qui s'appuie sur les données de Street View pour générer un environnement jouable inspiré de cet endroit. Un quartier de Tokyo, une rue de Lisbonne ou un village alpin peuvent ainsi devenir le décor d'un jeu vidéo en quelques instants. La fonctionnalité est également disponible à l'international, mais Google en réserve l'accès aux abonnés du tier le plus élevé de ses services. Cette capacité représente une rupture potentielle dans la chaîne de création de jeux vidéo, traditionnellement coûteuse et chronophage. Les développeurs indépendants et les studios de petite taille pourraient désormais s'appuyer sur des données géographiques réelles pour construire des univers crédibles sans budget de modélisation 3D. La restriction aux abonnements premium limite toutefois considérablement la démocratisation effective de l'outil, et soulève la question de qui bénéficiera réellement de cette avancée. Genie avait été présenté par Google DeepMind comme un "modèle du monde" capable de générer des environnements interactifs à partir d'une seule image ou d'une description textuelle. Son couplage avec Street View, qui couvre plus de 220 pays et territoires, démultiplie théoriquement son potentiel créatif. En monétisant la fonctionnalité via un abonnement premium, Google teste la viabilité économique de l'IA générative appliquée au secteur du jeu vidéo, tout en positionnant Maps comme une infrastructure créative au-delà de la simple navigation.

UELes développeurs indépendants et studios européens pourraient réduire leurs coûts de modélisation en s'appuyant sur des données géographiques réelles, mais l'accès réservé aux abonnements premium de Google en limite concrètement la portée pour la majorité des acteurs du secteur.

CréationOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic