Aller au contenu principal
CréationLatent Space2h

Pourquoi les agents vidéo sont la prochaine étape, Ethan He, xAI Grok Imagine

Résumé IASource uniqueImpact UE
Source originale ↗·
Pourquoi les agents vidéo sont la prochaine étape, Ethan He, xAI Grok Imagine
▶ Voir sur YouTube

Ethan He, chercheur passé de NVIDIA à xAI, a co-animé un épisode du podcast Latent Space où il développe une thèse radicale sur l'avenir de la génération vidéo : le prochain Sora ne sera pas un meilleur modèle vidéo, mais un agent vidéo. He est l'un des architectes du modèle Cosmos World Model de NVIDIA, avant de rejoindre xAI pour construire Grok Imagine en seulement trois mois avec une petite équipe. Dans cet épisode, il détaille la pile technique complète des systèmes vidéo frontier : VAE (autoencodeurs variationnels), diffusion transformers, alignement audio-vidéo, distillation de modèles pour accélérer l'inférence, et les coûts cachés liés au stockage et au transfert de datasets vidéo massifs.

La thèse centrale d'Ethan He est que l'intelligence des modèles vidéo provient principalement des LLM, et non de l'entraînement sur des données vidéo brutes. Cette distinction change profondément la trajectoire du domaine. Selon lui, la génération vidéo va suivre la même évolution que le code : les modèles de codage sont d'abord devenus très bons en sortie one-shot, puis l'étape décisive a été l'orchestration, la capacité à planifier, éditer, tester et itérer. De la même façon, les agents vidéo capables de planifier une tâche créative, générer des segments, se critiquer eux-mêmes et itérer deviendront le vrai différenciateur, bien davantage que les gains marginaux en réalisme ou en cohérence temporelle. Cette évolution concerne directement les équipes de production créative, les studios et toute l'industrie des médias synthétiques, pour qui la question n'est plus « à quoi ressemble la vidéo générée » mais « combien de tours de boucle le système peut-il exécuter sans intervention humaine ».

Le contexte plus large est celui d'une course où la vitesse d'itération interne prime sur tout. He souligne que les plus grands gains de qualité chez xAI sont venus de la correction de petits bugs dans les pipelines de données et d'entraînement, pas de changements architecturaux majeurs. Il aborde également Flipbook, un projet souvent traité comme une démo anecdotique, mais qu'il considère comme un signal sérieux : avec la baisse continue des coûts d'inférence, une interface utilisateur générée en temps réel à partir de l'intention de l'utilisateur, sans HTML ni CSS traditionnels, devient un horizon crédible. Grok Imagine 0.9 intègre déjà la génération audio-vidéo à grande échelle, un problème qu'il décrit comme plus difficile que l'alignement texte-vidéo. La prochaine étape, Grok Imagine Agent, vise à transformer la génération vidéo en système de bout en bout piloté par des agents, confirmant que la frontière se déplace désormais du modèle vers l'orchestration.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma
1The Verge AI 

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma

Malgré les promesses répétées de certains enthousiastes de l'IA, la production cinématographique et télévisuelle par intelligence artificielle reste largement en deçà des attentes. Les modèles généralistes les plus en vue — Sora d'OpenAI, Veo de Google et Runway — peinent à convaincre les professionnels du secteur : leurs résultats, bien que spectaculaires pour des démonstrations, restent insuffisants pour les exigences réelles d'une production de divertissement. Une nouvelle génération d'entreprises commence toutefois à proposer une approche radicalement différente : des modèles génératifs conçus spécifiquement pour les besoins des créatifs, couvrant l'ensemble du processus de développement, de la conception visuelle au storyboard en passant par la post-production. Ce virage vers des modèles sur mesure répond à deux problèmes fondamentaux de l'IA générique appliquée au cinéma : le manque de contrôle créatif et les risques juridiques liés aux droits d'auteur. En ciblant précisément les usages professionnels, ces nouveaux outils pourraient enfin offrir aux studios et aux réalisateurs indépendants une assistance réelle sans compromettre leur vision artistique ni les exposer à des litiges coûteux. L'industrie du divertissement représente un marché colossal, et la ruée vers les outils IA dédiés s'inscrit dans une compétition plus large entre les géants technologiques et des startups spécialisées pour capter ce segment. Si les modèles généralistes ont ouvert la voie, c'est désormais la spécialisation qui semble promettre les véritables percées commerciales et créatives — un mouvement qui rappelle l'évolution des logiciels professionnels dans les années 2000, où les outils génériques ont cédé la place à des solutions métier verticales.

UELa tendance vers des modèles IA spécialisés pour le cinéma pourrait à terme bénéficier aux studios et cinéastes indépendants français, sans acteur européen directement impliqué à ce stade.

CréationOutil
1 source
Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants
2Le Big Data 

Gemini Omni : l’IA vidéo de Google maîtrise enfin la physique et les personnages constants

Google a présenté Gemini Omni le 19 mai 2026 lors de sa conférence annuelle Google I/O. Ce nouveau modèle d'intelligence artificielle permet de générer et modifier des vidéos à partir de simples instructions écrites en langage naturel. L'utilisateur peut demander un changement d'angle de caméra, ajuster l'éclairage d'une scène ou transformer entièrement un décor sans passer par un logiciel de montage traditionnel. Google décrit Gemini Omni comme un modèle capable de créer « n'importe quoi à partir de n'importe quelle source ». Le déploiement de la version Flash a débuté le jour même de l'annonce, d'abord pour les abonnés Google AI Plus, Pro et Ultra via l'application Gemini et Google Flow. Un accès gratuit dans YouTube Shorts et l'application YouTube Create doit suivre dans la semaine, et une ouverture via API pour les développeurs et entreprises est prévue dans les prochaines semaines. Ce qui distingue Gemini Omni des générateurs vidéo existants, c'est l'accent mis sur la cohérence et le réalisme physique, deux points notoirement difficiles pour les IA actuelles. Le modèle mémorise chaque instruction précédente pour éviter qu'un personnage change de visage entre deux plans ou qu'un décor se transforme de manière incohérente. Google affirme également que le système comprend mieux la physique des objets et les mouvements dans une scène, ce qui devrait produire des vidéos plus proches d'une production audiovisuelle classique que des artefacts expérimentaux. Pour les créateurs de contenu, les équipes marketing et les professionnels de la communication, cela représente un gain de temps considérable : là où il fallait maîtriser plusieurs logiciels, une conversation suffit désormais pour itérer sur une production vidéo. Google s'inscrit dans une course à la génération vidéo par IA qui s'est intensifiée depuis le lancement de Sora par OpenAI fin 2023, suivi de Runway, Kling et d'autres outils spécialisés. En intégrant Gemini Omni directement dans ses plateformes grand public, YouTube en tête, avec ses plus de 2,5 milliards d'utilisateurs actifs, Google parie sur la distribution comme avantage concurrentiel plutôt que sur la seule performance technique. L'intégration dans Google Flow, outil de production assistée par IA lancé plus tôt cette année, suggère une stratégie plus large visant à faire de Gemini le socle créatif de l'ensemble de l'écosystème Google. La prochaine étape sera de voir si les performances en conditions réelles sont à la hauteur des démonstrations, et si l'accès API permettra à des services tiers de construire de nouveaux usages autour du modèle.

UELes développeurs et entreprises européens pourront accéder via API à un générateur vidéo IA intégré nativement à YouTube et Google Flow, avec un déploiement grand public via YouTube Shorts prévu dans la semaine.

💬 La cohérence des personnages d'un plan à l'autre, c'était le talon d'Achille de tous ces outils. Gemini Omni semble avoir sérieusement bossé là-dessus, et si ça tient en conditions réelles, ça débloque des usages pro qui étaient encore impossibles il y a six mois. La vraie arme de Google, c'est pas la technique, c'est YouTube.

CréationActu
1 source
ImageGen est sur la voie de l'AGI
3Latent Space 

ImageGen est sur la voie de l'AGI

GPT-Image-2, le dernier modèle de génération d'images d'OpenAI, s'impose comme l'un des outils les plus polyvalents du moment. Capable de produire des visuels éducatifs, des infographies précises, des illustrations issues de la culture populaire ou des assets graphiques en temps réel pendant qu'un développeur code, il s'intègre désormais directement dans Codex, l'agent de programmation d'OpenAI, comme compétence activable. Cette combinaison GPT-Image-2 plus Codex permet de générer des ressources visuelles de manière itérative au fil du développement, ce qui change concrètement le flux de travail des développeurs. La qualité du modèle en termes de fidélité et de faible taux d'hallucinations est telle que des concurrents comme Claude Design, pourtant présenté il y a peu comme la référence, ne figurent plus dans la conversation. Cette dynamique soulève une question stratégique sérieuse : les modèles de génération d'images sont-ils un luxe pour des laboratoires qui cherchent à atteindre l'intelligence artificielle générale, ou bien une nécessité ? La réponse semble de plus en plus claire : oui, ils sont nécessaires. Parce que le texte, le code et les données structurées ne suffisent plus à démontrer le "G" de "AGI". Une IA vraiment générale doit maîtriser la voix, le visuel, la génération multimodale, y compris les calques transparents. Fermer cette boucle créative, c'est prendre une avance décisive sur tous les concurrents qui se concentrent uniquement sur le code et la productivité d'entreprise. En parallèle, OpenAI a opéré un pivot stratégique majeur en révisant son partenariat exclusif avec Microsoft. Sam Altman a annoncé que si Microsoft reste le cloud partenaire principal, OpenAI peut désormais distribuer ses modèles sur tous les clouds, y compris Google TPU et AWS Bedrock, une confirmation d'Andy Jassy est attendue dans les prochaines semaines. La licence de Microsoft sur la propriété intellectuelle d'OpenAI devient ainsi non exclusive, et la clause AGI de l'accord original serait de facto caduque selon plusieurs observateurs. Sur le plan des benchmarks, GPT-5.5 affiche des résultats contrastés : 67,1 % sur WeirdML sans mode de réflexion, contre 57,4 % pour GPT-5.4, mais toujours en retrait face à Claude Opus 4.7 à 76,4 %. L'Arena LMSYS place le modèle en troisième position en mathématiques et deuxième en recherche, mais neuvième en code. Enfin, GitHub a annoncé la migration de Copilot vers une facturation à l'usage au 1er juin, un signal fort de la monétisation croissante des workflows agentiques, tandis qu'OpenAI a publié en open source Symphony, une couche d'orchestration reliant les gestionnaires de tickets à des agents Codex pour automatiser le cycle complet "issue → PR → revue humaine".

UELa restructuration du partenariat OpenAI-Microsoft vers une licence non exclusive pourrait faciliter l'accès aux modèles OpenAI via des fournisseurs cloud alternatifs utilisés par les entreprises européennes.

CréationActu
1 source
Pourquoi HeyGen est le leader de l’avatar IA ? - avril 2026
4Le Big Data 

Pourquoi HeyGen est le leader de l’avatar IA ? - avril 2026

HeyGen s'est imposé comme le leader incontesté du marché des avatars IA en 2026, devançant l'ensemble de ses concurrents grâce à une combinaison de puissance technique et d'accessibilité. La plateforme propose une bibliothèque d'avatars numériques dotés d'une synchronisation labiale d'une précision rare, capable de reproduire les micro-mouvements musculaires du visage, les clignements d'yeux et les inclinaisons de tête. Sa fonctionnalité phare, les "Instant Avatars", permet à n'importe quel utilisateur de créer son propre double numérique en quelques minutes à partir d'une simple vidéo, sans studio ni équipement professionnel. L'outil de traduction intégré couvre plus de 175 langues avec clonage vocal, préservant le timbre et les émotions de la voix originale. Ces capacités reposent sur des modèles de deep learning entraînés sur des milliers d'heures de vidéo, améliorés en continu à chaque mise à jour. L'impact pour les entreprises est direct et mesurable : la production de contenus vidéo professionnels, autrefois réservée aux équipes disposant de budget caméra, studio et traducteurs, devient accessible à n'importe quelle organisation. Les équipes de formation, de communication interne ou de marketing peuvent générer des vidéos crédibles sans mobiliser de ressources humaines importantes. Le réalisme des avatars évite l'effet artificiel qui brise la confiance du spectateur, ce qui est décisif dans les contextes de formation en entreprise ou de communication institutionnelle. Pour les acteurs internationaux, le clonage vocal multilingue supprime le coût et la complexité de la localisation, permettant une communication globale cohérente à une fraction du budget habituel. C'est ce rapport entre qualité perçue et simplicité d'usage qui explique l'adoption rapide par les professionnels. HeyGen a émergé dans un marché de l'IA générative en pleine explosion, où des dizaines d'outils rivalisent pour capter l'attention des entreprises. Sa stratégie a consisté à ne pas se limiter à la simulation vocale, terrain déjà encombré, mais à pousser le réalisme visuel à un niveau difficile à égaler techniquement. Les concurrents comme Synthesia ou D-ID proposent des fonctionnalités comparables, mais HeyGen a pris de l'avance sur la fluidité des rendus et la vitesse de création d'avatars personnalisés. L'enjeu pour la suite sera de maintenir cette avance face à des acteurs mieux financés et à l'arrivée de modèles open source capables de répliquer certaines de ces capacités. La question de la régulation des deepfakes et de l'authentification des contenus générés par IA représente également un risque structurel pour l'ensemble du secteur, HeyGen inclus.

UEL'AI Act impose des obligations de transparence sur les contenus synthétiques (deepfakes), ce qui pourrait contraindre les utilisateurs européens de HeyGen à marquer explicitement leurs vidéos générées par IA.

CréationOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour