Aller au contenu principal

Dossier Sora — page 2

85 articles · page 2 sur 2

Sora, le générateur vidéo d'OpenAI : lancement, polémiques sur le « slop », fermeture progressive, fin du deal Disney d'un milliard.

Prompt vidéo IA, la méthode simple pour obtenir un rendu pro
51Le Big Data CréationTuto

Prompt vidéo IA, la méthode simple pour obtenir un rendu pro

La maîtrise du prompt vidéo IA s'impose progressivement comme une compétence professionnelle à part entière dans l'écosystème de la création numérique. Les générateurs de vidéo par intelligence artificielle, parmi lesquels Seedance figure parmi les outils mis en avant, transforment des descriptions textuelles en séquences animées, à condition que ces descriptions soient suffisamment précises. Le principe de fonctionnement repose sur une réalité mathématique : les réseaux de neurones traduisent chaque terme du prompt en coordonnées tridimensionnelles, ce qui signifie que le choix des verbes d'action détermine directement la vitesse et le réalisme de l'animation produite. Un sujet principal clairement défini, un environnement décrit avec des éléments tangibles, et des indications d'éclairage précises, lumière dorée, ombres portées douces, heure de la journée, constituent les marqueurs d'une requête bien construite. L'enjeu dépasse le simple confort d'utilisation : un prompt mal formulé pousse le modèle à combler les zones d'imprécision par des éléments générés aléatoirement, ce qui se traduit concrètement par des erreurs d'anatomie, des déformations visuelles et une incohérence globale dans la séquence. À l'inverse, une description rigoureuse réduit drastiquement ces artefacts et permet de stabiliser l'arrière-plan tout au long de l'animation. Pour les créateurs de contenu qui produisent à volume, que ce soit pour les réseaux sociaux, la publicité ou la communication d'entreprise, cette précision technique représente un gain de temps direct et une réduction des itérations coûteuses. La qualité graphique finale dépend moins de la puissance de l'outil que de la qualité de l'instruction qui lui est donnée. Cette évolution s'inscrit dans un contexte de démocratisation rapide de la vidéo générée par IA, où la barrière d'entrée technique s'abaisse mais où l'écart entre un résultat amateur et un résultat professionnel se déplace vers la capacité à formuler des instructions pertinentes. Les grandes plateformes de génération vidéo, Sora d'OpenAI, Runway, Kling, et des acteurs plus récents comme Seedance, se multiplient et se différencient essentiellement par leurs capacités de traitement sémantique. Dans ce marché en consolidation, la compétence de rédaction de prompts tend à devenir un métier à part entière, parfois désigné sous le terme de "prompt engineering" dans les équipes créatives. La prochaine étape pour l'industrie sera probablement d'intégrer des assistants de rédaction de prompts directement dans les interfaces, réduisant encore davantage la courbe d'apprentissage pour les non-initiés.

1 source
Pourquoi les agents vidéo sont la prochaine étape, Ethan He, xAI Grok Imagine
52Latent Space 

Pourquoi les agents vidéo sont la prochaine étape, Ethan He, xAI Grok Imagine

Ethan He, chercheur passé de NVIDIA à xAI, a co-animé un épisode du podcast Latent Space où il développe une thèse radicale sur l'avenir de la génération vidéo : le prochain Sora ne sera pas un meilleur modèle vidéo, mais un agent vidéo. He est l'un des architectes du modèle Cosmos World Model de NVIDIA, avant de rejoindre xAI pour construire Grok Imagine en seulement trois mois avec une petite équipe. Dans cet épisode, il détaille la pile technique complète des systèmes vidéo frontier : VAE (autoencodeurs variationnels), diffusion transformers, alignement audio-vidéo, distillation de modèles pour accélérer l'inférence, et les coûts cachés liés au stockage et au transfert de datasets vidéo massifs. La thèse centrale d'Ethan He est que l'intelligence des modèles vidéo provient principalement des LLM, et non de l'entraînement sur des données vidéo brutes. Cette distinction change profondément la trajectoire du domaine. Selon lui, la génération vidéo va suivre la même évolution que le code : les modèles de codage sont d'abord devenus très bons en sortie one-shot, puis l'étape décisive a été l'orchestration, la capacité à planifier, éditer, tester et itérer. De la même façon, les agents vidéo capables de planifier une tâche créative, générer des segments, se critiquer eux-mêmes et itérer deviendront le vrai différenciateur, bien davantage que les gains marginaux en réalisme ou en cohérence temporelle. Cette évolution concerne directement les équipes de production créative, les studios et toute l'industrie des médias synthétiques, pour qui la question n'est plus « à quoi ressemble la vidéo générée » mais « combien de tours de boucle le système peut-il exécuter sans intervention humaine ». Le contexte plus large est celui d'une course où la vitesse d'itération interne prime sur tout. He souligne que les plus grands gains de qualité chez xAI sont venus de la correction de petits bugs dans les pipelines de données et d'entraînement, pas de changements architecturaux majeurs. Il aborde également Flipbook, un projet souvent traité comme une démo anecdotique, mais qu'il considère comme un signal sérieux : avec la baisse continue des coûts d'inférence, une interface utilisateur générée en temps réel à partir de l'intention de l'utilisateur, sans HTML ni CSS traditionnels, devient un horizon crédible. Grok Imagine 0.9 intègre déjà la génération audio-vidéo à grande échelle, un problème qu'il décrit comme plus difficile que l'alignement texte-vidéo. La prochaine étape, Grok Imagine Agent, vise à transformer la génération vidéo en système de bout en bout piloté par des agents, confirmant que la frontière se déplace désormais du modèle vers l'orchestration.

CréationOpinion
1 source
Edimakor avis 2026 : test complet de l’éditeur vidéo IA
53Le Big Data 

Edimakor avis 2026 : test complet de l’éditeur vidéo IA

Edimakor, le logiciel de montage vidéo développé par HitPaw, s'impose en 2026 comme l'un des outils de création de contenu les plus complets du marché. Disponible sur Windows, Mac et en version web, il centralise dans une seule interface une dizaine de fonctionnalités basées sur l'IA : génération vidéo par texte ou image, avatars parlants avec synchronisation labiale, clonage de voix dans plus de 35 langues, génération de musique libre de droits dans plus de 50 styles, sous-titres automatiques traduits en 130 langues, et montage vidéo classique. La version gratuite propose déjà plus de 50 voix de synthèse vocale, tandis que les fonctions avancées sont réservées aux abonnements payants. Ce positionnement tout-en-un change la donne pour les créateurs de contenu indépendants, les équipes marketing et les petites structures qui n'ont pas les moyens de multiplier les abonnements à des outils spécialisés. Là où il fallait jongler entre un outil de sous-titrage, un générateur d'images, un logiciel de montage et une solution de traduction, Edimakor propose un flux de travail unifié. La fonctionnalité d'avatar IA avec lip sync ouvre notamment des cas d'usage concrets pour le service client automatisé, la formation en ligne ou la production de contenus localisés sans recourir à des comédiens ou des studios. Pour les créateurs ciblant TikTok, YouTube ou Instagram, les templates intégrés et la gestion native des formats réduisent le temps de production de manière significative. HitPaw, l'éditeur derrière Edimakor, n'est pas un acteur inconnu : la société est spécialisée depuis plusieurs années dans les outils de retouche et de traitement multimédia grand public. Edimakor s'inscrit dans une tendance lourde de 2025-2026 : la consolidation des outils IA créatifs en suites intégrées, face à des concurrents comme CapCut, Runway ou Adobe Firefly. La course se joue désormais sur la qualité des modèles sous-jacents, génération vidéo, fidélité du clonage vocal, précision du lip sync, et sur l'accessibilité tarifaire. Edimakor parie sur le segment des créateurs débutants à intermédiaires, en misant sur une interface accessible et des fonctions impressionnantes à démontrer rapidement. La vraie question pour la suite sera de savoir si les résultats tiennent la comparaison avec des outils dédiés plus puissants, notamment sur la génération vidéo, segment où Runway et Sora restent les références techniques.

CréationOutil
1 source
Google corrige plusieurs bugs dans les limites d'utilisation de Gemini qui épuisaient les quotas trop rapidement
54The Decoder 

Google corrige plusieurs bugs dans les limites d'utilisation de Gemini qui épuisaient les quotas trop rapidement

Google a détecté et corrigé plusieurs bugs dans le système de quotas de son application Gemini, qui provoquaient une consommation anormalement rapide des limites d'utilisation. Le dysfonctionnement le plus grave permettait à seulement une ou deux vidéos générées via la fonctionnalité Omni d'épuiser la totalité du quota mensuel d'un abonné. Depuis le déploiement du correctif, les membres du plan Ultra bénéficient d'un nombre de générations vidéo doublé. Par ailleurs, les requêtes ayant échoué ne sont désormais plus déduites du quota, une pratique qui pénalisait injustement les utilisateurs en cas d'erreur technique. Ces corrections représentent un gain concret pour les abonnés Gemini Ultra, dont l'abonnement premium était de fait sous-utilisé à cause de bugs invisibles. Facturer des générations ratées ou laisser quelques vidéos saturer le quota d'un mois entier sape la confiance dans les offres payantes. Le doublement du quota vidéo améliore directement la valeur perçue du plan Ultra, dans un contexte de concurrence intense entre plateformes d'IA générative, où la fiabilité des engagements commerciaux pèse autant que les capacités techniques. Ces bugs surviennent alors que Google cherche à imposer Gemini face à des concurrents comme OpenAI, dont l'outil de génération vidéo Sora monte en puissance. La gestion des quotas est un point sensible pour les utilisateurs payants, qui attendent une transparence totale sur leur consommation. Google a annoncé vouloir renforcer cette transparence pour d'autres types d'usage, ce qui laisse entendre que d'autres incohérences dans le système de quotas pourraient encore être identifiées et corrigées prochainement.

UELes abonnés européens du plan Gemini Ultra bénéficient des mêmes corrections de quota et du doublement des générations vidéo, sans impact réglementaire spécifique à la France ou l'UE.

OutilsActu
1 source
X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel
55Pandaily 

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

La startup chinoise X-Square Robot, connue pour sa série GreatWall de modèles de fondation robotiques, publie WALL-WM, présenté comme le premier world model à prédiction par événements sémantiques pour la robotique incarnée. Le papier associé, "WALL-WM: Carving World Action Modeling at the Event Joints", décrit une architecture en trois couches : une couche d'entrée d'instructions d'événements, une couche de prédiction centrale utilisant l'optimiseur Muon distribué (DMuon) pour une meilleure stabilité de convergence, et une stratégie de packing multi-événements réduisant les pertes de calcul lors de l'entraînement. Sur les benchmarks de génération vidéo incarnée, WALL-WM surpasse Wan2.1-14B et Open-Sora 2.0 sur qualité de mouvement, cohérence sémantique et plausibilité physique. Sur le benchmark Core15 L1, il dépasse Pi0.5 de Physical Intelligence et DreamZero sur les tâches de base, raisonnement, manipulation dextre et généralisation sous instruction abstraite. L'intérêt technique réside dans un changement de paradigme pour les modèles d'action. Les architectures VLA dominantes prédisent des chunks d'actions à intervalles fixes, où sera la main du robot dans 0.1, 0.2, 0.3 secondes, ce qui force le modèle à mémoriser des déplacements millimétriques par frame plutôt qu'à comprendre l'objectif sémantique ("saisir la tasse"). Cette fragilité structurelle signifie qu'un changement d'objet ou de surface suffit à faire échouer le modèle. WALL-WM prédit directement l'état cible, c'est-à-dire le moment de la saisie, puis génère synchroniquement la séquence d'actions pour y parvenir. Le papier identifie par ailleurs un problème architectural fondamental : texte, vision et action opèrent sur des géométries de manifold distinctes, et leur projection directe dans un espace latent partagé dégrade les représentations préentraînées, un défaut que l'architecture cherche à corriger via ses trois couches spécialisées. X-Square Robot s'inscrit dans la course des laboratoires chinois aux fondations VLA et world models, aux côtés d'Unitree, Fourier Intelligence et Agibot. Les benchmarks publiés visent directement Physical Intelligence (Pi0.5) et ses homologues américains comme Figure AI. Il faut toutefois souligner que WALL-WM reste, à ce stade, une publication de recherche sans déploiement commercial ni pilote industriel annoncé. Les performances sur benchmark L1 ne préjugent pas des résultats en conditions réelles, où l'éclairage variable, la déformation des objets et les perturbations de contact constituent le vrai test de la généralisation sim-to-real. Aucune timeline de productisation n'est mentionnée dans l'annonce.

RobotiqueOpinion
1 source
Seedance 2.0 : Comment créer des vidéos TikTok avec l’IA ?
56Le Big Data 

Seedance 2.0 : Comment créer des vidéos TikTok avec l’IA ?

Seedance 2.0, la nouvelle version du générateur vidéo IA développé par ByteDance, s'est imposée comme un outil de référence pour la création de contenu vertical destiné à TikTok. La mise à jour introduit deux avancées majeures : un moteur de mouvement de caméra piloté par prompt textuel, et un système de cohérence de personnage capable de mémoriser les traits faciaux, vêtements et détails graphiques d'un sujet d'une scène à l'autre. Concrètement, le créateur intègre des commandes comme « Zoom », « Pan » ou « Tilt » directement dans sa description textuelle, et le modèle génère automatiquement des séquences animées au format 9:16, sans studio ni équipe de production. Une image de référence ou un identifiant suffit pour que le système reproduise un personnage avec une précision quasi identique sur plusieurs épisodes. Ces fonctionnalités répondent à deux problèmes chroniques des créateurs de contenu sur TikTok : la qualité visuelle insuffisante des outils accessibles au grand public, et l'incohérence visuelle qui brise la narration dans les formats sériels. Jusqu'ici, maintenir l'apparence d'un personnage entre plusieurs séquences générées par IA nécessitait un travail manuel fastidieux ou des compétences techniques avancées. Seedance 2.0 automatise ce processus, ce qui ouvre la création de storytelling long terme à des créateurs solo, sans budget de production. Pour les marques et les créateurs qui construisent une identité visuelle sur la plateforme, l'outil permet de standardiser un univers graphique cohérent à grande échelle, un avantage compétitif direct dans un environnement où l'attention se gagne en moins d'une seconde. Seedance s'inscrit dans une course effrénée entre les grandes plateformes et startups à proposer des générateurs vidéo IA crédibles : Sora d'OpenAI, Veo de Google, Kling, Runway ou encore Pika Labs occupent le même terrain. ByteDance, maison mère de TikTok, dispose d'un avantage structurel évident : sa connaissance intime des formats qui performent sur sa propre plateforme et l'accès à des données d'entraînement massives issues des millions de vidéos publiées chaque jour. La version 2.0 marque une montée en gamme délibérée vers les créateurs professionnels et semi-professionnels, avec un positionnement qui cherche à dépasser le statut d'outil expérimental pour devenir un composant réel du workflow de production. La question qui reste ouverte est celle des droits : à mesure que ces outils génèrent des personnages de plus en plus réalistes et persistants, les enjeux juridiques autour de la ressemblance, du consentement et de la propriété des identités numériques vont inévitablement s'intensifier.

UELes enjeux de consentement et de droits sur les personnages générés de manière persistante entrent directement en résonance avec l'AI Act européen et le RGPD sur le traitement des données biométriques.

CréationOutil
1 source
Kuaishou envisage de scinder sa filiale Kling AI à une valorisation de 20 milliards de dollars
57The Information AI 

Kuaishou envisage de scinder sa filiale Kling AI à une valorisation de 20 milliards de dollars

Kuaishou Technology, le géant chinois des réseaux sociaux, prépare la scission de sa division d'IA vidéo Kling en vue d'une introduction en bourse prévue pour l'année prochaine. Selon deux sources proches du dossier, l'entreprise a déjà engagé des discussions avec des investisseurs potentiels pour un tour de financement pré-IPO qui valoriserait Kling à 20 milliards de dollars. Kling développe des modèles de génération vidéo par intelligence artificielle qui se positionnent directement face aux solutions de ByteDance, Google et Alibaba. Cette opération illustre la volonté de Kuaishou de monétiser séparément ses actifs d'IA, dans un contexte où les investisseurs internationaux affichent un appétit marqué pour les entreprises du secteur. En isolant Kling dans une entité indépendante, Kuaishou cherche à lui attribuer une valorisation autonome, distincte de celle du groupe parent, et à attirer des capitaux dédiés à la course mondiale aux outils de création vidéo générative. Kling s'est imposé ces derniers mois comme l'un des acteurs les plus sérieux dans la génération vidéo par IA, un segment en pleine explosion depuis le lancement de Sora par OpenAI début 2024. La compétition est intense : ByteDance, Alibaba, Google et de nombreuses startups occidentales comme Runway ou Pika investissent massivement dans ces technologies. Une IPO réussie de Kling pourrait faire de cette division un acteur coté majeur dans la course à l'IA générative, et renforcer l'ambition de Kuaishou à l'international.

BusinessActu
1 source
STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants
58Apple Machine Learning 

STARFlow-V : modélisation vidéo générative de bout en bout par flux normalisants

Des chercheurs ont présenté STARFlow-V, un nouveau modèle génératif de vidéo fondé sur les flux normalisants (normalizing flows), une approche distincte des architectures à diffusion qui dominent aujourd'hui le secteur. Le système se distingue par trois propriétés clés : un apprentissage bout-en-bout, une prédiction causale robuste et une estimation native de la vraisemblance, autant de caractéristiques difficiles à obtenir avec les pipelines de diffusion actuels. Le modèle cible la génération vidéo, un domaine où la complexité spatiotemporelle et le coût computationnel sont nettement supérieurs à ceux de la génération d'images. L'enjeu est significatif pour l'industrie : les flux normalisants permettent un calcul exact de la vraisemblance, ce qui ouvre la voie à une meilleure évaluation des modèles, à un contrôle plus précis de la génération et potentiellement à une inférence plus efficace. La prédiction causale garantit que chaque image générée dépend uniquement des frames précédentes, renforçant la cohérence temporelle des vidéos produites. Ces propriétés intéressent aussi bien les chercheurs en apprentissage automatique que les équipes produit travaillant sur des applications temps réel ou interactives. Les flux normalisants avaient largement cédé la place aux modèles de diffusion et aux GAN au cours des dernières années, mais des progrès récents sur la génération d'images ont relancé l'intérêt pour cette famille de modèles. Des systèmes comme Sora (OpenAI), Gen-3 (Runway) ou Wan (Alibaba) reposent tous sur la diffusion, et STARFlow-V représente une tentative sérieuse de démontrer qu'une alternative existe. Si les résultats se confirment à grande échelle, ce travail pourrait diversifier les paradigmes architecturaux dans un domaine jusqu'ici peu contesté.

RecherchePaper
1 source
Seedance 2.0 : Le guide complet de la création vidéo multimodale
59Le Big Data 

Seedance 2.0 : Le guide complet de la création vidéo multimodale

Seedance 2.0 s'impose comme l'un des moteurs de génération vidéo par intelligence artificielle les plus avancés du moment, ciblant aussi bien les monteurs professionnels que les créateurs amateurs. Cette nouvelle version repose sur une architecture de Diffusion Transformers (DiT) enrichie de milliards de paramètres, ce qui permet au modèle de comprendre l'espace, les volumes et le comportement de la lumière sur les matières. La résolution monte jusqu'au 4K grâce à un upscaling intelligent, tandis que la cohérence temporelle entre les plans, longtemps talon d'Achille des générateurs vidéo IA, atteint un niveau de stabilité inédit. Les textures complexes comme le grain de peau ou les reflets sur l'eau sont rendues avec un réalisme qui rend l'intégration dans des productions professionnelles crédible sans retouche supplémentaire. L'impact concret pour les créateurs tient surtout aux nouvelles fonctions de contrôle introduites avec cette version. Le Motion Brush permet de tracer à la main la trajectoire exacte d'un élément dans le cadre, donnant au réalisateur une maîtrise que les outils précédents refusaient. L'édition par zone autorise la retouche d'un détail isolé, changer la couleur d'un vêtement ou ajouter un accessoire, sans reconstruire l'intégralité du clip. Le contrôle de la profondeur de champ ouvre la porte aux flous artistiques directement dans la phase de génération. Ces fonctions réduisent drastiquement les allers-retours entre la génération et la post-production, ce qui change le rapport au temps dans les workflows créatifs. Seedance 2.0 arrive dans un marché de la vidéo générative qui se densifie rapidement, avec des acteurs comme Sora d'OpenAI, Runway ou Kling déjà bien installés. L'enjeu pour chaque plateforme est de se différencier non plus seulement sur la qualité brute du rendu, mais sur le degré de contrôle offert au créateur, ce que cette version tente d'incarner avec ses outils de précision. La montée en puissance des architectures DiT, déjà adoptées dans la génération d'images fixes, s'étend désormais à la vidéo avec des résultats qui tendent à confirmer leur supériorité sur les approches plus anciennes. La suite dépendra de la capacité de l'outil à tenir ses promesses sur des projets longs et complexes, et de l'ouverture éventuelle de son accès à une communauté plus large de développeurs et studios indépendants.

CréationOpinion
1 source
Modèles du monde
60MIT Technology Review 

Modèles du monde

Les systèmes d'intelligence artificielle maîtrisent aujourd'hui le monde numérique avec une aisance impressionnante, mais le monde physique reste un défi d'une tout autre nature. Pour franchir ce cap, de nombreux chercheurs misent sur une approche appelée "modèle du monde", une représentation interne que l'IA se construit de son environnement pour anticiper les conséquences de ses actions. Google DeepMind et World Labs, la startup fondée par Fei-Fei Li, professeure à Stanford, travaillent activement sur ces systèmes. Yann LeCun, jusqu'ici figure centrale de Meta, a quant à lui quitté l'entreprise pour fonder une startup entièrement dédiée à cette approche. OpenAI a également redirigé des ressources issues de la fermeture de son application vidéo Sora vers ce qu'elle appelle la "recherche en simulation du monde à long terme". L'enjeu est de taille : les grands modèles de langage actuels présentent des lacunes profondes dès qu'il s'agit de raisonner sur le monde réel. Une étude révélatrice a montré que des modèles entraînés sur des millions de trajets de taxis new-yorkais peuvent donner des itinéraires corrects dans Manhattan, mais échouent complètement dès qu'on leur impose un détour. Ce type de fragilité est fondamentalement incompatible avec des applications robotiques, où l'imprévu est la règle. Un vrai modèle du monde permettrait à un agent IA de se représenter son environnement avec suffisamment de fidélité pour prédire ce qui se passe si on pousse une tasse du bord d'une table, ou si on change de route en cours de chemin, exactement comme le fait le cerveau humain. Les applications concrètes émergent progressivement. Niantic, le studio derrière Pokémon Go, exploite les milliards d'images collectées par les joueurs du jeu pour construire les premières briques d'un modèle du monde destiné à guider des robots de livraison. Google DeepMind et World Labs concentrent actuellement leurs efforts sur la génération d'environnements virtuels 3D interactifs à partir de textes, d'images et de vidéos, des outils utiles pour la conception de jeux vidéo ou d'expériences en réalité virtuelle, mais encore limités dans leur portée. Les véritables percées viendront probablement de l'intégration de ces systèmes dans des agents autonomes capables de modéliser leur environnement, d'anticiper les effets de leurs actions et de décider en conséquence. Li et LeCun voient dans cette direction la clé pour des robots capables d'explorer les grands fonds marins ou d'assister le personnel soignant, un horizon encore lointain, mais qui mobilise désormais les acteurs les plus influents du secteur.

RecherchePaper
1 source
61Ben's Bites 

Claude, mon designer attitré

Anthropic a lancé Claude Opus 4.7 ce week-end, accompagné d'une série de mises à jour significatives pour son écosystème. Le nouveau modèle améliore notablement les capacités de vision, c'est-à-dire l'interprétation d'images, et introduit un niveau de raisonnement inédit baptisé « xhigh », qui s'insère entre les niveaux « high » et « max » déjà existants. Simultanément, Claude hérite d'un onglet Design, une interface de type canvas avec chat latéral permettant de générer des wireframes ou des prototypes haute fidélité à partir d'un formulaire de 5 à 10 questions. Le flux image vers prototype se révèle particulièrement efficace, bien que les générations restent limitées à 2 ou 3 sessions hebdomadaires sur l'abonnement à 20 dollars pendant cette phase de prévisualisation. Du côté de l'agent de code Codex, trois nouveautés ont été déployées : la fonctionnalité Computer Use, qui permet à l'agent d'utiliser des applications macOS en arrière-plan sans bloquer l'ordinateur de l'utilisateur ; Chronicle, un mécanisme opt-in qui exploite le contexte d'écran récent pour construire des souvenirs ; et un ensemble de plugins, dont la génération d'images. Par ailleurs, la startup Factory AI, qui développe l'agent de code Droid, a bouclé une levée de fonds de 150 millions de dollars, portant sa valorisation à 1,5 milliard de dollars. Ces annonces illustrent la course effrénée des acteurs de l'IA à transformer leurs modèles en plateformes complètes. L'onglet Design de Claude, en particulier, s'attaque directement au marché du prototypage rapide jusqu'ici dominé par des outils comme Figma, en proposant une boucle de création entièrement guidée par le langage naturel. La fonctionnalité Computer Use de Codex, elle, cherche à dépasser les démos laborieuses de contrôle d'interface pour offrir une automatisation fluide en tâche de fond, ce qui représente un saut qualitatif si les performances tiennent à l'usage réel. La valorisation de Factory AI à 1,5 milliard confirme l'appétit des investisseurs pour les agents de développement logiciel autonomes. Dans ce contexte d'accélération, OpenAI a connu une semaine difficile sur le plan humain : trois cadres de premier plan ont quitté l'entreprise, à savoir Kevin Weil, ancien directeur produit devenu responsable d'OpenAI for Science, Bill Peebles, co-créateur du générateur vidéo Sora, et Srinivas Narayanan, directeur technique des applications B2B. Ces départs simultanés alimentent les questions sur la cohésion interne d'OpenAI à un moment charnière. Vercel a également annoncé avoir subi une intrusion via le compte d'un employé compromis sur un autre produit IA tiers, soulignant les risques croissants liés à la prolifération des outils connectés. Enfin, la critique adressée à Claude Cowork, l'espace de travail collaboratif d'Anthropic, rappelle une tension persistante : les capacités avancées restent inaccessibles aux utilisateurs non initiés, risquant de nourrir la désillusion envers l'IA pour les prochains mois.

UELes utilisateurs et designers européens peuvent accéder aux nouvelles fonctionnalités de prototypage de Claude via l'abonnement standard à 20 dollars, bien que les générations restent limitées en phase de prévisualisation.

OutilsOutil
1 source
HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba
62Le Big Data 

HappyHorse : l’IA vidéo qui domine les réseaux sociaux appartient en fait à Alibaba

Le vendredi 10 avril 2026, Alibaba a officiellement revendiqué la paternité de HappyHorse-1.0, le modèle d'intelligence artificielle génératrice de vidéos qui avait envahi les réseaux sociaux et les plateformes de benchmark en l'espace de quelques jours. L'annonce est tombée via un post sur X signé par l'équipe du projet, confirmant que le modèle est développé au sein de l'unité ATH AI Innovation Unit, rattachée au géant chinois du e-commerce. Apparu début avril sans affiliation déclarée, HappyHorse-1.0 avait immédiatement pris la première place du classement text-to-video d'Artificial Analysis, devançant des modèles soutenus par des acteurs majeurs de l'industrie. Ses capacités couvrent aussi bien la génération vidéo à partir de texte que la création d'images animées, deux segments très convoités du marché. Le modèle se trouve encore en phase de test bêta, mais un accès via API est annoncé prochainement pour les développeurs. La révélation a eu un effet immédiat sur les marchés : l'action Alibaba a clôturé en hausse de 2,12 % à Hong Kong le jour de l'annonce, après avoir déjà bondi de plus de 6 % deux jours plus tôt, quand les premières spéculations sur l'origine du modèle avaient circulé. Cette réaction boursière illustre l'importance stratégique que les investisseurs accordent désormais aux capacités IA des grandes entreprises technologiques chinoises. Pour Alibaba, HappyHorse représente une validation publique et quantifiable de la stratégie portée par Eddie Wu, le dirigeant qui a fait de l'intelligence artificielle la priorité absolue du groupe depuis son arrivée à la tête de l'entreprise. Un succès technique aussi visible, obtenu en quelques jours sur des benchmarks internationaux, constitue un signal fort envoyé à la fois aux concurrents américains et aux investisseurs mondiaux. Ce lancement intervient dans un moment de turbulences pour le secteur de la vidéo IA. OpenAI a récemment réduit la place de Sora dans sa stratégie globale, préférant concentrer ses ressources sur d'autres usages. ByteDance, de son côté, fait face à des controverses autour de ses outils vidéo expérimentaux, notamment sur des questions de droits d'auteur. Dans ce contexte, Alibaba choisit de s'imposer avec un modèle performant, lancé de façon discrète puis révélé au bon moment, une mécanique de communication qui rappelle les stratégies adoptées par DeepSeek lors de la publication de ses modèles. Le fait qu'un acteur chinois prenne la tête des classements mondiaux sur un segment aussi compétitif que la génération vidéo soulève des questions sur l'équilibre des forces dans la course à l'IA générative, et annonce probablement une intensification de la rivalité technologique entre Pékin et la Silicon Valley.

CréationOpinion
1 source
Départs, réorganisation, portrait de Sam Altman, entrée en bourse : ça patine chez OpenAI
63Next INpact 

Départs, réorganisation, portrait de Sam Altman, entrée en bourse : ça patine chez OpenAI

OpenAI traverse une période de turbulences organisationnelles majeures. Fidji Simo, directrice générale des applications et numéro deux de l'entreprise, a annoncé fin mars un congé maladie forcé en raison du syndrome de tachycardie orthostatique posturale, diagnostiqué en 2019. Embauchée en mai 2025, l'ancienne PDG d'Instacart et ex-vice-présidente de Facebook avait en moins d'un an profondément recentré la stratégie d'OpenAI vers la génération de code et les services aux entreprises, au détriment de projets comme Sora ou le "mode adulte" de ChatGPT. Son départ temporaire entraîne une redistribution immédiate des responsabilités : le président Greg Brockman reprend sous sa direction le projet de "superapp" qui devait fusionner ChatGPT, Codex et le navigateur Atlas, tandis que Brad Lightcap, directeur des opérations, hérite des "projets spéciaux". Dans la foulée, Kate Rouch, directrice marketing depuis dix-huit mois, a également annoncé son retrait temporaire pour soigner un cancer. Ces départs simultanés tombent à un moment particulièrement délicat pour OpenAI, qui vient de boucler un tour de table colossal de 122 milliards de dollars et envisage une introduction en bourse à Wall Street en 2026. Selon The Information, des frictions existent entre la directrice financière Sarah Friar et Sam Altman sur le calendrier de l'IPO. Friar s'inquiète des procédures encore incomplètes, des risques liés aux engagements massifs en infrastructures serveurs, et d'une croissance des revenus qui tournerait en deçà des attentes. La marge brute 2025 aurait elle aussi déçu les investisseurs, rongée par des achats en urgence de capacités de calcul pour absorber une demande explosive. Détail révélateur de la complexité interne : Friar ne relevait pas de Sam Altman, comme le veut l'usage, mais directement de Fidji Simo, dont elle se retrouve désormais sans hiérarchie directe. Ce remue-ménage intervient dans un contexte où la gouvernance d'OpenAI est scrutée de près, en interne comme à l'extérieur. Un long portrait de Sam Altman publié ce week-end par The New Yorker, s'appuyant sur des témoignages et mémos internes, décrit un dirigeant habile et obsédé par la victoire, mais dont le style de management suscite des tensions répétées au sommet de l'organisation. OpenAI a connu en deux ans plusieurs crises de gouvernance majeures, dont le licenciement puis la réintégration d'Altman en novembre 2023. L'entreprise doit désormais prouver aux marchés et à ses investisseurs, dont SoftBank, Amazon et NVIDIA, qu'elle est capable de stabiliser son organisation avant de franchir le pas d'une cotation publique. La question n'est plus seulement technologique : c'est la maturité institutionnelle d'OpenAI qui est en jeu.

BusinessOpinion
1 source
Google Vids monte en puissance : les modèles IA les plus récents pour créer une vidéo en un clic
64Siècle Digital 

Google Vids monte en puissance : les modèles IA les plus récents pour créer une vidéo en un clic

Google a annoncé une mise à jour majeure de Google Vids, son outil de création vidéo intégré à Google Workspace, en déployant ses modèles d'intelligence artificielle les plus récents. La plateforme intègre désormais Veo 3.1, capable de générer des clips vidéo en 720p à partir d'une simple description textuelle. L'outil propose également la composition musicale automatique, la personnalisation d'avatars animés, la capture d'écran intégrée et une création de bout en bout à partir d'une idée initiale. Pour les entreprises et les équipes qui produisent du contenu régulièrement, cette mise à jour réduit considérablement le temps et les compétences techniques nécessaires à la production vidéo. Là où il fallait auparavant un outil de montage, des assets sonores et un opérateur formé, Google Vids promet de compresser ce workflow en quelques clics. La cible est clairement professionnelle : présentations internes, formations, communications corporate, ou contenus marketing légers, sans passer par une agence ou un logiciel spécialisé. Google positionne Vids comme le pendant vidéo de Google Slides dans l'écosystème Workspace, capitalisant sur sa base d'utilisateurs enterprise déjà captive. La montée en puissance de Veo, son modèle vidéo génératif, s'inscrit dans une compétition directe avec Sora d'OpenAI et Runway. En intégrant ces capacités directement dans Workspace plutôt qu'en produit autonome, Google mise sur l'effet d'adoption naturelle, là où ses concurrents doivent convaincre les utilisateurs de changer d'outil. La question reste de savoir si la qualité des rendus sera suffisante pour des usages professionnels exigeants.

UEGoogle Workspace étant massivement déployé dans les entreprises françaises et européennes, cette mise à jour impacte directement les équipes qui produisent du contenu vidéo dans cet écosystème.

OutilsOutil
1 source
Les créateurs de contenu sommés de prouver qu'ils n'ont pas utilisé l'IA
65The Verge AI 

Les créateurs de contenu sommés de prouver qu'ils n'ont pas utilisé l'IA

Face à la montée en puissance des outils de génération d'images et de texte, une tendance inquiétante émerge dans les communautés créatives en ligne : les humains sont désormais soupçonnés de produire du contenu artificiel, même lorsqu'il s'agit de leur propre travail. Des plateformes comme Instagram, X ou DeviantArt peinent à détecter et étiqueter de manière fiable le contenu généré par IA, laissant illustrateurs, photographes et écrivains se défendre seuls face aux accusations de tromperie. Cette situation crée une asymétrie profondément injuste. Les créateurs humains subissent une présomption de culpabilité tandis que les systèmes d'IA — Midjourney, DALL-E, Sora ou autres — ne sont soumis à aucune obligation d'identification cohérente de leurs productions. Pour les artistes et journalistes qui tirent leurs revenus de leur travail original, cette confusion érode la confiance du public et dévalue leur création. L'absence d'étiquetage fiable profite avant tout aux plateformes et aux entreprises d'IA, au détriment des producteurs de contenu humain. Une solution radicale commence à s'imposer dans le débat : instaurer un label universel pour le contenu humain, comparable au logo Fair Trade ou au label bio, qui permettrait aux créateurs de certifier l'origine de leur travail. Cette idée, portée notamment par des chroniqueurs de The Verge, renverse la logique habituelle — plutôt que de traquer l'IA, on authentifie l'humain. Des initiatives comme C2PA (Coalition for Content Provenance and Authenticity), soutenue par Adobe, Microsoft et d'autres, explorent déjà des standards techniques de provenance, mais leur adoption reste fragmentée et volontaire.

UELes créateurs indépendants européens — illustrateurs, photographes, journalistes — subissent la même présomption de culpabilité sans cadre contraignant ; l'AI Act pourrait servir de levier pour imposer un étiquetage obligatoire des contenus IA à l'échelle de l'UE.

SociétéOpinion
1 source
« L’humanité va se scinder en deux » : interview choc et confessions explosives d’OpenAI
66Le Big Data 

« L’humanité va se scinder en deux » : interview choc et confessions explosives d’OpenAI

Sam Altman a accordé une interview rare et sans filtre à la journaliste Laurie Segall pour son podcast "Mostly Human", dans laquelle le PDG d'OpenAI a tenu des propos d'une franchise inhabituelle sur l'avenir de l'intelligence artificielle et les choix stratégiques qui façonnent son entreprise. Au coeur de ces révélations : l'abandon de Sora, le générateur de vidéos ultra-réalistes d'OpenAI, présenté comme une décision "très difficile" prise à la dernière minute alors qu'un partenariat d'un milliard de dollars avec Disney était déjà engagé. Altman a personnellement appelé Josh D'Amaro, dirigeant chez Disney, pour annuler l'accord. Parallèlement, son directeur des opérations Brad Lightcap a révélé que GPT-5.4, âgé de quelques jours à peine, affichait déjà un rythme de revenus d'un milliard de dollars annualisé, traitant cinq billions de tokens par jour, avec des cycles de développement qui s'accélèrent à une vitesse stupéfiante. L'abandon de Sora répond à deux logiques qui se renforcent mutuellement. La première est éthique : Altman craignait de concevoir des mécanismes de récompense générant une dépendance incontrôlable chez les utilisateurs, au moment même où la justice américaine condamnait Meta et Google à payer des centaines de millions de dollars pour avoir délibérément rendu des adolescents accros à leurs plateformes, dont une amende record de 375 millions de dollars pour Meta. La seconde est purement technique : maintenir Sora en vie aurait vampirisé les ressources de calcul nécessaires au développement de la prochaine génération d'IA. Dans une industrie où la puissance computationnelle est la ressource la plus rare et la plus stratégique, chaque serveur compte, et le sacrifice d'un produit à succès au profit de la recherche fondamentale traduit une vision de long terme assumée. Ces aveux s'inscrivent dans un contexte de pression intense sur les grandes plateformes technologiques. Les procès intentés contre Meta et Google à Los Angeles et au Nouveau-Mexique marquent un tournant dans la responsabilisation juridique des géants du numérique, comparés désormais à l'industrie du tabac pour leurs pratiques addictives. OpenAI, en pleine transformation de statut à but non lucratif vers une structure commerciale valorisée à plusieurs centaines de milliards de dollars, navigue entre ambition démiurgique et nécessité de se démarquer éthiquement de ses concurrents. Les déclarations d'Altman sur la "scission de l'humanité" et la fin du salariat de masse, aussi provocatrices soient-elles, signalent une entreprise qui ne cherche plus à minimiser l'ampleur de ce qu'elle construit, mais à en assumer pleinement la portée historique.

UELes déclarations d'Altman sur la fin du salariat de masse et la 'scission de l'humanité' alimentent directement le débat européen sur l'AI Act et les garde-fous sociaux à imposer aux systèmes d'IA générale.

SociétéOpinion
1 source
Test de Kling AI : le nouveau géant de la vidéo réaliste par intelligence artificielle - avril 2026
67Le Big Data 

Test de Kling AI : le nouveau géant de la vidéo réaliste par intelligence artificielle - avril 2026

Kling AI, le générateur vidéo développé par Kuaishou — géant chinois des réseaux sociaux — s'est imposé en 2026 comme l'un des outils de création vidéo par intelligence artificielle les plus performants du marché. La plateforme propose deux fonctionnalités principales : la génération de vidéos à partir de descriptions textuelles (Text-to-Video) et l'animation d'images fixes (Image-to-Video). Elle est désormais accessible à l'échelle mondiale avec une interface multilingue, sans nécessiter de matériel de production coûteux. Les tests menés révèlent une qualité de rendu qui dépasse régulièrement les attentes, notamment sur la gestion de la lumière, des ombres et des textures. Des outils avancés comme le "pinceau de mouvement" permettent un contrôle manuel très précis des séquences générées, un niveau de maîtrise rare parmi les concurrents directs. Ce qui distingue Kling AI tient avant tout à sa compréhension fine des mouvements humains naturels et à la cohérence physique des scènes produites. Là où de nombreux générateurs vidéo peinent avec la fluidité des articulations ou la continuité des plans, Kling produit des clips cinématographiques où lumière et physique restent globalement cohérentes. Pour les créateurs de contenu publicitaire, les studios indépendants ou les agences qui cherchent à produire rapidement des visuels professionnels, l'outil représente une alternative crédible aux tournages classiques. La barrière d'entrée technique est faible : une simple description textuelle suffit à générer une séquence en haute définition, ce qui ouvre la production vidéo à un public bien plus large que les seuls professionnels du secteur. Quelques limites demeurent toutefois, notamment des temps d'attente élevés aux heures de pointe et une interface jugée chargée. Kling AI s'inscrit dans une vague de générateurs vidéo IA — aux côtés de Sora (OpenAI), Runway ou Pika — qui transforment profondément les flux de production visuelle. Kuaishou, déjà bien implanté en Asie avec son application de vidéos courtes, capitalise sur cette expertise pour s'imposer sur le marché mondial des outils créatifs. La compétition dans ce segment est féroce : chaque trimestre voit émerger de nouvelles versions avec des capacités augmentées. Le défi à venir pour Kling sera de maintenir sa position technique tout en stabilisant ses performances serveur face à une demande en forte croissance. À terme, ce type d'outil pourrait redéfinir les économies de production dans la publicité, le cinéma indépendant et la création de contenu numérique, en réduisant drastiquement les coûts et délais de réalisation.

UELes créateurs de contenu et agences européens peuvent adopter Kling AI comme alternative crédible aux tournages classiques, réduisant les coûts de production vidéo publicitaire et cinématographique.

OutilsOutil
1 source
OpenAI veut se « recentrer », mais s’offre le podcast préféré de la Silicon Valley
6801net 

OpenAI veut se « recentrer », mais s’offre le podcast préféré de la Silicon Valley

OpenAI a annoncé le rachat du podcast "All-In", l'émission tech la plus écoutée de la Silicon Valley, dans un mouvement qui surprend au moment même où l'entreprise affiche des ambitions de recentrage stratégique. Cette acquisition intervient après une série de revers coûteux : l'arrêt de Sora, son générateur vidéo phare, l'échec d'un partenariat avec Disney, et près d'un milliard de dollars de pertes enregistrées sur des projets abandonnés en 2025. Cette décision illustre une tension croissante au sein d'OpenAI entre la rhétorique de la rigueur et une réalité d'expansion tous azimuts. Posséder le media de référence de l'élite tech américaine offre à Sam Altman un levier d'influence considérable sur les narratives qui façonnent l'industrie, les investisseurs et les régulateurs. Pour les utilisateurs et les concurrents, cela signale qu'OpenAI joue désormais sur le terrain de la communication autant que sur celui de la recherche. Ce rachat s'inscrit dans une période charnière pour OpenAI, qui doit à la fois justifier sa valorisation de plusieurs centaines de milliards de dollars, résister à la montée en puissance de Gemini et de Claude, et gérer les critiques sur sa transformation en entité à but lucratif. Acquérir une voix influente dans l'écosystème tech pourrait être une manière de consolider son image au moment où son leadership est le plus contesté.

Fidji Simo d'OpenAI rachète le podcast TBPN malgré sa campagne contre les projets parallèles
69The Information AI 

Fidji Simo d'OpenAI rachète le podcast TBPN malgré sa campagne contre les projets parallèles

Fidji Simo, directrice générale du déploiement de l'AGI chez OpenAI, a annoncé jeudi l'acquisition de TBPN, un podcast technologique quotidien très suivi, animé par John Coogan et Jordi Hays. Cette décision intervient alors que Simo s'est imposée ces dernières semaines comme la figure de la rigueur au sein d'OpenAI, à mesure que la startup s'approche d'une introduction en bourse prévue fin 2025. Selon les informations communiquées aux équipes, les deux animateurs conserveront leur indépendance éditoriale tout en jouant un rôle de conseil auprès de l'entreprise en matière de marketing et de communication. La nouvelle a été si inattendue que certains employés d'OpenAI ont cru à un poisson d'avril en retard. L'acquisition surprend d'autant plus qu'elle contraste frontalement avec le discours que Simo tient en interne depuis plusieurs semaines. Le mois dernier, elle avait adressé un message de mise en garde aux équipes : OpenAI ne peut plus se permettre de courir après des "quêtes secondaires" qui détournent l'entreprise de ses priorités. Dans la foulée, Sora, l'outil de génération vidéo gourmand en ressources de calcul, a été abandonné. Une fonctionnalité de paiement express dans ChatGPT, à laquelle Simo s'était montrée sceptique, a également été retirée, et les plans permettant à ChatGPT de générer du contenu érotique ont été mis en suspens indéfiniment. Acquérir un podcast populaire dans ce contexte représente donc une rupture de ton notable. OpenAI, valorisé à 300 milliards de dollars après sa dernière levée de fonds de 40 milliards en mars 2025, cherche à soigner son image publique avant son entrée en bourse. La relation avec les médias et la maîtrise du récit sont devenues des enjeux stratégiques pour une entreprise sous intense scrutin réglementaire et concurrentiel. Intégrer TBPN dans son giron pourrait s'interpréter comme une tentative de capter directement une audience tech influente, dans un contexte où la guerre de perception entre OpenAI, Google, Anthropic et Meta se joue aussi sur les canaux informels. La question de l'indépendance éditoriale promise restera centrale pour la crédibilité de cette opération.

BusinessOpinion
1 source
Google Vids : créez, modifiez et partagez des vidéos gratuitement
70Google AI Blog 

Google Vids : créez, modifiez et partagez des vidéos gratuitement

Google enrichit son outil de création vidéo Vids avec de nouvelles fonctionnalités d'intelligence artificielle, en intégrant ses modèles maison Lyria 3 pour la génération audio et Veo 3.1 pour la vidéo. La nouveauté centrale : ces capacités de génération vidéo haute qualité sont désormais accessibles gratuitement, sans frais supplémentaires pour les utilisateurs de Google Workspace. C'est un signal fort dans la course aux outils créatifs IA. En rendant la génération vidéo professionnelle accessible sans surcoût, Google s'attaque directement à des acteurs comme Runway, Sora d'OpenAI ou Kling, qui facturent leurs fonctionnalités premium. Pour les équipes marketing, les créateurs de contenu et les entreprises utilisant déjà l'écosystème Google, cela élimine une barrière d'entrée significative à la production vidéo assistée par IA. Google Vids a été lancé en 2024 comme réponse à Canva et aux outils de présentation vidéo, intégré à Google Workspace aux côtés de Docs, Sheets et Slides. L'intégration de Veo 3.1, version mise à jour du modèle vidéo présenté à Google I/O 2025, et de Lyria 3 pour la bande sonore, montre la volonté de Google de consolider sa suite bureautique autour de l'IA générative multimodale, face à Microsoft qui déploie Copilot dans Office.

UELes équipes et entreprises françaises déjà abonnées à Google Workspace peuvent désormais accéder gratuitement à la génération vidéo IA professionnelle, supprimant le besoin de souscrire à des outils tiers payants comme Runway ou Kling.

OutilsOutil
1 source
Derrière les fruits stars de TikTok, une machine à cash pilotée par l’IA
71Siècle Digital 

Derrière les fruits stars de TikTok, une machine à cash pilotée par l’IA

Sur TikTok, des fruits et légumes dotés de visages expressifs et de voix émotionnelles envahissent les fils d'actualité depuis plusieurs mois, portés par des intrigues sentimentales dignes de Peaky Blinders ou de Secret Story. Ces vidéos entièrement générées par intelligence artificielle — personnages, voix, scénarios — cumulent des dizaines de millions de vues. Derrière l'apparente fantaisie, une infrastructure économique très structurée : des créateurs, souvent anonymes, utilisent des outils comme Kling AI ou Sora combinés à des générateurs de scénarios automatisés pour produire en masse des contenus à faible coût mais à fort potentiel viral. Ce modèle représente une rupture dans la façon dont le contenu digital est monétisé. Ces comptes génèrent des revenus via le Creator Fund de TikTok, mais surtout via l'affiliation et le placement de produits dissimulés dans les intrigues. Un personnage-citron qui "trahit" un ami-concombre peut, en quelques secondes, glisser un lien vers une boutique Shopify. Pour les annonceurs et les créateurs, le rapport coût-engagement est sans précédent : pas d'acteur, pas de tournage, une audience massive et un algorithme TikTok qui favorise la rétention émotionnelle. Ce phénomène s'inscrit dans une tendance plus large d'industrialisation du contenu IA sur les plateformes courtes. Des fermes de contenus automatisés opèrent désormais à grande échelle, testant formats et personnages jusqu'à trouver la formule virale. TikTok, conscient du phénomène, n'a pas encore clarifié ses règles sur l'étiquetage des contenus 100 % générés par IA, laissant un vide réglementaire que ces opérateurs exploitent activement. --- Note : l'article source était tronqué — ce résumé s'appuie sur le contexte connu du phénomène.

UEL'absence de règles claires sur l'étiquetage des contenus 100 % générés par IA sur TikTok contredit les obligations de transparence prévues par l'AI Act européen, que l'ARCOM et la Commission pourraient être amenés à faire respecter.

SociétéOpinion
1 source
Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini
72MarkTechPost 

Google AI publie Veo 3.1 Lite : génération vidéo rapide et économique via l'API Gemini

Google a lancé Veo 3.1 Lite, un nouveau palier de son portefeuille de génération vidéo par IA, désormais disponible via l'API Gemini et Google AI Studio pour les utilisateurs en abonnement payant. Ce modèle se distingue par son positionnement tarifaire agressif : il offre la même vitesse de génération que le modèle Veo 3.1 Fast existant, mais à environ moitié moins cher. Concrètement, la génération en 720p est facturée 0,05 dollar par seconde, et 0,08 dollar par seconde en 1080p — des tarifs qui contrastent avec les plusieurs dollars par minute couramment pratiqués sur le marché de la vidéo IA haute qualité. Le modèle prend en charge des clips de 4, 6 ou 8 secondes, aux formats 16:9 et 9:16, avec une résolution maximale de 1080p (contrairement au Veo 3.1 flagship qui monte jusqu'au 4K). Il reconnaît également des directives cinématographiques précises dans les prompts, comme les instructions de panoramique, d'inclinaison ou d'éclairage. Pour les développeurs qui construisent des applications à fort volume — génération dynamique de publicités, automatisation de contenus pour les réseaux sociaux, prototypage itératif — le coût a longtemps constitué le principal frein à l'adoption industrielle de la vidéo générative. En divisant approximativement la facture par deux sans sacrifier la latence, Google ouvre la voie à des cas d'usage jusqu'ici économiquement inviables. L'intégration passe par l'API Gemini en REST ou gRPC, compatible avec les stacks Python et Node.js existants, ce qui réduit la friction d'adoption pour les équipes déjà dans l'écosystème Google. Chaque vidéo générée intègre également SynthID, le filigrane numérique invisible développé par Google DeepMind : imperceptible à l'œil nu, il reste détectable par des logiciels spécialisés, ce qui répond aux exigences croissantes de traçabilité du contenu synthétique. Sur le plan technique, Veo 3.1 Lite repose sur une architecture Diffusion Transformer (DiT), qui supplante les approches U-Net traditionnelles en traitant les frames vidéo non pas comme des images 2D statiques, mais comme des séquences de tokens dans un espace latent compressé. L'auto-attention appliquée à ces patches spatio-temporels améliore la cohérence temporelle — objets, lumières et textures restent stables tout au long du clip, un problème récurrent des modèles antérieurs. En opérant dans l'espace latent plutôt que dans l'espace pixel, le modèle contient l'empreinte mémoire et évite l'explosion du temps de calcul lors du passage en haute définition. Ce lancement s'inscrit dans une course à la démocratisation de la vidéo IA où Google, face à Sora d'OpenAI et Runway, cherche à consolider sa position en ciblant explicitement les développeurs plutôt que les créatifs, en faisant de la scalabilité économique son principal argument différenciateur.

UELes développeurs européens peuvent intégrer la génération vidéo IA à tarif réduit via l'API Gemini, sans impact réglementaire spécifique à l'UE.

CréationOpinion
1 source
Créez avec Veo 3.1 Lite, notre modèle de génération vidéo le plus accessible
73Google AI Blog 

Créez avec Veo 3.1 Lite, notre modèle de génération vidéo le plus accessible

Google a mis en disponibilité Veo 3.1 Lite, sa nouvelle version allégée de modèle de génération vidéo, en accès payant via l'API Gemini et en test gratuit sur Google AI Studio. Présenté comme le modèle de génération vidéo le plus économique de la gamme, il s'adresse aux développeurs et entreprises souhaitant intégrer la création vidéo IA dans leurs applications sans supporter les coûts de la version complète Veo 3.1. Ce lancement répond à une demande croissante de solutions vidéo IA accessibles pour les équipes produit et les startups. En proposant une alternative moins coûteuse, Google ouvre la génération vidéo à une base bien plus large de développeurs, au-delà des grandes entreprises capables d'absorber les tarifs premium. La disponibilité directe via l'API Gemini facilite l'intégration dans des pipelines existants. Veo 3.1 Lite s'inscrit dans la stratégie de Google de démocratiser ses outils d'IA générative face à la concurrence de Sora d'OpenAI et Runway. La famille Veo, lancée en 2024, monte progressivement en accessibilité après avoir ciblé initialement les partenaires enterprise. La phase de "paid preview" suggère une disponibilité générale prochaine, avec des tarifs définitifs à préciser.

UELes développeurs et startups européens peuvent désormais intégrer la génération vidéo IA dans leurs pipelines applicatifs à moindre coût via l'API Gemini.

OutilsOutil
1 source
Une startup permet de générer des vidéos à moindre coût
74The Information AI 

Une startup permet de générer des vidéos à moindre coût

Alors qu'OpenAI a récemment fermé son outil de génération vidéo Sora, d'autres acteurs du secteur continuent d'innover — et cherchent surtout à se démarquer sur le plan économique. LTX, une spin-off de Lightricks (l'éditeur de l'application de retouche photo Facetune), a lancé en janvier 2026 un logiciel open-source de génération et d'édition vidéo par IA, capable de tourner sur un simple ordinateur portable. Son modèle tarifaire est original : les développeurs peuvent utiliser l'outil gratuitement jusqu'à ce que leur chiffre d'affaires dépasse les 10 millions de dollars. Au-delà de ce seuil, ils doivent reverser une portion de leurs revenus à LTX — une règle expliquée directement par Zeev Farbman, PDG de la société. Ce modèle cherche à résoudre un problème concret qui freine l'adoption des outils vidéo par IA : le coût prohibitif des itérations. Aujourd'hui, les modèles ne produisent que rarement le résultat attendu dès la première tentative. Les utilisateurs doivent générer de nombreuses versions du même clip, ajustant les paramètres à chaque essai — ce qui fait rapidement exploser la facture quand chaque génération est payante. Chez des concurrents comme xAI, Google ou Runway, produire une seule minute de vidéo peut coûter de quelques dollars à plus de 10 dollars. En offrant un accès gratuit aux petits développeurs, LTX supprime ce frein à l'expérimentation. Ce lancement intervient dans un contexte où le marché de la vidéo générée par IA cherche encore son modèle économique viable. Lightricks, connue pour ses applications grand public à succès, s'appuie sur son expertise en édition visuelle pour positionner LTX comme une infrastructure accessible aux créateurs et aux développeurs indépendants. La stratégie — laisser croître une base d'utilisateurs gratuits, puis monétiser les success stories — rappelle le modèle de certaines licences open-source commerciales comme celle de MongoDB ou Elastic. Si la qualité des modèles continue de progresser, LTX pourrait devenir une alternative crédible aux plateformes fermées et coûteuses qui dominent actuellement le secteur.

OutilsOutil
1 source
OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic
75Blog du Modérateur 

OpenAI abandonne ses « quêtes secondaires » pour faire face à Anthropic

En l'espace d'une semaine, OpenAI a annoncé la fermeture de Sora, son générateur vidéo, ainsi que plusieurs projets annexes jugés non essentiels. Ces décisions marquent un recentrage stratégique brutal vers le cœur de métier de l'entreprise : les modèles de langage et ChatGPT. Selon le journaliste Jérôme Marin pour BDM, ces renoncements ne sont pas anodins et traduisent une pression concurrentielle grandissante. La principale menace identifiée est Anthropic, dont le modèle Claude gagne rapidement du terrain auprès des entreprises et des développeurs. OpenAI semble avoir conclu que disperser ses ressources sur des projets spectaculaires mais périphériques fragilisait sa position face à un concurrent qui, lui, concentre tous ses efforts sur la fiabilité et la sécurité de ses modèles. L'abandon de Sora est particulièrement symbolique : lancé en fanfare, le projet n'avait jamais atteint une adoption commerciale significative. Ce pivot intervient dans un contexte où la course aux modèles fondamentaux s'intensifie à vitesse inédite. Google, Meta, Mistral et xAI maintiennent la pression, tandis que les investisseurs exigent une trajectoire claire vers la rentabilité. OpenAI, valorisée à plus de 150 milliards de dollars, doit désormais prouver que sa domination historique sur le marché des LLM se traduira en revenus durables — pas seulement en annonces fracassantes.

UELa consolidation stratégique d'OpenAI autour des LLM intensifie la pression concurrentielle sur Mistral, seul acteur européen cité dans la course aux modèles fondamentaux.

BusinessOpinion
1 source
OpenAI met en pause pour une durée indéterminée la sortie de sa version adulte de ChatGPT
76Next INpact 

OpenAI met en pause pour une durée indéterminée la sortie de sa version adulte de ChatGPT

OpenAI a annoncé la suspension « pour une durée indéterminée » de son projet de version pornographique de ChatGPT, quelques jours seulement après un premier report annoncé début mars 2026. Le Financial Times révèle que la décision intervient dans un contexte de pression intense, tant en interne que de la part des investisseurs. Sam Altman avait pourtant défendu publiquement ce projet en octobre dernier, promettant de « traiter les utilisateurs adultes comme des adultes » via un mode explicite accessible après vérification de l'âge — une approche similaire à celle adoptée par Elon Musk pour son IA Grok. L'entreprise justifie aujourd'hui cette mise en pause par la nécessité de mener d'abord « des recherches à long terme » sur les effets des conversations à caractère sexuel explicite et sur l'attachement affectif aux chatbots, faute de « preuve empirique » disponible sur ces questions. L'abandon du projet illustre les multiples fronts sur lesquels OpenAI se retrouvait exposée. En interne, un comité d'experts avait été constitué le jour même où Altman avait exprimé sa volonté de lancer ce mode adulte — et s'y était unanimement opposé, rejoint par des salariés critiques. Côté investisseurs, les inquiétudes portaient à la fois sur les risques juridiques et réputationnels du projet, et sur son faible potentiel de croissance commerciale. Sur le plan technique, OpenAI peinait à fiabiliser son outil de vérification de l'âge : selon les données disponibles, il classait encore récemment 12 % des mineurs comme des adultes, exposant l'entreprise à des risques sérieux de poursuites autour de l'accès de mineurs à du contenu explicite — une problématique déjà observée avec les deepfakes générés par Grok représentant des femmes, parfois mineures, dénudées sans leur consentement. Cette décision s'inscrit dans un repositionnement stratégique plus large d'OpenAI, sous pression concurrentielle croissante d'Anthropic. Une semaine plus tôt, le Wall Street Journal rapportait qu'OpenAI allait tailler dans ses projets secondaires pour se recentrer sur son cœur de métier. Fidji Simo, responsable des applications de l'entreprise, aurait exhorté ses équipes à ne pas « laisser passer cette occasion » à cause de « distractions », en ciblant explicitement l'amélioration de la productivité professionnelle — un terrain sur lequel Anthropic s'est imposé avec des outils comme Claude Code. La suspension du mode adulte, annoncée la même semaine que l'abandon de Sora 2, confirme que Sam Altman opère un recentrage sous contrainte : moins d'expérimentations grand public controversées, plus de focus sur les usages entreprise où se jouent désormais les parts de marché décisives.

UEL'abandon du mode adulte de ChatGPT illustre les enjeux de conformité que les plateformes IA devront anticiper en Europe, où l'AI Act impose des obligations strictes de vérification d'âge et de protection des mineurs pour les contenus explicites générés par IA.

BusinessOpinion
1 source
OpenAI met en pause le « mode adulte » de ChatGPT et change de cap stratégique
77Siècle Digital 

OpenAI met en pause le « mode adulte » de ChatGPT et change de cap stratégique

OpenAI a annoncé la suspension du développement de son « mode adulte » pour ChatGPT, une fonctionnalité qui devait permettre la génération de contenus explicites pour les adultes sur certaines plateformes partenaires. Cette décision intervient peu après l'arrêt de Sora, le générateur vidéo de la start-up, signalant un recentrage stratégique plus large au sein de l'entreprise. Le changement de cap concerne plusieurs initiatives expérimentales lancées ces derniers mois autour de ChatGPT. Ce revirement illustre la pression croissante que subit OpenAI face à une concurrence qui s'intensifie rapidement. Anthropic, son rival direct, a même lancé un outil de migration pour faciliter le passage de ChatGPT vers Claude, une manœuvre agressive qui cible directement la base d'utilisateurs d'OpenAI. En suspendant des projets secondaires, OpenAI semble vouloir concentrer ses ressources sur ses produits phares et sur des fonctionnalités à plus fort impact commercial, plutôt que de disperser ses équipes sur des expérimentations risquées sur le plan réputationnel. OpenAI se retrouve à un moment charnière : après avoir dominé l'espace des assistants IA grand public depuis le lancement de ChatGPT en 2022, la start-up doit désormais défendre sa position face à des concurrents mieux capitalisés ou plus agiles. La décision d'abandonner le mode adulte reflète aussi les tensions entre croissance de l'audience et gestion de l'image de marque, un équilibre délicat pour une entreprise qui cherche simultanément à lever des fonds, séduire les entreprises et maintenir la confiance du grand public.

BusinessOpinion
1 source
OpenAI : le « mode adulte » de ChatGPT définitivement à l’arrêt
7801net 

OpenAI : le « mode adulte » de ChatGPT définitivement à l’arrêt

OpenAI a annoncé la suspension indéfinie du développement du « mode adulte » de ChatGPT, une fonctionnalité qui aurait permis à l'assistant de générer des contenus érotiques. Initialement promise pour début 2026, cette capacité avait déjà été repoussée une première fois avant d'être finalement abandonnée sans date de reprise annoncée. Cette décision prive OpenAI d'un segment potentiellement lucratif du marché des IA génératives, où des concurrents comme Character.AI ou des plateformes spécialisées ont déjà pris position. Pour les utilisateurs adultes qui attendaient cette ouverture, le signal est clair : ChatGPT restera un outil grand public aux garde-fous stricts, malgré la promesse initiale d'une plus grande flexibilité. Ce recul s'inscrit dans un mouvement plus large de prudence chez OpenAI, qui avait également mis en pause certaines fonctionnalités de Sora, son générateur vidéo, face aux critiques. La start-up, valorisée à 300 milliards de dollars et sous pression réglementaire croissante en Europe et aux États-Unis, semble privilégier une image responsable plutôt que l'expansion tous azimuts de ses capacités — un arbitrage qui reflète les tensions entre ambition commerciale et acceptabilité sociale de l'IA générative.

UELa pression réglementaire croissante en Europe influence les arbitrages de modération de contenu d'OpenAI, illustrant comment l'AI Act pousse les grands acteurs vers des approches plus conservatrices sur les contenus sensibles.

ÉthiqueOpinion
1 source
OpenAI suspend son chatbot érotique pour une durée indéterminée
79The Verge AI 

OpenAI suspend son chatbot érotique pour une durée indéterminée

OpenAI a mis en suspens "indéfiniment" son projet de mode adulte pour ChatGPT, selon des informations du Financial Times. Cette fonctionnalité aurait permis des conversations à caractère érotique et sexualisé avec l'IA. La décision intervient après des résistances internes importantes — employés et investisseurs ont exprimé leurs inquiétudes quant aux effets néfastes que ce type de contenu pourrait avoir sur la société, en particulier les populations vulnérables. Ce recul s'inscrit dans un mouvement plus large de recentrage stratégique chez OpenAI. En décembre dernier, le PDG Sam Altman avait déclenché un "code rouge" interne pour concentrer les équipes sur les produits phares de l'entreprise. Dans ce sillage, OpenAI a également abandonné Sora, sa plateforme de génération vidéo par IA, invoquant des "discussions internes sur les priorités de recherche". Ces choix signalent une volonté de ne pas disperser les ressources sur des projets secondaires au moment où la concurrence avec Google, Anthropic et d'autres acteurs s'intensifie. La question du contenu adulte généré par IA reste cependant un marché en pleine expansion, avec des plateformes spécialisées comme Character.AI ou Replika qui s'y sont déjà engouffrées. OpenAI avait initialement envisagé ce segment comme une source de revenus supplémentaires face à ses coûts d'infrastructure colossaux. En y renonçant, la société fait le pari que la crédibilité institutionnelle et la confiance des entreprises clientes pèsent davantage que les gains potentiels d'un marché jugé trop risqué sur le plan réputationnel.

BusinessOpinion
1 source
Les gros paris de Disney sur le metaverse et l'IA médiocre ne paient pas
80The Verge AI 

Les gros paris de Disney sur le metaverse et l'IA médiocre ne paient pas

Josh D'Amaro, nouveau PDG de Disney depuis moins d'une semaine, fait déjà face à deux crises simultanées. OpenAI ferme son programme de génération d'images Sora, quelques mois seulement après que Disney a annoncé un partenariat d'un milliard de dollars pour intégrer cette technologie à Disney+. Parallèlement, Epic Games — partenaire d'un accord à 1,5 milliard de dollars pour construire un métaverse commun — licencie 1 000 employés, et le projet n'a pratiquement donné aucun signe de vie depuis son annonce. Ces deux revers soulèvent des questions sérieuses sur la stratégie technologique de Disney. L'intégration de l'IA générative dans le streaming reste possible, mais perd son partenaire phare. Quant au métaverse, l'hémorragie chez Epic fragilise davantage un projet déjà flou. Pour D'Amaro, qui hérite de paris coûteux engagés sous son prédécesseur, la facture risque d'être lourde — financièrement et en termes de crédibilité. Ces déboires s'inscrivent dans un contexte plus large de désillusion autour du métaverse et des promesses parfois excessives de l'IA générative, deux secteurs où de nombreuses entreprises ont investi massivement sans résultats concrets à la hauteur des attentes.

BusinessOpinion
1 source
Captions devient Mirage et lève 75 millions de dollars pour conquérir la vidéo courte
81Siècle Digital 

Captions devient Mirage et lève 75 millions de dollars pour conquérir la vidéo courte

Captions, l'application de sous-titrage vidéo par intelligence artificielle prisée des créateurs de contenu, a officiellement changé de nom et de stratégie. Rebaptisée Mirage, la startup annonce une levée de fonds de 75 millions de dollars pour financer une transformation profonde de son modèle. L'entreprise entend désormais se positionner comme un laboratoire IA dédié à l'édition vidéo, avec l'ambition de développer ses propres modèles propriétaires. Ce pivot marque un tournant stratégique majeur : plutôt que de s'appuyer sur des API tierces comme OpenAI ou Stability AI, Mirage veut contrôler sa propre technologie de bout en bout. C'est un pari risqué mais potentiellement décisif — posséder ses modèles permet de différencier le produit, de réduire les coûts à grande échelle et de ne pas dépendre de partenaires qui peuvent devenir des concurrents. Dans le marché de la vidéo courte, dominé par TikTok et ses créateurs, la maîtrise de l'IA d'édition pourrait devenir un avantage concurrentiel décisif. Ce repositionnement intervient dans un contexte où plusieurs startups IA spécialisées dans la vidéo — Runway, Kling, Sora d'OpenAI — se disputent férocement le marché de la création vidéo automatisée. Mirage mise sur son ancrage auprès des créateurs de contenu pour convertir sa base d'utilisateurs existante en terrain d'expérimentation pour ses nouveaux modèles.

BusinessActu
1 source
Le PDG d'OpenAI redistribue les responsabilités et prépare le modèle IA 'Spud
82The Information AI 

Le PDG d'OpenAI redistribue les responsabilités et prépare le modèle IA 'Spud

Sam Altman a délégué la supervision des équipes sécurité d'OpenAI pour se concentrer sur la levée de fonds et la construction de datacenters "à une échelle sans précédent". Parallèlement, il a annoncé la finalisation du développement initial de leur prochain grand modèle d'IA, nom de code Spud. OpenAI ferme également l'application mobile Sora, jugée trop gourmande en ressources dans un contexte de concurrence accrue avec Anthropic et Google.

LLMsActu
1 source
Le culte de l'IA générative a un goût d'eugénisme
83The Verge AI 

Le culte de l'IA générative a un goût d'eugénisme

La réalisatrice Valerie Veatch a exploré Sora, le modèle texte-vers-vidéo d'OpenAI lancé en 2024, attirée par les communautés d'artistes qui se formaient autour de l'IA générative. Elle a rapidement été choquée par la fréquence avec laquelle la technologie produisait des contenus racistes et sexistes. Ce qui l'a encore plus troublée : l'indifférence de ses pairs enthousiastes face à ces dérives, qu'elle associe à une forme d'eugénisme numérique.

UELe règlement européen sur l'IA (AI Act) impose des exigences strictes contre les biais discriminatoires dans les systèmes d'IA, rendant ce type de dérive directement pertinent pour les acteurs déployant des outils génératifs en Europe.

ÉthiqueOpinion
1 source
Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma
84The Verge AI 

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma

Malgré les promesses répétées de certains enthousiastes de l'IA, la production cinématographique et télévisuelle par intelligence artificielle reste largement en deçà des attentes. Les modèles généralistes les plus en vue — Sora d'OpenAI, Veo de Google et Runway — peinent à convaincre les professionnels du secteur : leurs résultats, bien que spectaculaires pour des démonstrations, restent insuffisants pour les exigences réelles d'une production de divertissement. Une nouvelle génération d'entreprises commence toutefois à proposer une approche radicalement différente : des modèles génératifs conçus spécifiquement pour les besoins des créatifs, couvrant l'ensemble du processus de développement, de la conception visuelle au storyboard en passant par la post-production. Ce virage vers des modèles sur mesure répond à deux problèmes fondamentaux de l'IA générique appliquée au cinéma : le manque de contrôle créatif et les risques juridiques liés aux droits d'auteur. En ciblant précisément les usages professionnels, ces nouveaux outils pourraient enfin offrir aux studios et aux réalisateurs indépendants une assistance réelle sans compromettre leur vision artistique ni les exposer à des litiges coûteux. L'industrie du divertissement représente un marché colossal, et la ruée vers les outils IA dédiés s'inscrit dans une compétition plus large entre les géants technologiques et des startups spécialisées pour capter ce segment. Si les modèles généralistes ont ouvert la voie, c'est désormais la spécialisation qui semble promettre les véritables percées commerciales et créatives — un mouvement qui rappelle l'évolution des logiciels professionnels dans les années 2000, où les outils génériques ont cédé la place à des solutions métier verticales.

UELa tendance vers des modèles IA spécialisés pour le cinéma pourrait à terme bénéficier aux studios et cinéastes indépendants français, sans acteur européen directement impliqué à ce stade.

CréationOutil
1 source
Comment Higgsfield transforme des idées simples en vidéos sociales cinématographiques
85OpenAI Blog 

Comment Higgsfield transforme des idées simples en vidéos sociales cinématographiques

Higgsfield transforme des idées simples en vidéos sociales de qualité cinématographique grâce à l'utilisation de modèles comme OpenAI GPT-4.1, GPT-5 et Sora 2. Cette technologie permet aux créateurs de produire des contenus visuels impressionnants à partir d'entrées minimales, optimisés pour les plateformes sociales.

BusinessOutil
1 source