xAI mise sur le côté osé de Grok

Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son

44

1Le Big Data

Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son

xAI, la société d'intelligence artificielle fondée par Elon Musk, a annoncé le 17 juin 2026 la disponibilité générale de Grok Imagine Video 1.5, son modèle de génération de vidéo par image. Disponible sur le web via grok.com/imagine, sur les applications mobiles iOS et Android, et via l'API sous le nom grok-imagine-video-1.5, le modèle sort officiellement de sa phase de prévisualisation lancée début juin. La nouveauté la plus marquante de cette version finale est l'intégration du son natif : effets sonores, ambiances sonores et dialogues sont désormais générés simultanément à la vidéo, sans étape supplémentaire. Pour les utilisateurs grand public, xAI déploie en parallèle une version Video 1.5 Fast qui ramène le temps de génération d'une vidéo six secondes en 720p à environ 25 secondes, contre plus de 40 secondes avec le modèle précédent, soit un gain de performance de près de 40%. La synchronisation audio-vidéo native représente un changement concret pour les créateurs de contenu, qui devaient auparavant assembler son et image dans des outils tiers. La génération simultanée améliore la cohérence entre l'action et le son, et xAI indique que les voix gagnent en naturalité. Sur le plan visuel, le modèle corrige plusieurs faiblesses récurrentes des générateurs vidéo : meilleure cohérence des personnages et objets entre les images, réduction des déformations visuelles, et simulation plus réaliste de la physique, notamment le poids et l'élan. Le flux de travail créatif est également repensé avec l'ajout de projets organisables depuis une barre latérale, la possibilité de lancer plusieurs générations en parallèle via des agents simultanés, et un moteur de recherche intégré à la bibliothèque personnelle de l'utilisateur. xAI s'inscrit dans une course à la génération vidéo IA qui oppose désormais des acteurs comme Runway, Sora d'OpenAI, Veo de Google et Kling de Kuaishou. En intégrant le son directement dans le pipeline de génération, la société cherche à se différencier sur un marché où la qualité de production cinématographique devient un argument central. Pour illustrer le potentiel du modèle, xAI met en avant le projet "Odyssey" du créateur David Thompson, qui a réalisé une bande-annonce à l'esthétique cinématographique entièrement avec Grok Imagine 1.5. La disponibilité via API ouvre également la voie à des intégrations dans des outils professionnels de production. La prochaine étape pour xAI sera probablement d'étendre les durées de vidéo et la résolution maximale, deux limites encore non précisées officiellement, pour rivaliser avec les offres premium de ses concurrents.

CréationActu

1 source

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma

40

2The Verge AI

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma

Malgré les promesses répétées de certains enthousiastes de l'IA, la production cinématographique et télévisuelle par intelligence artificielle reste largement en deçà des attentes. Les modèles généralistes les plus en vue — Sora d'OpenAI, Veo de Google et Runway — peinent à convaincre les professionnels du secteur : leurs résultats, bien que spectaculaires pour des démonstrations, restent insuffisants pour les exigences réelles d'une production de divertissement. Une nouvelle génération d'entreprises commence toutefois à proposer une approche radicalement différente : des modèles génératifs conçus spécifiquement pour les besoins des créatifs, couvrant l'ensemble du processus de développement, de la conception visuelle au storyboard en passant par la post-production. Ce virage vers des modèles sur mesure répond à deux problèmes fondamentaux de l'IA générique appliquée au cinéma : le manque de contrôle créatif et les risques juridiques liés aux droits d'auteur. En ciblant précisément les usages professionnels, ces nouveaux outils pourraient enfin offrir aux studios et aux réalisateurs indépendants une assistance réelle sans compromettre leur vision artistique ni les exposer à des litiges coûteux. L'industrie du divertissement représente un marché colossal, et la ruée vers les outils IA dédiés s'inscrit dans une compétition plus large entre les géants technologiques et des startups spécialisées pour capter ce segment. Si les modèles généralistes ont ouvert la voie, c'est désormais la spécialisation qui semble promettre les véritables percées commerciales et créatives — un mouvement qui rappelle l'évolution des logiciels professionnels dans les années 2000, où les outils génériques ont cédé la place à des solutions métier verticales.

UELa tendance vers des modèles IA spécialisés pour le cinéma pourrait à terme bénéficier aux studios et cinéastes indépendants français, sans acteur européen directement impliqué à ce stade.

CréationOutil

1 source

49

3Latent Space

ImageGen est sur la voie de l'AGI

GPT-Image-2, le dernier modèle de génération d'images d'OpenAI, s'impose comme l'un des outils les plus polyvalents du moment. Capable de produire des visuels éducatifs, des infographies précises, des illustrations issues de la culture populaire ou des assets graphiques en temps réel pendant qu'un développeur code, il s'intègre désormais directement dans Codex, l'agent de programmation d'OpenAI, comme compétence activable. Cette combinaison GPT-Image-2 plus Codex permet de générer des ressources visuelles de manière itérative au fil du développement, ce qui change concrètement le flux de travail des développeurs. La qualité du modèle en termes de fidélité et de faible taux d'hallucinations est telle que des concurrents comme Claude Design, pourtant présenté il y a peu comme la référence, ne figurent plus dans la conversation. Cette dynamique soulève une question stratégique sérieuse : les modèles de génération d'images sont-ils un luxe pour des laboratoires qui cherchent à atteindre l'intelligence artificielle générale, ou bien une nécessité ? La réponse semble de plus en plus claire : oui, ils sont nécessaires. Parce que le texte, le code et les données structurées ne suffisent plus à démontrer le "G" de "AGI". Une IA vraiment générale doit maîtriser la voix, le visuel, la génération multimodale, y compris les calques transparents. Fermer cette boucle créative, c'est prendre une avance décisive sur tous les concurrents qui se concentrent uniquement sur le code et la productivité d'entreprise. En parallèle, OpenAI a opéré un pivot stratégique majeur en révisant son partenariat exclusif avec Microsoft. Sam Altman a annoncé que si Microsoft reste le cloud partenaire principal, OpenAI peut désormais distribuer ses modèles sur tous les clouds, y compris Google TPU et AWS Bedrock, une confirmation d'Andy Jassy est attendue dans les prochaines semaines. La licence de Microsoft sur la propriété intellectuelle d'OpenAI devient ainsi non exclusive, et la clause AGI de l'accord original serait de facto caduque selon plusieurs observateurs. Sur le plan des benchmarks, GPT-5.5 affiche des résultats contrastés : 67,1 % sur WeirdML sans mode de réflexion, contre 57,4 % pour GPT-5.4, mais toujours en retrait face à Claude Opus 4.7 à 76,4 %. L'Arena LMSYS place le modèle en troisième position en mathématiques et deuxième en recherche, mais neuvième en code. Enfin, GitHub a annoncé la migration de Copilot vers une facturation à l'usage au 1er juin, un signal fort de la monétisation croissante des workflows agentiques, tandis qu'OpenAI a publié en open source Symphony, une couche d'orchestration reliant les gestionnaires de tickets à des agents Codex pour automatiser le cycle complet "issue → PR → revue humaine".

UELa restructuration du partenariat OpenAI-Microsoft vers une licence non exclusive pourrait faciliter l'accès aux modèles OpenAI via des fournisseurs cloud alternatifs utilisés par les entreprises européennes.

CréationActu

1 source

Guide complet des negative prompts sur ArtSpace AI

32

4Le Big Data

Guide complet des negative prompts sur ArtSpace AI

ArtSpace AI, plateforme de génération d'images par intelligence artificielle, propose dans son interface une fonctionnalité distincte appelée "negative prompt", un champ textuel secondaire, séparé de la description principale, dans lequel l'utilisateur spécifie les éléments qu'il souhaite exclure du résultat visuel. Contrairement à d'autres outils comme Midjourney, ArtSpace AI affiche cet espace d'exclusion directement sous la boîte de dialogue principale, accessible en un clic via un onglet dédié. Le mécanisme repose sur une logique inversée propre aux modèles de diffusion : là où une invite positive oriente le calcul vers des correspondances sémantiques précises, les termes négatifs repoussent des concepts spécifiques hors du champ de génération, orientant ainsi la puissance de calcul uniquement vers les éléments jugés pertinents. L'intérêt pratique de cette fonctionnalité est direct et mesurable pour les créateurs produisant des visuels à vocation commerciale ou éditoriale. Les imperfections les plus fréquentes dans la génération d'images, mains déformées, visages asymétriques, textes flous, ombres irréalistes, filigranes fictifs ou bordures indésirables, sont bien plus efficacement corrigées par exclusion ciblée que par reformulation de l'invite positive. Le résultat est un fichier directement exploitable, sans retouche externe, ce qui représente un gain de temps significatif dans un flux de production professionnel. La composition gagne en cohérence, les espaces négatifs deviennent maîtrisés, et la direction artistique globale se raffine sans surcharger la description principale. La popularisation des negative prompts s'inscrit dans une évolution plus large de la maîtrise des outils de génération visuelle par IA. Au-delà de la simple rédaction d'une invite descriptive, les utilisateurs avancés, graphistes, directeurs artistiques, équipes marketing, ont progressivement compris que la qualité d'un rendu se joue autant sur les contraintes imposées que sur les éléments demandés. ArtSpace AI se positionne ainsi dans un marché de plus en plus compétitif où l'ergonomie du workflow créatif devient un argument de différenciation face à des concurrents comme Midjourney, Stable Diffusion ou Adobe Firefly. La séparation claire des deux champs textuels évite toute ambiguïté sémantique pour l'algorithme et fluidifie le travail des créateurs, un choix de conception qui reflète une maturité croissante des interfaces de génération d'images à destination des professionnels.

CréationOutil

1 source

xAI mise sur le côté osé de Grok

À lire aussi

Grok Imagine Video 1.5 : cette IA génère maintenant des vidéos avec le son

Les modèles d'IA sur mesure sont la prochaine grande révolution du cinéma

ImageGen est sur la voie de l'AGI

Guide complet des negative prompts sur ArtSpace AI