Aller au contenu principal
OutilsAWS ML Blog5j

Utiliser RAG pour la génération vidéo avec Amazon Bedrock et Amazon Nova Reel

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Amazon a développé un pipeline multimodal appelé VRAG (Video Retrieval Augmented Generation) qui génère des vidéos personnalisées en combinant récupération d'images et génération par IA. La solution utilise Amazon Bedrock, Amazon Nova Reel et OpenSearch : l'utilisateur fournit un objet d'intérêt et une instruction de caméra (ex. « rotation dans le sens horaire »), le système retrouve l'image la plus pertinente depuis un index vectoriel et génère la vidéo correspondante. Le traitement par lot via un fichier `prompts.txt` permet de produire plusieurs vidéos en une seule exécution, offrant une base scalable pour la création de contenu vidéo assistée par IA dans des secteurs comme la publicité, l'éducation ou le jeu vidéo.

Generating high-quality custom videos remains a significant challenge, because video generation models are limited to their pre-trained knowledge. This limitation affects industries such as advertising, media production, education, and gaming, where customization and control of video generation is essential. To address this, we developed a Video Retrieval Augmented Generation (VRAG) multimodal pipeline that transforms structured text into bespoke videos using a library of images as reference. Using Amazon Bedrock , Amazon Nova Reel , the Amazon OpenSearch Service vector engine , and Amazon Simple Storage Service (Amazon S3), the solution seamlessly integrates image retrieval, prompt-based video generation, and batch processing into a single automated workflow. Users provide an object of interest, and the solution retrieves the most relevant image from an indexed dataset. They then define an action prompt (for example, “Camera rotates clockwise”), which is combined with the retrieved image to generate the video. Structured prompts from text files allow multiple videos to be generated in one execution, creating a scalable, reusable foundation for AI-assisted media generation. In this post, we explore our approach to video generation through VRAG, transforming natural language text prompts and images into grounded, high-quality videos. Through this fully automated solution, you can generate realistic, AI-powered video sequences from structured text and image inputs, streamlining the video creation process. Solution overview Our solution is designed to take a structured text prompt, retrieve the most relevant image, and use Amazon Nova Reel for video generation. This solution integrates multiple components into a seamless workflow: Image retrieval and processing – Users provide an object of interest (for example, “blue sky”) and the solution queries the OpenSearch vector engine to retrieve the most relevant image from an indexed dataset, which contains pre-indexed images and descriptions. The most relevant image is retrieved from an S3 bucket. Prompt-based video generation – Users define an action prompt (for example, “Camera pans down”), which is combined with the retrieved image to generate a video using Amazon Nova Reel. Batch processing for multiple prompts – The solution reads a list of text templates from prompts.txt , which contain placeholders to enable batch processing of multiple video generation requests with structured variations: – Dynamically replaced with the queried object. – Dynamically replaced with the camera movement or scene action. Monitoring and storage – The video generation is asynchronous, so the solution monitors the job status. When it’s complete, the video is stored in an S3 bucket and automatically downloaded for preview. The generated videos are displayed in the notebook, with the corresponding prompt shown as a caption. The following diagram illustrates the solution architecture. The following diagram illustrates the end-to-end workflow using a Jupyter notebook. This solution can serve the following use cases: Educational videos – Automatically creating instructional videos by pulling relevant images from a subject matter knowledge base Marketing videos – Creating targeted video ads by pulling images that align with specific demographics or product features Personalized content – Tailoring video content to individual users by retrieving images based on their specific interests In the following sections, we break down each component, how it works, and how you can customize it for your own AI-driven video workflows. Example input In this section, we demonstrate the video generation capabilities of Amazon Nova Reel through two distinct input methods: text-only and text and image inputs. These examples illustrate how video generation can be further customized by incorporating input images, in this scenario for advertising. For our example, a travel agency wants to create an advertisement featuring a beautiful beach scene from a specific location and panning to a kayak to entice potential vacation bookings. We compare the results of using a text-only input approach vs. VRAG with a static image to achieve this goal. Text-only input For the text-only example, we use the input “Very slow pan down from blue sky to a colorful kayak floating on turquoise water.” We get the following result. Text and image input Using the same text prompt, the travel agency can now use a specific shot they took at their location. For this example, we use the following image. Travel agency can now add content into their existing shot using VRAG. They use the same prompt: “Very slow pan down from blue sky to a colorful kayak floating on turquoise water.” This generates the following video. Prerequisites Before you deploy this solution, make sure the following prerequisites are in place: Access to a valid AWS account Familiarity with Amazon SageMaker notebook instances Deploy

À lire aussi

1The Verge AI58min

Le mode automatique de Claude Code d'Anthropic devient plus sûr

Anthropic a lancé un nouveau mode appelé « auto mode » pour Claude Code, son outil de codage assisté par IA. Cette fonctionnalité permet à l'agent de prendre des décisions autonomes concernant les permissions, sans nécessiter une validation manuelle constante de l'utilisateur. Elle s'adresse particulièrement aux développeurs qui souhaitent déléguer davantage de tâches à l'IA tout en conservant un filet de sécurité. L'enjeu est de taille : Claude Code peut agir de manière indépendante, ce qui présente des risques réels comme la suppression de fichiers, la fuite de données sensibles ou l'exécution d'instructions malveillantes. L'auto mode vise à combler le fossé entre une supervision permanente — jugée contraignante — et une autonomie totale jugée dangereuse. Concrètement, le système détecte et bloque les actions potentiellement risquées avant leur exécution, tout en proposant à l'agent une alternative plus sûre. Anthropic positionne ainsi Claude Code dans un segment en pleine expansion : les outils d'IA « agentiques » capables d'agir seuls sur un poste de travail, un marché où la gestion des risques devient un argument commercial différenciant.

OutilsOutil
1 source
2Blog du Modérateur1h

ChatGPT enrichit son expérience shopping et abandonne Instant Checkout

OpenAI a mis à jour l'interface shopping de ChatGPT, la rendant plus visuelle et intuitive. La nouvelle version permet de comparer les produits plus facilement et introduit une recherche par image. En parallèle, la fonctionnalité Instant Checkout, qui permettait d'acheter directement depuis le chatbot, a été abandonnée. Ce repositionnement transforme ChatGPT en outil de découverte et de comparaison plutôt qu'en canal de vente directe. Cela redirige les utilisateurs vers les marchands pour finaliser leurs achats, ce qui soulage les tensions avec les retailers tout en conservant ChatGPT comme point d'entrée dans le parcours d'achat. Cette évolution s'inscrit dans la montée en puissance des assistants IA comme moteurs de recherche commerciale, en concurrence directe avec Google Shopping et Amazon.

OutilsOutil
1 source
3NVIDIA AI Blog1h

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Lors du match de l'Euro 2020 entre l'Angleterre et l'Allemagne, des millions de téléspectateurs britanniques ont allumé leur bouilloire à la mi-temps simultanément, provoquant un pic de demande d'environ 1 gigawatt sur le réseau électrique national — l'équivalent d'un réacteur nucléaire standard. C'est ce phénomène, surnommé le "TV pickup", qui a inspiré une démonstration inédite menée en décembre 2025 à Londres par Emerald AI, en collaboration avec NVIDIA, EPRI, National Grid et Nebius. L'expérience s'est déroulée dans une "usine IA" construite sur l'infrastructure NVIDIA de Nebius, équipée de 96 GPU NVIDIA Blackwell Ultra connectés via la plateforme InfiniBand NVIDIA Quantum-X800. En simulant ce même pic d'énergie lié au match de football, le cluster IA a automatiquement réduit sa consommation pour absorber le choc — sans interrompre les charges de travail prioritaires. Cette technologie, baptisée Emerald AI Conductor Platform, ouvre une perspective concrète pour la gestion des réseaux électriques sous tension. Les usines IA, habituellement perçues comme de nouveaux fardeau énergétiques, deviennent ici des actifs flexibles capables d'ajuster leur consommation en quelques secondes selon des signaux envoyés par les gestionnaires de réseau. Lors des tests, le système a respecté 100 % des plus de 200 cibles de puissance définies par EPRI et National Grid, couvrant non seulement les GPU mais aussi les CPU et l'ensemble des équipements informatiques. En pratique, cela signifie que le réseau peut gérer les pics de demande avec les capacités existantes, sans avoir à construire d'infrastructures permanentes surdimensionnées pour les scénarios les plus extrêmes — ce qui contribue directement à limiter la hausse des tarifs pour les consommateurs. Pour les opérateurs de centres de données, l'avantage est également majeur : cette flexibilité leur permet d'obtenir des raccordements au réseau bien plus rapidement, sans attendre des années de travaux d'infrastructure. Après des essais probants dans trois États américains — Arizona, Virginie et Illinois —, Emerald AI a transposé son approche au Royaume-Uni, dans un contexte où la croissance explosive des besoins énergétiques liés à l'IA met sous pression les gestionnaires de réseaux du monde entier.

UELes gestionnaires de réseaux européens confrontés à la même explosion des besoins énergétiques liés à l'IA pourraient adopter cette approche pour stabiliser leur réseau sans surinvestissement en infrastructures permanentes.

OutilsActu
1 source
4InfoQ AI1h

Podcast : [Vidéo] Systèmes agentiques sans chaos : premiers modèles opérationnels pour agents autonomes

Shweta Vohra et Joseph Stein consacrent un épisode de podcast à la question des systèmes agentiques — ces logiciels capables de planifier, d'agir et de prendre des décisions de manière autonome. Les deux experts y examinent ce qui distingue véritablement un agent IA d'une simple automatisation traditionnelle, et comment concevoir ces systèmes sans perdre le contrôle. La discussion porte sur les défis concrets pour les architectes et ingénieurs : comment définir les limites d'action d'un agent, comment orchestrer plusieurs agents entre eux, et quels modèles organisationnels adopter dès les premières phases de déploiement. L'enjeu est de tirer parti de l'autonomie de ces systèmes tout en évitant le chaos opérationnel. Le sujet s'inscrit dans une réflexion plus large sur la maturité croissante des agents IA, qui passent progressivement du statut d'assistants réactifs à celui d'acteurs autonomes dans les infrastructures logicielles.

OutilsOpinion
1 source