Aller au contenu principal
Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
OutilsAWS ML Blog6sem

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon Bedrock franchit un nouveau cap dans l'analyse vidéo en proposant trois architectures distinctes basées sur des modèles de fondation multimodaux, capables de comprendre simultanément le contenu visuel, audio et contextuel de vidéos à grande échelle. Cette solution open source, disponible sur GitHub, s'adresse aux entreprises confrontées à l'explosion des volumes de contenu vidéo — de la surveillance industrielle aux plateformes sociales.

L'enjeu est considérable : les méthodes traditionnelles d'analyse vidéo se heurtent à des limites structurelles. Les revues manuelles sont coûteuses et lentes, les systèmes basés sur des règles manquent de flexibilité, et la vision par ordinateur classique est aveugle au sens et au contexte. Les modèles multimodaux changent la donne en traitant conjointement information visuelle et textuelle, permettant ainsi de décrire des scènes, répondre à des questions sur le contenu ou détecter des événements complexes difficiles à définir programmatiquement.

La solution s'articule autour de trois workflows adaptés à des cas d'usage différents. L'approche frame-based échantillonne des images à intervalles fixes, élimine les doublons via deux méthodes distinctes — les embeddings vectoriels 256 dimensions de Nova Multimodal Embeddings (comparaison sémantique par distance cosinus, seuil par défaut à 0,2) ou la détection de features OpenCV ORB (Oriented FAST and Rotated BRIEF) pour une approche pixel-level plus légère. La transcription audio est assurée séparément par Amazon Transcribe, avec orchestration globale via AWS Step Functions.

Cette architecture modulaire permet aux organisations de calibrer finement le compromis entre coût, précision et latence selon leurs besoins — surveillance de conformité, contrôle qualité industriel ou modération de contenu — tout en s'appuyant sur l'infrastructure managée d'AWS.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Amazon Bedrock : comprendre le cycle de vie des modèles

Amazon Web Services a formalisé le cycle de vie des modèles de fondation (FM) disponibles sur sa plateforme Bedrock, en introduisant un cadre structuré en trois états distincts : Actif, Hérité (Legacy) et Fin de vie (EOL). Ce système vise à donner aux entreprises une visibilité suffisante pour planifier leurs migrations sans interruption de service. Concrètement, un modèle reste disponible au minimum 12 mois après son lancement, puis passe en état Legacy avec un préavis d'au moins 6 mois avant sa date de fin de vie. AWS a également introduit une nouvelle phase intermédiaire appelée "extended access" pour les modèles dont la fin de vie est postérieure au 1er février 2026 : après 3 mois en état Legacy, le modèle entre dans cette période d'accès étendu pendant laquelle les utilisateurs actifs peuvent continuer à l'utiliser au moins 3 mois supplémentaires. Durant cette fenêtre, les demandes d'augmentation de quota ne seront plus approuvées et les tarifs peuvent être ajustés par le fournisseur du modèle, avec notification préalable. Cet encadrement change concrètement la manière dont les équipes techniques doivent gérer leurs applications IA en production. Jusqu'ici, une fin de vie pouvait surprendre des équipes insuffisamment préparées, entraînant des pannes ou des migrations précipitées. Avec ce calendrier prévisible, les développeurs peuvent anticiper les transitions, tester les modèles de remplacement via la console Bedrock ou l'API, et adapter leur code sans urgence. L'état d'un modèle est désormais exposé directement dans les réponses API via le champ modelLifecycle, accessible lors d'appels GetFoundationModel ou ListFoundationModels. Il faut toutefois noter que les comptes inactifs en phase Legacy, c'est-à-dire n'ayant pas appelé le modèle pendant 15 jours ou plus, peuvent perdre l'accès prématurément. La migration vers un nouveau modèle reste une action manuelle : rien ne se fait automatiquement lorsqu'un modèle atteint sa date EOL. Cette politique s'inscrit dans un contexte où Amazon Bedrock multiplie les modèles disponibles, provenant de fournisseurs comme Anthropic, Meta, Mistral ou Cohere, chacun avec ses propres cycles de mise à jour. À mesure que ces modèles évoluent rapidement, l'accumulation de versions obsolètes pose des problèmes de maintenance et de sécurité pour AWS comme pour ses clients. En clarifiant les règles du jeu, AWS cherche à professionnaliser la gestion du cycle de vie des IA en entreprise, sur le modèle de ce que font déjà les plateformes cloud pour leurs APIs et services logiciels. La prochaine étape pour les équipes utilisant Bedrock sera d'intégrer ces états dans leurs processus de surveillance et d'alerte, afin de ne jamais être pris de court lors d'une transition de modèle.

UELes entreprises européennes utilisant Amazon Bedrock doivent intégrer ce nouveau cadre de cycle de vie dans leurs processus de gestion des applications IA en production pour éviter des interruptions de service.

OutilsOpinion
1 source
2AWS ML Blog 

Optimiser la recherche sémantique vidéo avec la distillation de modèles Amazon Nova sur Amazon Bedrock

Amazon Web Services a publié un tutoriel détaillé expliquant comment utiliser la technique de distillation de modèles sur Amazon Bedrock pour optimiser les systèmes de recherche sémantique vidéo. Le cœur du problème : les modèles de grande taille comme Claude Haiku d'Anthropic offrent une excellente précision pour interpréter l'intention de recherche des utilisateurs, mais ils allongent le temps de réponse à 2 à 4 secondes, représentant à eux seuls 75 % de la latence totale. La solution proposée consiste à transférer l'intelligence de routage d'un grand modèle dit "enseignant", Amazon Nova Premier, vers un modèle beaucoup plus léger dit "étudiant", Amazon Nova Micro. Le résultat : une réduction des coûts d'inférence de plus de 95 % et une baisse de la latence de 50 %, sans sacrifier la qualité de routage. L'enjeu est considérable pour les entreprises qui gèrent de larges catalogues vidéo. Lorsqu'un utilisateur tape "Olivia qui parle de son enfance dans la pauvreté", le système doit décider automatiquement quels aspects de la vidéo interroger en priorité : les métadonnées textuelles, la transcription audio, les données visuelles ou les informations structurées. Cette logique de routage devient rapidement complexe à l'échelle enterprise, où les attributs peuvent inclure les angles de caméra, le sentiment, les droits de diffusion ou des taxonomies métier propriétaires. Un modèle plus petit et distillé qui maîtrise cette tâche précise permet de traiter davantage de requêtes simultanément, à un coût marginal quasi nul, ce qui change fondamentalement l'équation économique des moteurs de recherche multimodaux. La distillation de modèles se distingue du fine-tuning supervisé classique par un avantage pratique majeur : elle ne nécessite pas de dataset entièrement étiqueté par des humains. Amazon Bedrock génère automatiquement jusqu'à 15 000 paires prompt-réponse en interrogeant le modèle enseignant, en appliquant des techniques de synthèse et d'augmentation de données. Dans ce pipeline, 10 000 exemples synthétiques ont été produits via Nova Premier, chargés sur Amazon S3, puis utilisés pour entraîner Nova Micro. Le modèle résultant est ensuite évalué via Amazon Bedrock Model Evaluation, comparé à la base Nova Micro et au Claude Haiku original. AWS a publié l'intégralité du notebook Jupyter, le script de génération des données et les utilitaires d'évaluation sur GitHub, rendant cette approche reproductible pour toute équipe souhaitant industrialiser la recherche vidéo à grande échelle.

OutilsTuto
1 source
3AWS ML Blog 

Recherche sémantique vidéo avec Amazon Nova Multimodal Embeddings

Amazon a lancé Nova Multimodal Embeddings, un modèle d'embedding unifié disponible sur Amazon Bedrock, capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans un espace vectoriel sémantique commun. L'objectif est de résoudre un problème concret qui freine l'industrie audiovisuelle : permettre de rechercher dans des vidéos par le sens, et non par des mots-clés exacts. Concrètement, le modèle génère des vecteurs de 1 024 dimensions qui encodent à la fois les signaux visuels et audio d'un segment vidéo, stockés ensuite dans Amazon S3. L'architecture de référence publiée par Amazon combine une phase d'ingestion en six étapes, upload dans S3, découpage en plans via FFmpeg sur AWS Fargate, traitement parallèle avec embeddings visuels/audio, transcription via Amazon Transcribe, et détection de célébrités via Amazon Rekognition, et une phase de recherche hybride qui fusionne recherche sémantique et lexicale pour produire une liste de résultats classés. L'enjeu est majeur pour tous les secteurs qui gèrent des bibliothèques vidéo volumineuses. Une chaîne sportive peut désormais retrouver instantanément le moment précis où un joueur marque, un studio peut identifier chaque scène d'un acteur dans des milliers d'heures d'archives, et une rédaction peut extraire des images par ambiance, lieu ou événement pour publier plus vite que ses concurrents. Ce qui change fondamentalement, c'est que la recherche n'est plus limitée au dialogue ou aux métadonnées textuelles : une requête comme "une course-poursuite tendue avec des sirènes" retrouve à la fois l'événement visuel et l'événement sonore sans que l'un ou l'autre ait besoin d'être transcrit. La précision de recherche s'améliore donc sur les contenus riches en action, en musique ou en sons d'ambiance, là où les approches textuelles échouaient systématiquement. L'approche dominante jusqu'ici consistait à convertir toute la vidéo en texte, transcription automatique, sous-titrage, tags manuels, puis à appliquer des embeddings textuels classiques. Cette méthode souffre de deux limites structurelles : la dimension temporelle disparaît dans la conversion, et les erreurs de transcription se propagent dès que la qualité audio ou visuelle est insuffisante. Amazon positionne Nova Multimodal Embeddings comme une rupture avec ce paradigme, en traitant nativement toutes les modalités sans passer par le texte comme pivot. Le modèle s'inscrit dans une compétition directe avec les offres multimodales de Google et OpenAI sur le segment des embeddings haute précision. Amazon met à disposition une implémentation de référence déployable, signalant une volonté de s'imposer rapidement comme infrastructure de référence pour la recherche vidéo à grande échelle.

UELes entreprises et médias européens gérant de grandes bibliothèques vidéo sur AWS peuvent désormais implémenter une recherche sémantique multimodale native sans infrastructure supplémentaire.

OutilsOpinion
1 source
Amazon Bedrock AgentCore Browser : actions au niveau du système d'exploitation
4AWS ML Blog 

Amazon Bedrock AgentCore Browser : actions au niveau du système d'exploitation

Amazon a annoncé cette semaine l'ajout des OS Level Actions à AgentCore Browser, son environnement de navigation isolé et sécurisé disponible dans la plateforme Bedrock. Cette nouvelle capacité est accessible via l'API InvokeBrowser sans configuration supplémentaire pour les sessions existantes comme pour les nouvelles. Elle expose huit actions réparties en trois catégories : contrôle de la souris (clics, positionnement), saisie clavier (touches, raccourcis) et capture visuelle (screenshot plein écran en PNG encodé base64). Le principe de fonctionnement repose sur une boucle action-screenshot-réaction : l'agent exécute une action, capture l'état de l'écran, l'envoie à un modèle de vision pour décider de la prochaine étape, et recommence. Chaque appel API transporte une seule action identifiée par son type et ses arguments, et renvoie un statut SUCCESS ou FAILED lié à la session via l'en-tête x-amzn-browser-session-id. Ce lancement répond à une limite structurelle des outils d'automatisation web actuels. Playwright et le Chrome DevTools Protocol (CDP) opèrent exclusivement dans la couche DOM du navigateur : ils ne voient pas, et ne peuvent donc pas interagir avec, tout ce que le système d'exploitation génère en dehors de cette couche. Les boîtes de dialogue natives comme les demandes d'impression (window.print()), les invites de sécurité Windows ou macOS, les sélecteurs de certificats ou encore les menus contextuels sont totalement invisibles pour CDP. Pour les agents dotés de vision, ce blocage était particulièrement frustrant : le modèle pouvait observer précisément ce qu'il fallait faire sur le screenshot, mais n'avait aucun mécanisme pour agir. Les OS Level Actions comblent exactement ce vide en donnant à l'agent un contrôle direct au niveau du bureau complet, pas seulement du contenu web. Cette annonce s'inscrit dans la montée en puissance des agents d'automatisation web déployés en production, où les workflows réels font surface à des états applicatifs imprévisibles que les tests ne reproduisent pas. La couche DOM est suffisante dans la majorité des scénarios, mais les cas limites, configuration OS spécifique, permissions utilisateur, applications hybrides web-natif, se produisent régulièrement à l'échelle. Amazon positionne AgentCore Browser comme une infrastructure complète pour les agents autonomes, capable de gérer aussi bien le web standard que les interfaces natives du système. L'intégration dans Bedrock suggère que cette fonctionnalité sera prochainement exploitée par des agents construits avec d'autres services de la plateforme, notamment les modèles Claude d'Anthropic disponibles via Bedrock, qui disposent déjà de capacités d'utilisation d'outils et de vision avancées.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour