Aller au contenu principal
Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
OutilsAWS ML Blog12sem· 1 min de lecture

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Source originale ↗·

Amazon Bedrock franchit un nouveau cap dans l'analyse vidéo en proposant trois architectures distinctes basées sur des modèles de fondation multimodaux, capables de comprendre simultanément le contenu visuel, audio et contextuel de vidéos à grande échelle. Cette solution open source, disponible sur GitHub, s'adresse aux entreprises confrontées à l'explosion des volumes de contenu vidéo — de la surveillance industrielle aux plateformes sociales.

L'enjeu est considérable : les méthodes traditionnelles d'analyse vidéo se heurtent à des limites structurelles. Les revues manuelles sont coûteuses et lentes, les systèmes basés sur des règles manquent de flexibilité, et la vision par ordinateur classique est aveugle au sens et au contexte. Les modèles multimodaux changent la donne en traitant conjointement information visuelle et textuelle, permettant ainsi de décrire des scènes, répondre à des questions sur le contenu ou détecter des événements complexes difficiles à définir programmatiquement.

La solution s'articule autour de trois workflows adaptés à des cas d'usage différents. L'approche frame-based échantillonne des images à intervalles fixes, élimine les doublons via deux méthodes distinctes — les embeddings vectoriels 256 dimensions de Nova Multimodal Embeddings (comparaison sémantique par distance cosinus, seuil par défaut à 0,2) ou la détection de features OpenCV ORB (Oriented FAST and Rotated BRIEF) pour une approche pixel-level plus légère. La transcription audio est assurée séparément par Amazon Transcribe, avec orchestration globale via AWS Step Functions.

Cette architecture modulaire permet aux organisations de calibrer finement le compromis entre coût, précision et latence selon leurs besoins — surveillance de conformité, contrôle qualité industriel ou modération de contenu — tout en s'appuyant sur l'infrastructure managée d'AWS.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AgentOps : déployer des agents IA à grande échelle avec Amazon Bedrock AgentCore
1AWS ML Blog 

AgentOps : déployer des agents IA à grande échelle avec Amazon Bedrock AgentCore

Amazon Web Services a présenté AgentOps, une nouvelle discipline opérationnelle pour déployer, gérer et améliorer les agents IA en production, en s'appuyant sur sa plateforme Amazon Bedrock AgentCore. Publié début juin 2026, ce cadre de référence s'articule autour de quatre piliers : gouvernance et sécurité, construction et opérations, évaluation, et observabilité. Bedrock AgentCore permet de déployer des agents IA compatibles avec n'importe quel modèle de langage et n'importe quel framework open source, en passant du développement local à la production sans gérer d'infrastructure. AWS propose une architecture de référence complète couvrant l'ensemble du cycle de vie DevOps adapté aux agents : planification, développement, construction, test, déploiement et maintenance. Le besoin derrière AgentOps est concret : contrairement aux pipelines classiques, les agents IA prennent des décisions autonomes et non déterministes, ce qui rend le débogage difficile, les coûts imprévisibles et le contrôle qualité complexe. AgentOps répond à ces défis en traitant chaque agent, outil et configuration mémoire comme un artefact versionné avec son propre pipeline CI/CD. L'évaluation s'effectue à quatre niveaux : l'outil individuel, le tour de conversation, le résultat de session et le système global, aussi bien en développement qu'en production. L'observabilité couvre quatre couches de télémétrie pour tracer chaque décision d'agent, surveiller les baisses de qualité et mesurer le coût par interaction. Ce lancement s'inscrit dans une course industrielle autour de l'IA agentique, où AWS, Google, Microsoft et OpenAI cherchent à proposer des plateformes complètes pour industrialiser le déploiement d'agents. La complexité opérationnelle croissante, notamment la gestion des identités d'agents, des protocoles d'authentification inter-agents (A2A), du Model Context Protocol (MCP) et des mécanismes de contrôle humain (human-in-the-loop), pousse les entreprises à chercher des cadres structurés. Amazon Bedrock AgentCore se positionne comme une réponse cloud-native à ces enjeux, en intégrant nativement sécurité, registre d'outils, gestion de l'état et limites d'exécution. Les suites prévisibles incluent l'adoption de ces pratiques AgentOps dans les grandes organisations, ainsi qu'une pression croissante sur les équipes DevOps pour adapter leurs outils et processus à la nature non déterministe des systèmes agentiques.

UELes entreprises françaises et européennes déployant des agents IA sur AWS peuvent adopter ce cadre AgentOps pour structurer leurs pipelines CI/CD et leur observabilité, sans impact réglementaire spécifique à la France ou l'UE.

OutilsActu
1 source
2AWS ML Blog 

Amazon Bedrock : comprendre le cycle de vie des modèles

Amazon Web Services a formalisé le cycle de vie des modèles de fondation (FM) disponibles sur sa plateforme Bedrock, en introduisant un cadre structuré en trois états distincts : Actif, Hérité (Legacy) et Fin de vie (EOL). Ce système vise à donner aux entreprises une visibilité suffisante pour planifier leurs migrations sans interruption de service. Concrètement, un modèle reste disponible au minimum 12 mois après son lancement, puis passe en état Legacy avec un préavis d'au moins 6 mois avant sa date de fin de vie. AWS a également introduit une nouvelle phase intermédiaire appelée "extended access" pour les modèles dont la fin de vie est postérieure au 1er février 2026 : après 3 mois en état Legacy, le modèle entre dans cette période d'accès étendu pendant laquelle les utilisateurs actifs peuvent continuer à l'utiliser au moins 3 mois supplémentaires. Durant cette fenêtre, les demandes d'augmentation de quota ne seront plus approuvées et les tarifs peuvent être ajustés par le fournisseur du modèle, avec notification préalable. Cet encadrement change concrètement la manière dont les équipes techniques doivent gérer leurs applications IA en production. Jusqu'ici, une fin de vie pouvait surprendre des équipes insuffisamment préparées, entraînant des pannes ou des migrations précipitées. Avec ce calendrier prévisible, les développeurs peuvent anticiper les transitions, tester les modèles de remplacement via la console Bedrock ou l'API, et adapter leur code sans urgence. L'état d'un modèle est désormais exposé directement dans les réponses API via le champ modelLifecycle, accessible lors d'appels GetFoundationModel ou ListFoundationModels. Il faut toutefois noter que les comptes inactifs en phase Legacy, c'est-à-dire n'ayant pas appelé le modèle pendant 15 jours ou plus, peuvent perdre l'accès prématurément. La migration vers un nouveau modèle reste une action manuelle : rien ne se fait automatiquement lorsqu'un modèle atteint sa date EOL. Cette politique s'inscrit dans un contexte où Amazon Bedrock multiplie les modèles disponibles, provenant de fournisseurs comme Anthropic, Meta, Mistral ou Cohere, chacun avec ses propres cycles de mise à jour. À mesure que ces modèles évoluent rapidement, l'accumulation de versions obsolètes pose des problèmes de maintenance et de sécurité pour AWS comme pour ses clients. En clarifiant les règles du jeu, AWS cherche à professionnaliser la gestion du cycle de vie des IA en entreprise, sur le modèle de ce que font déjà les plateformes cloud pour leurs APIs et services logiciels. La prochaine étape pour les équipes utilisant Bedrock sera d'intégrer ces états dans leurs processus de surveillance et d'alerte, afin de ne jamais être pris de court lors d'une transition de modèle.

UELes entreprises européennes utilisant Amazon Bedrock doivent intégrer ce nouveau cadre de cycle de vie dans leurs processus de gestion des applications IA en production pour éviter des interruptions de service.

OutilsOpinion
1 source
3AWS ML Blog 

Optimiser la recherche sémantique vidéo avec la distillation de modèles Amazon Nova sur Amazon Bedrock

Amazon Web Services a publié un tutoriel détaillé expliquant comment utiliser la technique de distillation de modèles sur Amazon Bedrock pour optimiser les systèmes de recherche sémantique vidéo. Le cœur du problème : les modèles de grande taille comme Claude Haiku d'Anthropic offrent une excellente précision pour interpréter l'intention de recherche des utilisateurs, mais ils allongent le temps de réponse à 2 à 4 secondes, représentant à eux seuls 75 % de la latence totale. La solution proposée consiste à transférer l'intelligence de routage d'un grand modèle dit "enseignant", Amazon Nova Premier, vers un modèle beaucoup plus léger dit "étudiant", Amazon Nova Micro. Le résultat : une réduction des coûts d'inférence de plus de 95 % et une baisse de la latence de 50 %, sans sacrifier la qualité de routage. L'enjeu est considérable pour les entreprises qui gèrent de larges catalogues vidéo. Lorsqu'un utilisateur tape "Olivia qui parle de son enfance dans la pauvreté", le système doit décider automatiquement quels aspects de la vidéo interroger en priorité : les métadonnées textuelles, la transcription audio, les données visuelles ou les informations structurées. Cette logique de routage devient rapidement complexe à l'échelle enterprise, où les attributs peuvent inclure les angles de caméra, le sentiment, les droits de diffusion ou des taxonomies métier propriétaires. Un modèle plus petit et distillé qui maîtrise cette tâche précise permet de traiter davantage de requêtes simultanément, à un coût marginal quasi nul, ce qui change fondamentalement l'équation économique des moteurs de recherche multimodaux. La distillation de modèles se distingue du fine-tuning supervisé classique par un avantage pratique majeur : elle ne nécessite pas de dataset entièrement étiqueté par des humains. Amazon Bedrock génère automatiquement jusqu'à 15 000 paires prompt-réponse en interrogeant le modèle enseignant, en appliquant des techniques de synthèse et d'augmentation de données. Dans ce pipeline, 10 000 exemples synthétiques ont été produits via Nova Premier, chargés sur Amazon S3, puis utilisés pour entraîner Nova Micro. Le modèle résultant est ensuite évalué via Amazon Bedrock Model Evaluation, comparé à la base Nova Micro et au Claude Haiku original. AWS a publié l'intégralité du notebook Jupyter, le script de génération des données et les utilitaires d'évaluation sur GitHub, rendant cette approche reproductible pour toute équipe souhaitant industrialiser la recherche vidéo à grande échelle.

OutilsTuto
1 source
L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle
4AWS ML Blog 

L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle

Vexcel, l'un des plus grands fournisseurs mondiaux d'imagerie aérienne, opère une flotte d'avions dédiés qui collecte des données haute résolution dans plus de 45 pays et territoires. Son catalogue comprend des orthomosaïques, des vues obliques à 360 degrés et des modèles d'élévation représentant des milliards de pixels. En partenariat avec le AWS Generative AI Innovation Center (GenAIIC), l'entreprise a développé une architecture de recherche sémantique reposant sur des embeddings multimodaux, la génération automatique de légendes par un grand modèle de langage, et une recherche vectorielle via Amazon Bedrock et Amazon OpenSearch Serverless. L'objectif : permettre à un utilisateur d'interroger cette immense bibliothèque d'images en langage naturel, sans entraîner de modèle de vision par ordinateur pour chaque nouveau cas d'usage. Les tests ont montré qu'Amazon Nova Multimodal Embeddings obtenait les meilleurs scores F1 sur l'ensemble des requêtes de référence évaluées. Ce système a depuis évolué en Vexcel Intelligence, un produit actuellement en phase de prévisualisation. L'enjeu est considérable pour tous les secteurs qui s'appuient sur des données géospatiales : assurance, immobilier, administration publique, infrastructures et agriculture. Jusqu'ici, localiser des piscines dans un quartier résidentiel, cartographier des panneaux solaires à l'échelle d'une ville ou détecter des graffitis sur des entrepôts obligeait soit à examiner manuellement chaque tuile d'image, soit à entraîner un modèle de vision dédié pour chaque question, avec les données étiquetées, le temps d'ingénierie et les cycles de ré-entraînement que cela implique. La recherche sémantique par vecteurs supprime cette étape : une requête en langage naturel produit des résultats en quelques secondes, sans redévelopper de pipeline spécifique pour chaque nouveau besoin client. C'est un changement de paradigme opérationnel qui compresse des semaines de travail en une simple interrogation. La recherche géospatiale pose des défis structurels absents de la recherche d'images classique : une même zone est représentée par plusieurs vues simultanées (nadir, oblique nord, est, sud, ouest), et les requêtes portent sur des objets physiques ancrés dans l'espace réel plutôt que sur des photographies isolées. Vexcel avait exploré trois approches préalables avant ce partenariat, dont un pipeline d'embeddings multimodaux tuilés avec légendes LLM qui montrait des résultats prometteurs mais soulevait des questions clés sur le choix du modèle, la fusion des vues multiples et la réelle valeur ajoutée des légendes textuelles. L'équipe a construit une méthodologie d'évaluation ancrée dans les données OpenStreetMap pour comparer quatre variables : modèle d'embedding, stratégie de fusion, approche de légendage et méthode de recherche. Vexcel Intelligence, désormais en prévisualisation, concrétise ces travaux et transforme des décennies de collecte aérienne en une base de connaissance interrogeable à la demande.

UELes assureurs, collectivités et acteurs de l'immobilier européens utilisant des données géospatiales aériennes pourraient adopter Vexcel Intelligence pour remplacer des pipelines de vision par ordinateur coûteux par une simple recherche en langage naturel.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic