Aller au contenu principal
Amazon Nova Multimodal Embeddings au service de l'intelligence industrielle
OutilsAWS ML Blog1h

Amazon Nova Multimodal Embeddings au service de l'intelligence industrielle

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon a présenté Nova Multimodal Embeddings, un modèle disponible sur sa plateforme Bedrock capable de traiter simultanément du texte, des images et des pages de documents en les projetant dans un espace vectoriel commun. Concrètement, une requête textuelle peut désormais retrouver un schéma d'ingénierie, et inversement, une image peut servir de requête pour récupérer une spécification écrite, les deux modalités partagent le même système de coordonnées mathématiques. Pour démontrer l'intérêt du système, les ingénieurs d'Amazon ont construit un pipeline de recherche documentaire appliqué à des documents d'ingénierie aérospatiale, en l'évaluant sur 26 requêtes types et en comparant les résultats avec une pipeline classique basée uniquement sur du texte. Le modèle propose quatre niveaux de dimensions d'embedding configurables : 256, 384, 1 024 et 3 072, avec un mode spécifique appelé DOCUMENT_IMAGE conçu pour les pages à contenu mixte.

L'enjeu est particulièrement critique pour les secteurs industriels comme l'aérospatial, l'automobile ou la fabrication lourde, où les documents techniques mêlent systématiquement du texte à des courbes de fatigue, des diagrammes CAO, des photographies d'inspection ou des cartographies thermiques. Un système de recherche purement textuel, même assisté d'OCR, rate ces informations visuelles : il peut mal interpréter les annotations sur un schéma en coupe, ignorer les relations spatiales dans un diagramme, ou rater une valeur de couple encodée graphiquement dans un plan d'ingénierie plutôt qu'écrite dans un paragraphe. Avec les embeddings multimodaux, le modèle traite l'image directement et génère un vecteur dans le même espace que le texte, ce qui permet, par exemple, de retrouver la section d'un schéma de turbopompe en posant simplement une question en langage naturel sur le type de roulements utilisés.

Cette approche s'inscrit dans une compétition plus large entre les fournisseurs cloud pour dominer l'infrastructure des systèmes RAG (retrieval-augmented generation) d'entreprise. Amazon positionne Nova Multimodal Embeddings comme une brique native de Bedrock, couplée à Amazon S3 Vectors pour le stockage et la recherche de proximité, ce qui réduit la friction d'intégration pour les équipes déjà dans l'écosystème AWS. La capacité à unifier texte et image dans un même index vectoriel répond à un blocage réel pour les industries à forte documentation technique, où une fraction significative de la connaissance métier est piégée dans des visuels non interrogeables. Les prochaines étapes naturelles concerneront la prise en charge de vidéos et de documents multi-pages complexes, ainsi que l'extension à d'autres secteurs comme la médecine ou le droit, où les mêmes limites de l'OCR s'appliquent.

Impact France/UE

Les secteurs industriels européens à forte documentation technique, aérospatial, automobile, fabrication lourde, peuvent directement exploiter cet outil via AWS Bedrock pour améliorer leurs systèmes RAG sur des archives mixtes texte-image, sans impact réglementaire direct sur la France ou l'UE.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Recherche sémantique vidéo avec Amazon Nova Multimodal Embeddings

Amazon a lancé Nova Multimodal Embeddings, un modèle d'embedding unifié disponible sur Amazon Bedrock, capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans un espace vectoriel sémantique commun. L'objectif est de résoudre un problème concret qui freine l'industrie audiovisuelle : permettre de rechercher dans des vidéos par le sens, et non par des mots-clés exacts. Concrètement, le modèle génère des vecteurs de 1 024 dimensions qui encodent à la fois les signaux visuels et audio d'un segment vidéo, stockés ensuite dans Amazon S3. L'architecture de référence publiée par Amazon combine une phase d'ingestion en six étapes, upload dans S3, découpage en plans via FFmpeg sur AWS Fargate, traitement parallèle avec embeddings visuels/audio, transcription via Amazon Transcribe, et détection de célébrités via Amazon Rekognition, et une phase de recherche hybride qui fusionne recherche sémantique et lexicale pour produire une liste de résultats classés. L'enjeu est majeur pour tous les secteurs qui gèrent des bibliothèques vidéo volumineuses. Une chaîne sportive peut désormais retrouver instantanément le moment précis où un joueur marque, un studio peut identifier chaque scène d'un acteur dans des milliers d'heures d'archives, et une rédaction peut extraire des images par ambiance, lieu ou événement pour publier plus vite que ses concurrents. Ce qui change fondamentalement, c'est que la recherche n'est plus limitée au dialogue ou aux métadonnées textuelles : une requête comme "une course-poursuite tendue avec des sirènes" retrouve à la fois l'événement visuel et l'événement sonore sans que l'un ou l'autre ait besoin d'être transcrit. La précision de recherche s'améliore donc sur les contenus riches en action, en musique ou en sons d'ambiance, là où les approches textuelles échouaient systématiquement. L'approche dominante jusqu'ici consistait à convertir toute la vidéo en texte, transcription automatique, sous-titrage, tags manuels, puis à appliquer des embeddings textuels classiques. Cette méthode souffre de deux limites structurelles : la dimension temporelle disparaît dans la conversion, et les erreurs de transcription se propagent dès que la qualité audio ou visuelle est insuffisante. Amazon positionne Nova Multimodal Embeddings comme une rupture avec ce paradigme, en traitant nativement toutes les modalités sans passer par le texte comme pivot. Le modèle s'inscrit dans une compétition directe avec les offres multimodales de Google et OpenAI sur le segment des embeddings haute précision. Amazon met à disposition une implémentation de référence déployable, signalant une volonté de s'imposer rapidement comme infrastructure de référence pour la recherche vidéo à grande échelle.

UELes entreprises et médias européens gérant de grandes bibliothèques vidéo sur AWS peuvent désormais implémenter une recherche sémantique multimodale native sans infrastructure supplémentaire.

OutilsOpinion
1 source
Amazon Nova Embeddings : construire un moteur de recherche audio intelligent par analyse sémantique
2AWS ML Blog 

Amazon Nova Embeddings : construire un moteur de recherche audio intelligent par analyse sémantique

Amazon a lancé le 28 octobre 2025 Amazon Nova Multimodal Embeddings, un modèle d'embedding unifié disponible via Amazon Bedrock, capable de traiter simultanément du texte, des documents, des images, des vidéos et de l'audio au sein d'un seul et même système. Concrètement, ce modèle convertit n'importe quel contenu audio en vecteurs numériques denses dans un espace à haute dimension, avec quatre options de taille : 3 072 dimensions (par défaut), 1 024, 384 ou 256. Chaque vecteur encode à la fois les propriétés acoustiques d'un son, rythme, hauteur tonale, timbre, couleur émotionnelle, et son sens sémantique. Deux extraits musicaux similaires, par exemple un violon et un violoncelle jouant la même mélodie, obtiendront une similarité cosinus de 0,87, les plaçant proches dans cet espace vectoriel, tandis qu'un morceau de rock avec batterie n'obtiendra que 0,23 face à ces mêmes clips. L'enjeu est considérable pour tous ceux qui gèrent de grandes bibliothèques audio : studios de production, plateformes de podcast, services de streaming, équipes de post-production. Les méthodes traditionnelles, transcription manuelle, balisage de métadonnées, conversion parole-texte, ne capturent que le contenu linguistique. Elles sont aveugles aux propriétés acoustiques pures : l'ambiance d'une pièce, l'émotion dans une voix, le genre musical, les sons environnementaux. Nova Multimodal Embeddings comble ce vide en permettant des requêtes en langage naturel comme "musique mélancolique avec piano" ou "bruit de foule dans un stade", sans qu'aucune transcription préalable ne soit nécessaire. Le résultat est une recherche sémantique sur le son lui-même, pas seulement sur ses métadonnées. Le modèle repose sur une technique appelée Matryoshka Representation Learning (MRL), qui structure les embeddings de façon hiérarchique, à la manière des poupées russes : un vecteur de 3 072 dimensions contient toute l'information, mais on peut tronquer aux 256 premières dimensions et conserver des résultats précis. Cela permet de générer les embeddings une seule fois, puis d'ajuster la taille selon les contraintes de coût de stockage ou de performance, sans retraiter l'audio. Cette approche s'inscrit dans la tendance plus large des modèles d'embedding multimodaux unifiés, où Amazon rivalise directement avec Google (Vertex AI Embeddings) et OpenAI (CLIP, Whisper). L'intégration native dans Bedrock facilite le déploiement en production via des bases de données vectorielles compatibles k-NN. La prochaine étape logique sera l'intégration de ces capacités dans des pipelines RAG (retrieval-augmented generation) pour des agents conversationnels capables de répondre à des questions sur du contenu audio sans intervention humaine préalable.

UELes studios de production, plateformes de podcast et services de streaming européens peuvent intégrer cette API via Amazon Bedrock pour améliorer leurs moteurs de recherche audio sémantique.

OutilsOutil
1 source
L'IA au service de la mode : quand la créativité humaine rencontre l'intelligence artificielle
3MarkTechPost 

L'IA au service de la mode : quand la créativité humaine rencontre l'intelligence artificielle

Plus de 45 % des marques mondiales de prêt-à-porter ont intégré des outils de conception assistés par l'intelligence artificielle d'ici 2026, selon le rapport annuel State of Fashion publié par McKinsey. Des plateformes comme Adobe Firefly, Midjourney ou Fashion Diffusion permettent désormais aux designers de générer des planches d'inspiration, des croquis et même des prototypes 3D à partir de simples descriptions textuelles. La société parisienne Heuritech, spécialisée dans la prévision de tendances par IA, analyse simultanément des flux de données textuelles, visuelles et vidéo pour cartographier l'émergence et le déclin des micro-tendances plusieurs saisons à l'avance, là où des acteurs historiques comme WGSN travaillaient déjà sur des cycles de quatre à cinq saisons. Les marques disposent aujourd'hui de tableaux de bord en temps réel croisant retours clients et signaux de tendances, une capacité qui aurait été impensable il y a dix ans. L'impact est double : industriel d'un côté, démocratisant de l'autre. Du côté des grandes enseignes, l'IA compresse les délais de développement produit, réduit les cycles d'itération et aligne la production sur la demande réelle grâce à des modèles prédictifs, limitant ainsi la surproduction. Du côté des créateurs émergents et des étudiants, l'accès à des versions gratuites ou académiques de ces outils leur permet de construire des portfolios et de tester des concepts visuels sans les coûts prohibitifs des ateliers traditionnels. La prévision de tendances, autrefois réservée aux acheteurs qui assistaient aux défilés, est désormais alimentée par chaque influenceur connecté, accélérant un cycle où la mode se propage et se périme plus vite que jamais. La question environnementale donne à cette transformation une urgence supplémentaire. L'industrie textile est responsable de 2 à 8 % des émissions mondiales de CO2 et de 20 % des eaux usées produites dans le monde, ce qui en fait l'un des secteurs les plus polluants après l'énergie. L'IA s'attaque directement à ce problème : les modèles d'optimisation de la demande réduisent les stocks invendus, tandis que l'échantillonnage numérique diminue le gaspillage de tissu en remplaçant les prototypes physiques. Ce virage technologique intervient dans un contexte où la pression réglementaire et consumériste sur la durabilité s'intensifie, forçant une industrie structurellement conservatrice à repenser non seulement son esthétique, mais l'ensemble de sa chaîne de valeur, de l'esquisse au point de vente.

UEHeuritech, entreprise parisienne spécialisée dans la prévision de tendances par IA, illustre le positionnement français dans la transformation numérique d'un secteur soumis à une pression réglementaire européenne croissante sur la durabilité textile.

OutilsOutil
1 source
Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride
4AWS ML Blog 

Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride

Amazon a présenté une approche technique détaillée pour construire des assistants d'IA générative de nouvelle génération, combinant Amazon Bedrock, Amazon Bedrock AgentCore, le framework Strands Agents et Amazon OpenSearch dans une architecture dite "RAG hybride" (Retrieval-Augmented Generation). Ces systèmes, plus sophistiqués que de simples chatbots, sont capables de mener des conversations en plusieurs étapes, d'adapter leurs réponses aux besoins spécifiques de chaque utilisateur, et d'exécuter des tâches en arrière-plan telles que des appels d'API ou des requêtes en base de données en temps réel. L'exemple concret illustré dans l'article est celui d'un assistant de réservation hôtelière : l'agent interroge d'abord une base de données pour identifier les établissements correspondant aux critères du client, puis effectue des appels API pour récupérer disponibilités et tarifs actuels, avant de synthétiser ces informations dans une réponse cohérente. Le coeur de l'innovation réside dans la combinaison de deux approches de recherche d'information : la recherche textuelle classique par mots-clés et la recherche sémantique vectorielle. Cette dernière repose sur des embeddings vectoriels précalculés, stockés dans des bases de données vectorielles comme OpenSearch, qui permettent de trouver des résultats pertinents même lorsque les termes exacts ne correspondent pas. Le système convertit la requête de l'utilisateur en vecteur numérique et identifie les contenus les plus proches dans un espace à haute dimension, en utilisant des métriques de distance comme la similarité cosinus. Un exemple frappant illustre la puissance de cette approche : pour la requête "2x4 lumber board", le système sémantique identifie "building materials" comme résultat pertinent, là où une recherche lexicale aurait échoué. Cette capacité d'alignement sémantique est particulièrement précieuse pour les entreprises dont les bases de connaissances métier utilisent une terminologie différente de celle employée par leurs clients. Cette publication s'inscrit dans la stratégie d'Amazon Web Services de positionner Bedrock comme la plateforme centrale pour le déploiement d'agents d'IA en entreprise. Le RAG hybride répond à un défi bien documenté des LLMs : leur incapacité à accéder nativement à des données récentes ou propriétaires. En greffant une couche de récupération dynamique sur des modèles comme ceux disponibles via Bedrock, AWS propose une alternative aux solutions de fine-tuning, plus coûteuses et moins flexibles. La concurrence dans ce segment est intense, avec des offres similaires chez Microsoft Azure (Azure AI Search) et Google Cloud (Vertex AI Search). L'intégration native d'OpenSearch dans cet écosystème renforce l'attrait pour les entreprises déjà clientes AWS, tandis que l'introduction de Bedrock AgentCore signale une montée en gamme vers des architectures multi-agents plus complexes, capables d'orchestrer plusieurs outils et sources de données simultanément.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour