OutilsMarkTechPost6sem· 2 min de lecture

Guide de mise en oeuvre d'un système de recherche vectorielle sémantique, hybride et quantifiée avec pgvector

Un tutoriel publié sur Analytics Vidhya propose une implémentation complète d'un système de recherche vectorielle avancé en s'appuyant uniquement sur PostgreSQL et l'extension pgvector, le tout exécutable directement dans Google Colab. Le guide couvre l'installation de PostgreSQL, la compilation de pgvector depuis les sources, la connexion via Psycopg, puis la création d'embeddings avec le modèle open-source SentenceTransformers all-MiniLM-L6-v2 (384 dimensions). Les vecteurs sont stockés dans des tables PostgreSQL classiques, indexés avec des index HNSW (Hierarchical Navigable Small World), puis interrogés selon plusieurs modalités : recherche sémantique, recherche filtrée par catégorie, comparaison de métriques de distance (cosinus, L2, produit scalaire), stockage en demi-précision (16 bits), quantification binaire, vecteurs creux (sparse), récupération hybride et agrégation vectorielle.

L'intérêt concret de cette approche réside dans la suppression d'une dépendance externe coûteuse : plutôt que d'ajouter Pinecone, Qdrant ou Weaviate à une architecture existante, les équipes qui utilisent déjà PostgreSQL peuvent activer pgvector et disposer d'un moteur de recherche vectorielle pleinement fonctionnel. La quantification binaire réduit l'empreinte mémoire d'un facteur 32, ce qui permet de traiter des corpus bien plus larges sans changer d'infrastructure. Le support des vecteurs creux ouvre la porte à des systèmes hybrides combinant recherche lexicale traditionnelle (BM25-style) et similarité sémantique, ce qui améliore significativement la pertinence dans les cas de récupération augmentée (RAG), les moteurs de recommandation et les systèmes de similarité documentaire.

pgvector est un projet open-source maintenu activement ; sa version 0.8 (fin 2024) a introduit la prise en charge native du type halfvec et des améliorations de performance sur les index HNSW. PostgreSQL s'impose ainsi comme une alternative sérieuse aux bases vectorielles spécialisées, en particulier pour les organisations qui ne souhaitent pas multiplier les services managés. Le tutoriel illustre également un changement de paradigme plus large dans l'outillage IA : la tendance est au retour vers des composants généralistes et maîtrisables, plutôt que vers des solutions SaaS dédiées dont le coût et la complexité opérationnelle s'accumulent. L'environnement Colab utilisé dans le guide abaisse la barrière d'entrée pour tester ces techniques, mais la même logique s'applique directement en production sur n'importe quelle instance PostgreSQL 15+.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride

Amazon a présenté une approche technique détaillée pour construire des assistants d'IA générative de nouvelle génération, combinant Amazon Bedrock, Amazon Bedrock AgentCore, le framework Strands Agents et Amazon OpenSearch dans une architecture dite "RAG hybride" (Retrieval-Augmented Generation). Ces systèmes, plus sophistiqués que de simples chatbots, sont capables de mener des conversations en plusieurs étapes, d'adapter leurs réponses aux besoins spécifiques de chaque utilisateur, et d'exécuter des tâches en arrière-plan telles que des appels d'API ou des requêtes en base de données en temps réel. L'exemple concret illustré dans l'article est celui d'un assistant de réservation hôtelière : l'agent interroge d'abord une base de données pour identifier les établissements correspondant aux critères du client, puis effectue des appels API pour récupérer disponibilités et tarifs actuels, avant de synthétiser ces informations dans une réponse cohérente. Le coeur de l'innovation réside dans la combinaison de deux approches de recherche d'information : la recherche textuelle classique par mots-clés et la recherche sémantique vectorielle. Cette dernière repose sur des embeddings vectoriels précalculés, stockés dans des bases de données vectorielles comme OpenSearch, qui permettent de trouver des résultats pertinents même lorsque les termes exacts ne correspondent pas. Le système convertit la requête de l'utilisateur en vecteur numérique et identifie les contenus les plus proches dans un espace à haute dimension, en utilisant des métriques de distance comme la similarité cosinus. Un exemple frappant illustre la puissance de cette approche : pour la requête "2x4 lumber board", le système sémantique identifie "building materials" comme résultat pertinent, là où une recherche lexicale aurait échoué. Cette capacité d'alignement sémantique est particulièrement précieuse pour les entreprises dont les bases de connaissances métier utilisent une terminologie différente de celle employée par leurs clients. Cette publication s'inscrit dans la stratégie d'Amazon Web Services de positionner Bedrock comme la plateforme centrale pour le déploiement d'agents d'IA en entreprise. Le RAG hybride répond à un défi bien documenté des LLMs : leur incapacité à accéder nativement à des données récentes ou propriétaires. En greffant une couche de récupération dynamique sur des modèles comme ceux disponibles via Bedrock, AWS propose une alternative aux solutions de fine-tuning, plus coûteuses et moins flexibles. La concurrence dans ce segment est intense, avec des offres similaires chez Microsoft Azure (Azure AI Search) et Google Cloud (Vertex AI Search). L'intégration native d'OpenSearch dans cet écosystème renforce l'attrait pour les entreprises déjà clientes AWS, tandis que l'introduction de Bedrock AgentCore signale une montée en gamme vers des architectures multi-agents plus complexes, capables d'orchestrer plusieurs outils et sources de données simultanément.

OutilsOutil

1 source

2AWS ML Blog

Amazon Nova Embeddings : construire un moteur de recherche audio intelligent par analyse sémantique

Amazon a lancé le 28 octobre 2025 Amazon Nova Multimodal Embeddings, un modèle d'embedding unifié disponible via Amazon Bedrock, capable de traiter simultanément du texte, des documents, des images, des vidéos et de l'audio au sein d'un seul et même système. Concrètement, ce modèle convertit n'importe quel contenu audio en vecteurs numériques denses dans un espace à haute dimension, avec quatre options de taille : 3 072 dimensions (par défaut), 1 024, 384 ou 256. Chaque vecteur encode à la fois les propriétés acoustiques d'un son, rythme, hauteur tonale, timbre, couleur émotionnelle, et son sens sémantique. Deux extraits musicaux similaires, par exemple un violon et un violoncelle jouant la même mélodie, obtiendront une similarité cosinus de 0,87, les plaçant proches dans cet espace vectoriel, tandis qu'un morceau de rock avec batterie n'obtiendra que 0,23 face à ces mêmes clips. L'enjeu est considérable pour tous ceux qui gèrent de grandes bibliothèques audio : studios de production, plateformes de podcast, services de streaming, équipes de post-production. Les méthodes traditionnelles, transcription manuelle, balisage de métadonnées, conversion parole-texte, ne capturent que le contenu linguistique. Elles sont aveugles aux propriétés acoustiques pures : l'ambiance d'une pièce, l'émotion dans une voix, le genre musical, les sons environnementaux. Nova Multimodal Embeddings comble ce vide en permettant des requêtes en langage naturel comme "musique mélancolique avec piano" ou "bruit de foule dans un stade", sans qu'aucune transcription préalable ne soit nécessaire. Le résultat est une recherche sémantique sur le son lui-même, pas seulement sur ses métadonnées. Le modèle repose sur une technique appelée Matryoshka Representation Learning (MRL), qui structure les embeddings de façon hiérarchique, à la manière des poupées russes : un vecteur de 3 072 dimensions contient toute l'information, mais on peut tronquer aux 256 premières dimensions et conserver des résultats précis. Cela permet de générer les embeddings une seule fois, puis d'ajuster la taille selon les contraintes de coût de stockage ou de performance, sans retraiter l'audio. Cette approche s'inscrit dans la tendance plus large des modèles d'embedding multimodaux unifiés, où Amazon rivalise directement avec Google (Vertex AI Embeddings) et OpenAI (CLIP, Whisper). L'intégration native dans Bedrock facilite le déploiement en production via des bases de données vectorielles compatibles k-NN. La prochaine étape logique sera l'intégration de ces capacités dans des pipelines RAG (retrieval-augmented generation) pour des agents conversationnels capables de répondre à des questions sur du contenu audio sans intervention humaine préalable.

UELes studios de production, plateformes de podcast et services de streaming européens peuvent intégrer cette API via Amazon Bedrock pour améliorer leurs moteurs de recherche audio sémantique.

OutilsOutil

1 source

3AWS ML Blog

Recherche sémantique vidéo avec Amazon Nova Multimodal Embeddings

Amazon a lancé Nova Multimodal Embeddings, un modèle d'embedding unifié disponible sur Amazon Bedrock, capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans un espace vectoriel sémantique commun. L'objectif est de résoudre un problème concret qui freine l'industrie audiovisuelle : permettre de rechercher dans des vidéos par le sens, et non par des mots-clés exacts. Concrètement, le modèle génère des vecteurs de 1 024 dimensions qui encodent à la fois les signaux visuels et audio d'un segment vidéo, stockés ensuite dans Amazon S3. L'architecture de référence publiée par Amazon combine une phase d'ingestion en six étapes, upload dans S3, découpage en plans via FFmpeg sur AWS Fargate, traitement parallèle avec embeddings visuels/audio, transcription via Amazon Transcribe, et détection de célébrités via Amazon Rekognition, et une phase de recherche hybride qui fusionne recherche sémantique et lexicale pour produire une liste de résultats classés. L'enjeu est majeur pour tous les secteurs qui gèrent des bibliothèques vidéo volumineuses. Une chaîne sportive peut désormais retrouver instantanément le moment précis où un joueur marque, un studio peut identifier chaque scène d'un acteur dans des milliers d'heures d'archives, et une rédaction peut extraire des images par ambiance, lieu ou événement pour publier plus vite que ses concurrents. Ce qui change fondamentalement, c'est que la recherche n'est plus limitée au dialogue ou aux métadonnées textuelles : une requête comme "une course-poursuite tendue avec des sirènes" retrouve à la fois l'événement visuel et l'événement sonore sans que l'un ou l'autre ait besoin d'être transcrit. La précision de recherche s'améliore donc sur les contenus riches en action, en musique ou en sons d'ambiance, là où les approches textuelles échouaient systématiquement. L'approche dominante jusqu'ici consistait à convertir toute la vidéo en texte, transcription automatique, sous-titrage, tags manuels, puis à appliquer des embeddings textuels classiques. Cette méthode souffre de deux limites structurelles : la dimension temporelle disparaît dans la conversion, et les erreurs de transcription se propagent dès que la qualité audio ou visuelle est insuffisante. Amazon positionne Nova Multimodal Embeddings comme une rupture avec ce paradigme, en traitant nativement toutes les modalités sans passer par le texte comme pivot. Le modèle s'inscrit dans une compétition directe avec les offres multimodales de Google et OpenAI sur le segment des embeddings haute précision. Amazon met à disposition une implémentation de référence déployable, signalant une volonté de s'imposer rapidement comme infrastructure de référence pour la recherche vidéo à grande échelle.

UELes entreprises et médias européens gérant de grandes bibliothèques vidéo sur AWS peuvent désormais implémenter une recherche sémantique multimodale native sans infrastructure supplémentaire.

OutilsOpinion

1 source

4MarkTechPost

EverOS : runtime de mémoire open source pour agents, récupération hybride BM25/vectorielle et compétences auto-évolutives

EverMind a publié EverOS, un moteur de mémoire open source pour agents IA, sous licence Apache 2.0. Le projet s'attaque à un problème fondamental des grands modèles de langage : leur absence d'état persistant. Dès qu'une conversation se termine, le contexte disparaît. EverOS propose une approche différente : plutôt que d'enfermer la mémoire dans une base de données vectorielle opaque, il stocke chaque souvenir sous forme de fichiers Markdown ordinaires. Ces fichiers deviennent la source de vérité que les agents lisent, modifient et interrogent entre les sessions. La bibliothèque Python s'appuie sur une pile de stockage en trois couches : Markdown comme source canonique, SQLite pour la gestion des états et des files d'attente, et LanceDB pour les vecteurs et les index. La récupération est hybride : une seule requête LanceDB combine la recherche par mots-clés BM25, la recherche vectorielle dense et un filtrage scalaire, ce que l'équipe nomme mRAG. Les performances annoncées par EverMind sont de 93,05 % sur le benchmark LoCoMo, 83,00 % sur LongMemEval, et une latence p95 inférieure à 500 ms. Ce que change EverOS pour les développeurs d'agents, c'est avant tout l'inspectabilité et la portabilité. Les fichiers .md peuvent être ouverts dans n'importe quel éditeur, versionnés avec Git, ou consultés dans Obsidian. Il n'y a pas besoin de MongoDB, Elasticsearch, Milvus, Redis ou Kafka, ce qui réduit considérablement le coût opérationnel pour les développeurs indépendants et les petites équipes. L'architecture distingue deux pistes mémoire : côté utilisateur, des Profils, Épisodes, Faits et Prévisions ; côté agent, des Cas et des Compétences. Cette séparation est rare dans les bibliothèques concurrentes qui se concentrent généralement sur l'historique de chat. La mémoire procédurale est la fonctionnalité la plus distinctive : EverOS enregistre chaque tâche complétée comme un Cas, puis distille offline les patterns réussis en Compétences réutilisables partagées entre agents, sans curation manuelle. Le runtime est compatible avec le protocole OpenAI et se connecte à OpenRouter, vLLM, Ollama ou DeepInfra via un simple changement d'URL. EverOS s'inscrit dans une tendance plus large de recherche d'alternatives aux architectures mémoire complexes et coûteuses pour les systèmes agentiques. La version 1.1.0 a introduit des APIs de Knowledge pour des pages Markdown adossées à des sources taxonomiques, ainsi qu'un processus de Réflexion offline qui fusionne des clusters d'épisodes et affine les profils entre sessions. EverMind propose également EverOS Cloud pour les équipes qui préfèrent ne pas gérer l'infrastructure, avec parité complète du SDK et du format mémoire avec la version auto-hébergée. Les scores de benchmark sont prometteurs mais proviennent d'EverMind eux-mêmes, ce qui appelle une vérification sur des charges de travail réelles avant adoption en production.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic