Aller au contenu principal
DoorDash développe DashCLIP pour aligner images, textes et requêtes en recherche sémantique grâce à 32 millions d'étiquettes
OutilsInfoQ AI14sem· 1 min de lecture

DoorDash développe DashCLIP pour aligner images, textes et requêtes en recherche sémantique grâce à 32 millions d'étiquettes

Source originale ↗·

DoorDash franchit une étape significative dans l'intelligence artificielle appliquée au commerce en ligne avec le lancement de DashCLIP, un système d'apprentissage automatique multimodal capable d'aligner images de produits, descriptions textuelles et requêtes utilisateurs dans un espace d'embeddings commun. Cette architecture représente une avancée concrète pour améliorer la pertinence de la recherche sémantique sur la plateforme.

L'enjeu est majeur pour une place de marché comme DoorDash : lorsqu'un utilisateur tape "burger végétarien épicé", le système doit comprendre l'intention derrière la requête et la faire correspondre non seulement aux titres de plats, mais aussi aux images et aux descriptions — même si les mots exacts ne correspondent pas. En alignant ces trois modalités dans un espace vectoriel partagé, DashCLIP permet une compréhension sémantique profonde qui bénéficie directement à la recherche de produits, au classement des résultats et à la pertinence publicitaire.

Le système a été entraîné par apprentissage contrastif sur 32 millions de paires étiquetées requête-produit, un corpus conséquent qui permet au modèle de distinguer finement les similarités et dissimilarités entre contenus. Les embeddings générés ne servent pas uniquement à la recherche : ils alimentent d'autres tâches d'apprentissage automatique à travers l'ensemble de la marketplace. Le projet est signé par l'ingénieure Leela Kumili, membre de l'équipe ML de DoorDash.

Cette initiative s'inscrit dans une tendance plus large où les grandes plateformes e-commerce et de livraison adoptent des architectures de type CLIP — inspirées des travaux d'OpenAI — pour dépasser les limites de la recherche par mots-clés. Pour DoorDash, les bénéfices sont doubles : une meilleure expérience utilisateur et une monétisation publicitaire plus précise, deux leviers directement liés à la croissance du chiffre d'affaires.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google met au point Ask Maps pour rechercher des lieux en langage courant grâce à Gemini
1The Decoder 

Google met au point Ask Maps pour rechercher des lieux en langage courant grâce à Gemini

Google Maps intègre une nouvelle fonctionnalité appelée Ask Maps, propulsée par Gemini AI, qui permet aux utilisateurs de rechercher des lieux en langage naturel et d'obtenir des résultats personnalisés sur une carte dédiée. Google déploie également un système de navigation 3D entièrement repensé.

OutilsOutil
1 source
Des agents avec recherche web grâce à Strands et Exa
2AWS ML Blog 

Des agents avec recherche web grâce à Strands et Exa

AWS a publié une intégration native entre son SDK open source Strands Agents et le moteur de recherche Exa, permettant aux agents IA d'accéder au web en temps réel sans couche de post-traitement. Cette combinaison expose deux outils principaux : exasearch, qui effectue des recherches sémantiques avec prise en charge de catégories comme les articles d'actualité, les publications de recherche ou les dépôts de code, et exaget_contents, qui récupère le contenu complet de pages web ciblées. Le SDK Strands Agents, distribué en open source par AWS, repose sur une architecture pilotée par le modèle : plutôt que de définir des workflows figés, le développeur fournit un modèle de langage, un prompt système et une liste d'outils, puis c'est le modèle lui-même qui décide quels outils appeler, dans quel ordre, et quand la tâche est accomplie. Le SDK embarque déjà plus de 40 outils préconstruits couvrant la gestion de fichiers, l'exécution de code, les API AWS, la mémoire et la recherche web. Pour les développeurs qui construisent des agents dédiés à la veille, à la vérification des faits ou à l'intelligence concurrentielle, cette intégration élimine un obstacle persistant : la plupart des API de recherche généralistes renvoient des pages HTML chargées de balisage et des snippets courts optimisés pour la navigation humaine, ce qui oblige à construire des couches supplémentaires de parsing, de nettoyage et de reclassement avant de pouvoir injecter ces données dans une fenêtre de contexte LLM. Exa résout ce problème à la source en fournissant un contenu propre, structuré et directement exploitable. Concrètement, un agent peut enchaîner plusieurs appels de recherche, accumuler les résultats dans son historique de conversation et raisonner sur l'ensemble pour produire une réponse finale, sans que le développeur n'ait à orchestrer chaque étape manuellement. Exa se distingue des moteurs traditionnels par son approche sémantique : une requête comme "startups développant des solutions climatiques" retourne effectivement des entreprises du secteur, même si leurs pages ne contiennent pas cette formulation exacte, car le moteur travaille sur la similarité de sens plutôt que sur la correspondance de mots-clés. Le SDK supporte également le Model Context Protocol (MCP), ce qui facilite l'ajout de tout nouveau serveur d'outils sans travail d'intégration supplémentaire. L'intégration Exa est disponible via le package strands-agents-tools et s'ajoute à la liste d'outils en une ligne de code. Dans un contexte où les agents IA peinent encore à accéder à des informations récentes et fiables, cette combinaison d'un framework agentique piloté par le modèle et d'un moteur de recherche conçu pour les LLM ouvre des perspectives concrètes pour des cas d'usage comme l'analyse de marché, la recherche documentaire automatisée ou le suivi de l'actualité technologique en temps réel.

OutilsOutil
1 source
Guide de mise en oeuvre d'un système de recherche vectorielle sémantique, hybride et quantifiée avec pgvector
3MarkTechPost 

Guide de mise en oeuvre d'un système de recherche vectorielle sémantique, hybride et quantifiée avec pgvector

Un tutoriel publié sur Analytics Vidhya propose une implémentation complète d'un système de recherche vectorielle avancé en s'appuyant uniquement sur PostgreSQL et l'extension pgvector, le tout exécutable directement dans Google Colab. Le guide couvre l'installation de PostgreSQL, la compilation de pgvector depuis les sources, la connexion via Psycopg, puis la création d'embeddings avec le modèle open-source SentenceTransformers all-MiniLM-L6-v2 (384 dimensions). Les vecteurs sont stockés dans des tables PostgreSQL classiques, indexés avec des index HNSW (Hierarchical Navigable Small World), puis interrogés selon plusieurs modalités : recherche sémantique, recherche filtrée par catégorie, comparaison de métriques de distance (cosinus, L2, produit scalaire), stockage en demi-précision (16 bits), quantification binaire, vecteurs creux (sparse), récupération hybride et agrégation vectorielle. L'intérêt concret de cette approche réside dans la suppression d'une dépendance externe coûteuse : plutôt que d'ajouter Pinecone, Qdrant ou Weaviate à une architecture existante, les équipes qui utilisent déjà PostgreSQL peuvent activer pgvector et disposer d'un moteur de recherche vectorielle pleinement fonctionnel. La quantification binaire réduit l'empreinte mémoire d'un facteur 32, ce qui permet de traiter des corpus bien plus larges sans changer d'infrastructure. Le support des vecteurs creux ouvre la porte à des systèmes hybrides combinant recherche lexicale traditionnelle (BM25-style) et similarité sémantique, ce qui améliore significativement la pertinence dans les cas de récupération augmentée (RAG), les moteurs de recommandation et les systèmes de similarité documentaire. pgvector est un projet open-source maintenu activement ; sa version 0.8 (fin 2024) a introduit la prise en charge native du type halfvec et des améliorations de performance sur les index HNSW. PostgreSQL s'impose ainsi comme une alternative sérieuse aux bases vectorielles spécialisées, en particulier pour les organisations qui ne souhaitent pas multiplier les services managés. Le tutoriel illustre également un changement de paradigme plus large dans l'outillage IA : la tendance est au retour vers des composants généralistes et maîtrisables, plutôt que vers des solutions SaaS dédiées dont le coût et la complexité opérationnelle s'accumulent. L'environnement Colab utilisé dans le guide abaisse la barrière d'entrée pour tester ces techniques, mais la même logique s'applique directement en production sur n'importe quelle instance PostgreSQL 15+.

OutilsTuto
1 source
Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte
4MarkTechPost 

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic