Aller au contenu principal
DoorDash développe DashCLIP pour aligner images, textes et requêtes en recherche sémantique grâce à 32 millions d'étiquettes
OutilsInfoQ AI7sem

DoorDash développe DashCLIP pour aligner images, textes et requêtes en recherche sémantique grâce à 32 millions d'étiquettes

Résumé IASource uniqueImpact UE
Source originale ↗·

DoorDash franchit une étape significative dans l'intelligence artificielle appliquée au commerce en ligne avec le lancement de DashCLIP, un système d'apprentissage automatique multimodal capable d'aligner images de produits, descriptions textuelles et requêtes utilisateurs dans un espace d'embeddings commun. Cette architecture représente une avancée concrète pour améliorer la pertinence de la recherche sémantique sur la plateforme.

L'enjeu est majeur pour une place de marché comme DoorDash : lorsqu'un utilisateur tape "burger végétarien épicé", le système doit comprendre l'intention derrière la requête et la faire correspondre non seulement aux titres de plats, mais aussi aux images et aux descriptions — même si les mots exacts ne correspondent pas. En alignant ces trois modalités dans un espace vectoriel partagé, DashCLIP permet une compréhension sémantique profonde qui bénéficie directement à la recherche de produits, au classement des résultats et à la pertinence publicitaire.

Le système a été entraîné par apprentissage contrastif sur 32 millions de paires étiquetées requête-produit, un corpus conséquent qui permet au modèle de distinguer finement les similarités et dissimilarités entre contenus. Les embeddings générés ne servent pas uniquement à la recherche : ils alimentent d'autres tâches d'apprentissage automatique à travers l'ensemble de la marketplace. Le projet est signé par l'ingénieure Leela Kumili, membre de l'équipe ML de DoorDash.

Cette initiative s'inscrit dans une tendance plus large où les grandes plateformes e-commerce et de livraison adoptent des architectures de type CLIP — inspirées des travaux d'OpenAI — pour dépasser les limites de la recherche par mots-clés. Pour DoorDash, les bénéfices sont doubles : une meilleure expérience utilisateur et une monétisation publicitaire plus précise, deux leviers directement liés à la croissance du chiffre d'affaires.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google met au point Ask Maps pour rechercher des lieux en langage courant grâce à Gemini
1The Decoder 

Google met au point Ask Maps pour rechercher des lieux en langage courant grâce à Gemini

Google Maps intègre une nouvelle fonctionnalité appelée Ask Maps, propulsée par Gemini AI, qui permet aux utilisateurs de rechercher des lieux en langage naturel et d'obtenir des résultats personnalisés sur une carte dédiée. Google déploie également un système de navigation 3D entièrement repensé.

OutilsOutil
1 source
Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte
2MarkTechPost 

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion
1 source
3VentureBeat AI 

Le développement piloté par les spécifications s'impose pour le code agentique en entreprise

Le développement logiciel piloté par les spécifications s'impose comme la méthode de référence pour déployer des agents de codage autonomes à l'échelle des grandes entreprises. Amazon Web Services en est l'exemple le plus documenté : l'équipe derrière le nouvel environnement de développement Kiro IDE a utilisé Kiro pour construire Kiro lui-même, réduisant les cycles de développement de deux semaines à deux jours. Une équipe d'ingénieurs AWS a mené à bien un projet de refonte architecturale initialement prévu sur dix-huit mois avec trente développeurs, en six personnes en soixante-seize jours. Chez Amazon.com, la fonctionnalité "Add to Delivery", qui permet aux acheteurs d'ajouter des articles après validation de leur commande, a été livrée deux mois avant le calendrier prévu grâce à cette approche. Alexa+, Amazon Finance, Amazon Stores, Fire TV, Last Mile Delivery et Prime Video intègrent désormais tous le développement piloté par les spécifications dans leurs méthodes de production. Ce qui rend cette méthode structurante, c'est qu'elle résout le problème de confiance fondamental posé par le code généré par l'IA. Un agent qui produit cent cinquante commits par semaine dépasse largement la capacité de relecture humaine : aucune équipe ne peut valider manuellement ce volume. La spec devient alors un moteur de vérification automatique. Rédigée avant qu'une seule ligne de code soit écrite, elle définit ce que le système doit faire, ses propriétés attendues et ce que "correct" signifie concrètement. À partir de cette base, des techniques de test basées sur les propriétés et de l'IA neurosymbolique génèrent automatiquement des centaines de cas de test dérivés directement de la spécification, couvrant des cas limites qu'aucun développeur n'aurait envisagé. L'agent peut ainsi se corriger en boucle, en réinjectant les échecs de build et de test dans son propre raisonnement, jusqu'à produire un code à la fois fonctionnel et vérifiable. Cette évolution s'inscrit dans une transformation plus large du secteur. Il y a un an, le "vibe coding" avait popularisé l'idée que n'importe qui pouvait produire du code avec l'IA, au prix d'une qualité souvent médiocre. Le développement piloté par les spécifications répond à la question suivante : comment faire confiance à ce code à grande échelle ? Les équipes qui adoptent cette méthode ne traitent plus l'IA comme un outil ponctuellement consulté, mais comme un agent autonome ancré à une source de vérité permanente. La prochaine étape annoncée est celle d'agents capables de rédiger leurs propres spécifications, utilisant la spec comme mécanisme d'autocorrection et de vérification. Les entreprises qui maîtriseront ce modèle prendront une avance structurelle significative sur celles qui continuent à coder sans cadre formel.

OutilsOutil
1 source
J'ai développé mon propre agent IA sur site grâce à OpenClaw et Obsidian : les éléments cruciaux que l'on me cache
4Towards AI 

J'ai développé mon propre agent IA sur site grâce à OpenClaw et Obsidian : les éléments cruciaux que l'on me cache

Un développeur a publié un retour d'expérience détaillé sur l'installation d'OpenClaw, un agent IA open-source auto-hébergé, sur une VM Ubuntu via Docker avec Telegram comme interface et Obsidian pour la mémoire persistante. Le guide liste les quatre erreurs critiques à éviter : problèmes de permissions lors de l'exécution avec sudo, crash loop de la gateway en mode Loopback (Docker), agent en mode "messaging" incapable d'écrire des fichiers, et clé de configuration non reconnue pour l'API Alibaba. La motivation centrale : arrêter de payer des abonnements IA (ChatGPT, Claude) utilisés seulement 10 minutes par jour, en faveur d'une solution locale où toutes les données restent sur la machine.

OutilsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour