Aller au contenu principal
AMES : Recherche multimodale approximative en entreprise par extraction à interaction tardive
OutilsApple Machine Learning14sem· 1 min de lecture

AMES : Recherche multimodale approximative en entreprise par extraction à interaction tardive

Source originale ↗·

AMES (Approximate Multimodal Enterprise Search) marque une avancée significative dans le domaine de la recherche d'information en entreprise : cette nouvelle architecture unifiée permet d'interroger simultanément des textes, des images et des vidéos au sein d'un même moteur de recherche, sans nécessiter de refonte technique majeure des systèmes existants.

L'enjeu est considérable pour les organisations qui gèrent des volumes croissants de contenus hétérogènes. Jusqu'ici, la recherche multimodale exigeait généralement des pipelines distincts selon la nature du contenu — un pour le texte, un autre pour les images, etc. AMES brise cette logique en proposant une architecture agnostique du backend, compatible avec les infrastructures de recherche d'entreprise déjà en place, ce qui réduit drastiquement le coût et la complexité de déploiement.

Au cœur du système, une approche dite d'interaction tardive (late interaction) : les tokens textuels, les patches d'image et les frames vidéo sont encodés dans un espace de représentation partagé via des encodeurs multi-vecteurs. La récupération inter-modalités s'effectue sans logique spécifique à chaque modalité. Le pipeline repose sur deux étapes : une recherche ANN (Approximate Nearest Neighbor) parallèle au niveau token, suivie d'une phase de reclassement fin — garantissant ainsi précision et passage à l'échelle en environnement de production.

Cette approche s'inscrit dans la tendance de fond des systèmes RAG (Retrieval-Augmented Generation) multimodaux, où la qualité de la récupération conditionne directement la pertinence des réponses générées par les LLM. En rendant l'interaction tardive accessible sans redesign architectural, AMES pourrait accélérer l'adoption de la recherche multimodale dans les entreprises qui hésitaient encore à franchir le pas.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle
1AWS ML Blog 

L'IA multimodale appliquée à la recherche d'images aériennes à grande échelle

Vexcel, l'un des plus grands fournisseurs mondiaux d'imagerie aérienne, opère une flotte d'avions dédiés qui collecte des données haute résolution dans plus de 45 pays et territoires. Son catalogue comprend des orthomosaïques, des vues obliques à 360 degrés et des modèles d'élévation représentant des milliards de pixels. En partenariat avec le AWS Generative AI Innovation Center (GenAIIC), l'entreprise a développé une architecture de recherche sémantique reposant sur des embeddings multimodaux, la génération automatique de légendes par un grand modèle de langage, et une recherche vectorielle via Amazon Bedrock et Amazon OpenSearch Serverless. L'objectif : permettre à un utilisateur d'interroger cette immense bibliothèque d'images en langage naturel, sans entraîner de modèle de vision par ordinateur pour chaque nouveau cas d'usage. Les tests ont montré qu'Amazon Nova Multimodal Embeddings obtenait les meilleurs scores F1 sur l'ensemble des requêtes de référence évaluées. Ce système a depuis évolué en Vexcel Intelligence, un produit actuellement en phase de prévisualisation. L'enjeu est considérable pour tous les secteurs qui s'appuient sur des données géospatiales : assurance, immobilier, administration publique, infrastructures et agriculture. Jusqu'ici, localiser des piscines dans un quartier résidentiel, cartographier des panneaux solaires à l'échelle d'une ville ou détecter des graffitis sur des entrepôts obligeait soit à examiner manuellement chaque tuile d'image, soit à entraîner un modèle de vision dédié pour chaque question, avec les données étiquetées, le temps d'ingénierie et les cycles de ré-entraînement que cela implique. La recherche sémantique par vecteurs supprime cette étape : une requête en langage naturel produit des résultats en quelques secondes, sans redévelopper de pipeline spécifique pour chaque nouveau besoin client. C'est un changement de paradigme opérationnel qui compresse des semaines de travail en une simple interrogation. La recherche géospatiale pose des défis structurels absents de la recherche d'images classique : une même zone est représentée par plusieurs vues simultanées (nadir, oblique nord, est, sud, ouest), et les requêtes portent sur des objets physiques ancrés dans l'espace réel plutôt que sur des photographies isolées. Vexcel avait exploré trois approches préalables avant ce partenariat, dont un pipeline d'embeddings multimodaux tuilés avec légendes LLM qui montrait des résultats prometteurs mais soulevait des questions clés sur le choix du modèle, la fusion des vues multiples et la réelle valeur ajoutée des légendes textuelles. L'équipe a construit une méthodologie d'évaluation ancrée dans les données OpenStreetMap pour comparer quatre variables : modèle d'embedding, stratégie de fusion, approche de légendage et méthode de recherche. Vexcel Intelligence, désormais en prévisualisation, concrétise ces travaux et transforme des décennies de collecte aérienne en une base de connaissance interrogeable à la demande.

UELes assureurs, collectivités et acteurs de l'immobilier européens utilisant des données géospatiales aériennes pourraient adopter Vexcel Intelligence pour remplacer des pipelines de vision par ordinateur coûteux par une simple recherche en langage naturel.

OutilsOutil
1 source
Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)
2MarkTechPost 

Zhipu AI présente GLM-OCR : un modèle multimodal OCR de 0,9 milliard pour le traitement de documents et l'extraction d'informations clés (KIE)

Zhipu AI présente GLM-OCR, un modèle multimodal compact de 0.9 milliards de paramètres pour la compréhension des documents, qui combine un encodeur visuel CogViT de 0.4 milliard, un connecteur léger intermodal et un décodeur linguistique GLM de 0.5 milliard. Le modèle utilise la prédiction de multi-token (MTP) pour améliorer le traitement (50%), adapté aux contraintes des déploiements sur le bord, et adopte une architecture en deux étapes pour analyser la structure documentaire avant la reconnaissance. GLM-OCR traite les tâches de parse document et d'extraction des informations clés (KIE) via des chemins d'output distincts, optimisant ainsi l'efficacité et la robustesse sur des documents complexes.

OutilsActu
1 source
L'IA s'apprête à remplacer les interfaces, et les dirigeants d'entreprise ne sont pas prêts
3VentureBeat AI 

L'IA s'apprête à remplacer les interfaces, et les dirigeants d'entreprise ne sont pas prêts

Les agents d'intelligence artificielle sont en train de rendre obsolète la forme même du logiciel d'entreprise. Là où un salarié devait autrefois jongler entre un CRM, un outil de prévision, un tableau de bord support et plusieurs fils de discussion pour comprendre la situation d'un compte client, il lui suffira bientôt de poser une question à un agent unique : "Qu'est-ce qui nécessite mon attention aujourd'hui ?" L'agent identifie les comptes à risque, explique pourquoi, résume les interactions récentes, rédige des actions de suivi et déclenche les workflows suivants. Ce n'est plus une interface que l'on pilote, c'est un système qui comprend l'intention et agit en conséquence. L'enjeu dépasse largement l'expérience utilisateur. Pour qu'un agent réponde correctement à "Pourquoi le churn augmente-t-il dans notre segment entreprise ?", il ne suffit pas qu'il sache où se trouvent les données clients. Il doit comprendre comment l'entreprise définit le churn, quels comptes entrent dans la catégorie "entreprise", si les données d'utilisation produit sont plus fiables que les enquêtes, ce que les tickets support indiquent, et si la réponse varie selon la géographie. Cela signifie que les définitions, les règles métier et les hypothèses implicites qui donnent du sens aux données doivent être formalisées, documentées et cohérentes à l'échelle de l'organisation. La couche sémantique, longtemps considérée comme un problème technique réservé aux équipes data, devient une question stratégique de direction générale. Les entreprises qui laisseront chaque département former son propre agent avec sa propre version de la réalité obtiendront de l'inexactitude à grande échelle. Les dashboards ne disparaissent pas parce que les graphiques deviennent inutiles, mais parce que le reporting statique devient trop lent pour les besoins opérationnels réels. Cette transition soulève aussi un nouveau problème de gouvernance. Tant que l'IA se contentait de répondre à des questions, contrôler ses accès était déjà difficile mais gérable. Dès que les agents commencent à agir, émettre un remboursement, réapprovisionner des stocks ou envoyer un e-mail à un client, les conséquences d'une erreur changent de nature. Les entreprises qui ont investi dans des fondations solides, des définitions partagées, des accès gouvernés, une traçabilité claire et des workflows documentés seront celles capables de déployer ces agents avec confiance. Les autres risquent d'automatiser leurs propres incohérences. La course à l'IA agentique est donc aussi, fondamentalement, une course à la maturité organisationnelle.

OutilsOutil
1 source
Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte
4MarkTechPost 

Chroma lance Context-1 : un modèle de recherche à base d'agents de 20 milliards de paramètres pour la récupération multi-saut et la gestion du contexte

Chroma, l'entreprise derrière la base de données vectorielle open source du même nom, a lancé Context-1, un modèle de recherche agentique de 20 milliards de paramètres conçu pour résoudre l'un des problèmes les plus tenaces des systèmes RAG (Retrieval-Augmented Generation) modernes. Dérivé de l'architecture Mixture of Experts gpt-oss-20B et affiné par apprentissage supervisé combiné à du renforcement via CISPO, ce modèle ne joue pas le rôle d'un moteur de raisonnement généraliste : il agit comme un sous-agent de recherche ultra-spécialisé. Concrètement, face à une question complexe nécessitant plusieurs étapes de raisonnement, Context-1 décompose la requête en sous-questions ciblées, exécute des appels d'outils en parallèle — 2,56 appels en moyenne par tour — et parcourt itérativement un corpus documentaire via des outils comme searchcorpus (hybride BM25 + recherche dense), grepcorpus et readdocument, avant de transmettre les passages pertinents à un modèle frontier pour la réponse finale. L'innovation la plus significative de Context-1 est ce que Chroma appelle le "Self-Editing Context" : le modèle ne se contente pas de chercher, il gère activement sa propre fenêtre de contexte. Au fil de la recherche, les documents s'accumulent — beaucoup s'avèrent redondants ou hors sujet. Plutôt que de se noyer dans ce bruit, Context-1 a été entraîné avec une précision de pruning de 0,94 : il exécute proactivement une commande prunechunks pour éliminer les passages inutiles en cours de recherche. Ce mécanisme lui permet de maintenir une fenêtre de contexte de 32 000 tokens propre et efficace, là où les modèles généralistes "s'étranglent" sur des chaînes de raisonnement longues. Le découplage entre la logique de recherche — traditionnellement gérée par le développeur — et la génération de réponse représente un changement architectural majeur pour les équipes qui construisent des pipelines RAG en production. Pour entraîner et évaluer ce type de modèle, Chroma a également publié en open source son outil de génération de données synthétiques, context-1-data-gen. Ce pipeline produit des tâches multi-hop dans quatre domaines — recherche web, dépôts SEC (10-K, 20-F), brevets USPTO et corpus d'emails (Enron, fichiers Epstein) — selon un processus structuré en quatre étapes : Explorer, Vérifier, Distraire, Indexer. L'astuce centrale est l'injection de "distracteurs thématiques", des documents apparemment pertinents mais logiquement inutiles, qui forcent le modèle à raisonner plutôt qu'à faire du simple matching de mots-clés. Ce faisant, Chroma s'attaque à un angle mort bien connu des benchmarks statiques, et positionne Context-1 comme compétitif face à GPT-5 sur les tâches de recherche complexes — tout en étant nettement moins coûteux à faire tourner pour des volumes industriels.

OutilsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic