
Les journaux de requêtes SQL donnent aux agents IA le contexte nécessaire pour éviter les jointures halluccinées
DataHub lance ce jeudi une nouvelle couche baptisée Context Intelligence, conçue pour résoudre l'un des problèmes les plus concrets des agents IA en entreprise : les erreurs de jointure sur des entrepôts de données massifs. Le déclencheur est parlant. Lorsque l'équipe data de Miro a branché ses agents IA directement sur son environnement Snowflake, ceux-ci produisaient de mauvaises réponses dans plus de 65 % des cas. La cause n'était pas le modèle de langage, mais l'absence de contexte : avec plus de 10 000 tables et aucune couche sémantique pour orienter les requêtes, les agents ne pouvaient pas savoir quelles données correspondaient à quelles questions métier. Context Intelligence répond à ce problème en exploitant les journaux de requêtes SQL existants pour construire un index sémantique, exposé ensuite aux agents via MCP, LangChain, le Google Agent Development Kit et CrewAI. La technologie s'appuie sur la même infrastructure d'extraction de logs que DataHub utilise depuis des années pour la traçabilité des données dans ses quelque 3 000 déploiements en production dans le monde.
L'enjeu est considérable pour les équipes data des grandes organisations. Aujourd'hui, les agents IA qui génèrent du SQL à la volée n'ont accès qu'aux schémas bruts, sans connaître les jointures qui ont déjà fonctionné, les métriques validées par les équipes métier, ou la logique éprouvée encodée dans des années de requêtes d'analystes. Context Intelligence renverse cette logique : le moteur filtre les journaux de requêtes pour extraire ce que Shirshanka Das, co-fondateur et CTO de DataHub, appelle les "golden queries", c'est-à-dire les requêtes de haute qualité et les pipelines planifiés représentant une logique métier validée. Ces requêtes sont ensuite inversées en définitions textuelles structurées, appelées "semantic anchors", qui constituent la base de récupération dont les agents disposent avant de générer du SQL. Une couche de validation humaine, Context Hub, permet aux experts métier de réviser les définitions proposées, de résoudre les conflits entre équipes qui calculent la même métrique différemment, et de simuler l'impact des changements avant publication.
DataHub est une société fondée par l'équipe qui a construit l'outil éponyme en open source chez LinkedIn, où Das a dirigé l'infrastructure data pendant près de onze ans. Le projet open source, mis à disposition du public début 2020 après six ans de développement interne, compte aujourd'hui plus de 15 000 contributeurs. PostgreSQL est la source la plus connectée dans la base mondiale de déploiements DataHub, devant MySQL, Oracle, Snowflake et Google BigQuery, avec plus de 100 sources de métadonnées supportées. Ce capital d'infrastructure est précisément ce qui distingue Context Intelligence d'une solution construite from scratch : les capacités d'extraction et de parsing de requêtes SQL mobilisées ici ont été forgées en production, pas pour ce lancement. "La couche de consommation a changé : ce ne sont plus des humains, ce sont des agents", résume Das. Le cas Miro illustre la suite logique : avec un index sémantique ancré dans l'historique réel des requêtes, les agents ont pu naviguer dans les 10 000 tables Snowflake avec une précision radicalement supérieure.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


