
Databricks affirme avoir résolu le problème des pipelines de données qui freinait les agents IA depuis des décennies
Lors du Data + AI Summit de mardi, Databricks a annoncé deux nouveaux produits conçus pour résoudre un problème vieux de plusieurs décennies dans le domaine des données : la coexistence des bases de données transactionnelles et analytiques. La première annonce, Lakehouse//RT, promet une latence de requête en quelques millisecondes directement sur les tables Delta et Iceberg gouvernées, supprimant la couche de service temps réel distincte que les entreprises maintenaient en parallèle de leurs lakehouses. La seconde, LTAP (Lake Transactional/Analytical Processing), stocke les données transactionnelles natives de Postgres directement en format Delta et Iceberg dès l'écriture, éliminant ainsi les pipelines ETL qui reliaient depuis des décennies les systèmes opérationnels et analytiques. Reynold Xin, cofondateur de Databricks, a qualifié cette simplification de "saint Graal pour les agents" lors d'un entretien avec VentureBeat.
L'enjeu est structurel pour les systèmes d'IA agentiques : un agent qui raisonne en continu et agit sur des données en direct ne peut pas se permettre de traverser des pipelines de transformation avant d'accéder à l'information dont il a besoin. LTAP répond à ce défi en unissant les données au niveau de la couche de stockage, là où des approches comme l'HTAP (Hybrid Transactional/Analytical Processing, popularisé par Gartner en 2014) avaient tenté une convergence au niveau des moteurs de requête. La clé technique réside dans la conversion ligne-colonne effectuée en amont, dans la couche de cache entre les instances Postgres et le stockage objet : cette compression réduit les données d'un facteur supérieur à dix, rendant viable un accès OLTP sur un stockage objet qui présente normalement des latences de l'ordre de la seconde.
Databricks n'est pas le premier à tenter cette unification. Des acteurs comme SingleStore (anciennement MemSQL), SAP HANA ou Oracle MySQL HeatWave ont commercialisé des solutions HTAP sans jamais véritablement s'imposer comme standard. Xin considère d'ailleurs l'HTAP comme "un échec de l'industrie plutôt qu'un succès". Lakebase, le service PostgreSQL serverless de Databricks mis en disponibilité générale en février, constitue la fondation de cette nouvelle architecture. Avec la montée en puissance du "vibe coding" et des applications générées par IA, la complexité de l'infrastructure de données devient un goulot d'étranglement critique pour les agents qui doivent raisonner analytiquement en temps réel. La promesse de Databricks est simple : un seul exemplaire de la donnée, accessible simultanément par Postgres pour le transactionnel et par Spark pour l'analytique, sans copie, sans gouvernance fragmentée, sans pipeline intermédiaire.
Les entreprises européennes déployant des agents IA sur des architectures lakehouse pourraient bénéficier directement de l'élimination des pipelines ETL et d'une latence réduite pour l'accès aux données transactionnelles en temps réel.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




