Aller au contenu principal
Databricks affirme avoir résolu le problème des pipelines de données qui freinait les agents IA depuis des décennies
InfrastructureVentureBeat AI9h· 2 min de lecture

Databricks affirme avoir résolu le problème des pipelines de données qui freinait les agents IA depuis des décennies

Source originale ↗·

Lors du Data + AI Summit de mardi, Databricks a annoncé deux nouveaux produits conçus pour résoudre un problème vieux de plusieurs décennies dans le domaine des données : la coexistence des bases de données transactionnelles et analytiques. La première annonce, Lakehouse//RT, promet une latence de requête en quelques millisecondes directement sur les tables Delta et Iceberg gouvernées, supprimant la couche de service temps réel distincte que les entreprises maintenaient en parallèle de leurs lakehouses. La seconde, LTAP (Lake Transactional/Analytical Processing), stocke les données transactionnelles natives de Postgres directement en format Delta et Iceberg dès l'écriture, éliminant ainsi les pipelines ETL qui reliaient depuis des décennies les systèmes opérationnels et analytiques. Reynold Xin, cofondateur de Databricks, a qualifié cette simplification de "saint Graal pour les agents" lors d'un entretien avec VentureBeat.

L'enjeu est structurel pour les systèmes d'IA agentiques : un agent qui raisonne en continu et agit sur des données en direct ne peut pas se permettre de traverser des pipelines de transformation avant d'accéder à l'information dont il a besoin. LTAP répond à ce défi en unissant les données au niveau de la couche de stockage, là où des approches comme l'HTAP (Hybrid Transactional/Analytical Processing, popularisé par Gartner en 2014) avaient tenté une convergence au niveau des moteurs de requête. La clé technique réside dans la conversion ligne-colonne effectuée en amont, dans la couche de cache entre les instances Postgres et le stockage objet : cette compression réduit les données d'un facteur supérieur à dix, rendant viable un accès OLTP sur un stockage objet qui présente normalement des latences de l'ordre de la seconde.

Databricks n'est pas le premier à tenter cette unification. Des acteurs comme SingleStore (anciennement MemSQL), SAP HANA ou Oracle MySQL HeatWave ont commercialisé des solutions HTAP sans jamais véritablement s'imposer comme standard. Xin considère d'ailleurs l'HTAP comme "un échec de l'industrie plutôt qu'un succès". Lakebase, le service PostgreSQL serverless de Databricks mis en disponibilité générale en février, constitue la fondation de cette nouvelle architecture. Avec la montée en puissance du "vibe coding" et des applications générées par IA, la complexité de l'infrastructure de données devient un goulot d'étranglement critique pour les agents qui doivent raisonner analytiquement en temps réel. La promesse de Databricks est simple : un seul exemplaire de la donnée, accessible simultanément par Postgres pour le transactionnel et par Spark pour l'analytique, sans copie, sans gouvernance fragmentée, sans pipeline intermédiaire.

Impact France/UE

Les entreprises européennes déployant des agents IA sur des architectures lakehouse pourraient bénéficier directement de l'élimination des pipelines ETL et d'une latence réduite pour l'accès aux données transactionnelles en temps réel.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

L'eau : pas un problème de centres de données, mais un problème d'IA
1The Information AI 

L'eau : pas un problème de centres de données, mais un problème d'IA

La consommation d'eau liée à l'intelligence artificielle est bien plus importante qu'on ne le pense, mais elle ne se concentre pas là où le débat public se focalise. Selon un rapport publié en janvier 2026 par la société de technologie de l'eau Xylem et le cabinet Global Water Intelligence, les usines de fabrication de semi-conducteurs et les centrales électriques qui les alimentent consomment beaucoup plus d'eau que les centres de données eux-mêmes. En 2025, le secteur IA retire 6 260 milliards de litres d'eau par an, un chiffre qui devrait plus que doubler d'ici 2050. Par comparaison, le premier site de Microsoft dans son complexe Fairwater au Wisconsin, l'un des plus grands campus de data centers au monde, ne consomme que l'équivalent de quatre piscines olympiques par an, soit la moitié de la consommation annuelle d'un lave-auto, et 0,1 % de ce que le fabricant Foxconn aurait été autorisé à prélever sur le même terrain, selon Brad Smith, président de Microsoft. Cette efficacité s'explique par l'adoption de systèmes de refroidissement en circuit fermé qui réduisent la consommation d'eau douce de 50 à 70 % par rapport aux anciens équipements. Ce déplacement du problème vers l'amont de la chaîne d'approvisionnement a des conséquences concrètes pour les territoires et les écosystèmes. Aujourd'hui, 40 % des centres de données mondiaux et 29 % des usines de puces électroniques sont implantés dans des zones souffrant d'un stress hydrique élevé ou extrême. Le refroidissement à l'électricité, qui remplace l'évaporation dans les nouveaux data centers, transfère en réalité la pression vers le réseau électrique : les centrales utilisent elles-mêmes de grandes quantités d'eau, et la consommation électrique des infrastructures IA par mètre carré atteint déjà dix fois celle du cloud traditionnel. Avec les futurs racks Nvidia à un mégawatt, cet écart pourrait grimper à cent fois la norme d'avant l'IA. Le numérique représente certes seulement 3,7 % des 168 800 milliards de litres consommés chaque année par l'industrie mondiale, mais c'est le secteur où la croissance est la plus rapide. Le tableau n'est pas uniformément alarmant. Les centrales électriques restituent plus de 90 % de l'eau utilisée pour leur refroidissement, même si elle nécessite parfois un traitement. La transition vers les énergies renouvelables, moins gourmandes en eau que le charbon ou le gaz, pourrait réduire significativement l'intensité hydrique de la production électrique dans les prochaines décennies. Les industriels investissent aussi dans la réutilisation des eaux usées : la société Ecolab a aidé une usine américaine de semi-conducteurs à économiser près de 42 millions de litres grâce à des processus optimisés. Le vrai enjeu n'est donc pas de condamner les data centers, mais d'imposer une transparence et des normes sur l'ensemble de la chaîne IA, des fonderies de puces en Asie aux centrales à gaz d'Amérique du Nord.

UELes centres de données et usines de puces européens sont exposés aux mêmes tensions hydriques, et l'UE pourrait être amenée à étendre ses obligations de transparence environnementale à l'ensemble de la chaîne d'approvisionnement IA, des fonderies aux centrales électriques.

InfrastructureOpinion
1 source
Du data lake à l'analyse compatible IA : nouvelle source de données avec S3 Tables dans Amazon QuickSight
2AWS ML Blog 

Du data lake à l'analyse compatible IA : nouvelle source de données avec S3 Tables dans Amazon QuickSight

Amazon a annoncé l'intégration des S3 Tables au format Apache Iceberg comme nouvelle source de données dans Amazon QuickSight, son service d'analyse et de business intelligence piloté par l'IA. Cette mise à jour permet aux entreprises de requêter directement des tables Iceberg stockées dans un S3 table bucket, sans passer par des couches intermédiaires comme un entrepôt de données ou un système OLAP. QuickSight supporte désormais deux modes d'interrogation pour ces tables : Direct Query, qui offre un accès en quasi-temps réel aux données, et SPICE (Super-fast, Parallel, In-memory Calculation Engine), son moteur de calcul en mémoire haute performance. Pour illustrer le cas d'usage, Amazon cite l'exemple d'AnyCompany Corp., une institution financière mondiale qui ingère des transactions en temps réel via Amazon Kinesis Data Streams et Amazon Data Firehose vers un S3 table bucket, permettant une détection de fraude et un suivi des taux d'approbation quasi instantanés depuis des sources hétérogènes : terminaux de paiement, applications mobiles, objets connectés et passerelles en ligne. Cet ajout représente une avancée concrète pour les équipes data et analytique des grandes entreprises. Jusqu'ici, analyser des données à grande échelle stockées dans un data lake nécessitait généralement de les déplacer vers un entrepôt de données ou un système OLAP, ce qui introduisait de la latence, des coûts supplémentaires et une complexité opérationnelle importante. En permettant de requêter directement le data lake depuis QuickSight, Amazon élimine ces pipelines de transformation coûteux. Les utilisateurs métiers peuvent ainsi explorer des jeux de données massifs, interagir en langage naturel et obtenir des visualisations à jour sans dépendre de processus batch ni nécessiter d'expertise en machine learning. La scalabilité constitue un autre avantage clé : les requêtes portent sur des volumes importants stockés dans S3 sans contrainte de taille ni besoin de réplication préalable. Cette annonce s'inscrit dans la montée en puissance des architectures de données modernes autour des formats de table ouverts comme Apache Iceberg, conçus pour offrir de meilleures performances, une gouvernance simplifiée et des coûts réduits par rapport aux entrepôts traditionnels. Amazon, Microsoft et Google se livrent une concurrence intense sur le segment de l'analytique cloud, chacun cherchant à rendre ses services d'analyse plus accessibles et plus proches des données sources. En intégrant les S3 Tables à QuickSight, AWS renforce son positionnement autour du concept de "source unique de vérité" dans le data lake, tout en réduisant la dépendance aux solutions tierces comme Snowflake ou Databricks. La prochaine étape logique pourrait être une intégration plus poussée des capacités d'IA générative de QuickSight avec ces nouvelles sources, afin d'automatiser davantage la détection d'anomalies et la génération d'insights à la volée.

InfrastructureActu
1 source
Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes
3VentureBeat AI 

Definity intègre des agents dans les pipelines Spark pour détecter les erreurs en amont des systèmes d'IA autonomes

Definity, une startup spécialisée dans la fiabilité des pipelines de données, basée à Chicago, a annoncé mercredi une levée de fonds de 12 millions de dollars en série A, menée par GreatPoint Ventures avec la participation de Dynatrace, StageOne Ventures et Hyde Park Venture Partners. La société a développé une approche radicalement différente de la surveillance des pipelines : plutôt que d'analyser ce qui s'est passé après l'exécution d'un job, elle intègre un agent directement à l'intérieur du moteur Spark ou DBT, pendant que le pipeline tourne. Concrètement, un agent JVM s'installe en une seule ligne de code sous la couche plateforme, capturant en temps réel le comportement des requêtes, la pression mémoire, le déséquilibre des données et les patterns de shuffle. L'agent peut alors intervenir activement : réallouer des ressources à mi-parcours, stopper un job avant que des données corrompues ne se propagent, ou bloquer un pipeline en aval si la table d'entrée en amont est périmée. Un client entreprise a identifié 33 % de ses opportunités d'optimisation dès la première semaine de déploiement, réduit de 70 % l'effort de débogage, et résout désormais les problèmes Spark complexes jusqu'à dix fois plus vite. L'enjeu va bien au-delà de l'efficacité opérationnelle : avec l'essor des systèmes d'IA agentiques, la fiabilité des données en entrée devient critique. Un pipeline qui échoue silencieusement ou livre des données obsolètes ne casse plus seulement un tableau de bord, il compromet l'ensemble du système d'IA qui en dépend. La distinction est fondamentale : la détection et la prévention sont en temps réel, tandis que l'analyse des causes profondes et les recommandations d'optimisation s'effectuent à la demande, avec tout le contexte d'exécution déjà assemblé. L'agent n'ajoute qu'environ une seconde de calcul sur un job d'une heure. Seules les métadonnées transitent à l'extérieur, et un déploiement entièrement on-premises est disponible pour les environnements sensibles. Les outils existants, qu'il s'agisse de Datadog (qui a racheté Metaplane l'an dernier), des system tables Databricks, ou de plateformes comme Unravel Data et Acceldata, lisent tous les métriques une fois le job terminé. Comme le résume Roy Daniel, CEO et co-fondateur de Definity : « Le moment où vous apprenez qu'un problème s'est produit, il s'est déjà produit. » Le marché de l'observabilité des données est en pleine structuration, porté par la multiplication des pipelines complexes et l'exigence croissante des systèmes d'IA en production. Nexxen, plateforme adtech opérant de large pipelines Spark pour la publicité en temps réel, fait partie des premiers clients en production. La participation de Dynatrace au tour de table est notable : l'entreprise, spécialiste de l'observabilité IT, investit ainsi dans une approche concurrente à ses propres capacités de monitoring, signe que la niche de l'exécution inline commence à être prise au sérieux.

UEDynatrace, éditeur autrichien d'observabilité IT coté en bourse, participe au tour de table de Definity, signalant l'intérêt croissant des acteurs européens pour la surveillance inline des pipelines de données critiques aux systèmes d'IA en production.

InfrastructureActu
1 source
Oracle unifie sa pile de données IA pour offrir aux agents d'entreprise une source unique de vérité
4VentureBeat AI 

Oracle unifie sa pile de données IA pour offrir aux agents d'entreprise une source unique de vérité

Oracle a annoncé cette semaine un ensemble de nouvelles capacités pour sa plateforme Oracle AI Database, articulées autour d'un composant central baptisé Unified Memory Core. Ce moteur transactionnel unique traite simultanément des données vectorielles, JSON, graphes, relationnelles, spatiales et en colonnes — sans couche de synchronisation intermédiaire. L'annonce comprend également Vectors on Ice, un service d'indexation vectorielle native sur les tables Apache Iceberg, un service managé Autonomous AI Vector Database gratuit au démarrage, et un serveur MCP permettant aux agents externes d'accéder directement à la base de données sans code d'intégration personnalisé. Oracle, dont l'infrastructure de base de données équipe les systèmes transactionnels de 97 % des entreprises du Fortune Global 100 selon ses propres chiffres, positionne ces fonctionnalités comme une réponse architecturale directe aux problèmes rencontrés en production par les équipes déployant des agents IA. Le problème que cherche à résoudre Oracle est précis : les agents IA construits sur une combinaison de bases vectorielles, relationnelles, de graphes et de lakehouses nécessitent des pipelines de synchronisation pour maintenir leur contexte à jour — et sous charge de production, ce contexte devient obsolète. En centralisant tous les types de données dans un seul moteur ACID, Oracle élimine ce besoin de synchronisation et garantit une cohérence transactionnelle sur l'ensemble des formats. La fonctionnalité Vectors on Ice s'adresse spécifiquement aux équipes utilisant Apache Iceberg avec Databricks ou Snowflake : l'index vectoriel se met à jour automatiquement à mesure que les données sous-jacentes évoluent, permettant des requêtes combinant recherche vectorielle et données relationnelles ou graphes dans une seule opération. Le serveur MCP applique automatiquement les contrôles d'accès par ligne et par colonne d'Oracle, quelle que soit la requête émise par l'agent. Cette annonce s'inscrit dans un marché en pleine recomposition. Les bases vectorielles spécialisées comme Pinecone, Qdrant ou Weaviate ont émergé comme points d'entrée naturels pour les développeurs IA, mais Oracle fait le pari que ces outils ne constituent qu'une étape transitoire avant que les entreprises ne cherchent une infrastructure unifiée et cohérente pour aller en production. Maria Colgan, vice-présidente en charge des moteurs de données mission-critical chez Oracle, a reconnu ouvertement que toutes les données d'entreprise ne résident pas dans Oracle — une concession inhabituelle pour l'éditeur — mais argue que le Unified Memory Core offre un avantage structurel là où la fragmentation du stack devient un frein opérationnel. L'enjeu est de taille : convaincre les architectes data que le bon endroit pour faire tourner des agents IA en production n'est pas un assemblage de services spécialisés, mais le moteur de base de données lui-même.

UELes entreprises européennes déployant des agents IA avec des stacks fragmentés (Oracle + Databricks/Snowflake) peuvent réduire leur complexité opérationnelle en production, sans impact réglementaire direct sur la France ou l'UE.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic