Qumulo LogoQumulo Logo

Blog

Lakehouse Patterns sur Qumulo avec Databricks

Lakehouse Patterns sur Qumulo avec Databricks

Qumulo et Databricks ont réalisé une intégration conjointe qui permet aux entrepôts de données d'entreprise de couvrir l'ensemble des données d'une organisation. Quel que soit l'endroit où se trouvent les données, sur site, à la périphérie ou dans n'importe quel nuage majeur, Databricks peut désormais les lire, les écrire et les gérer par le biais du stockage Qumulo.

Le lakehouse est devenu le fondement de l'analyse moderne des données en combinant l'ouverture d'un lac de données avec la gouvernance et la fiabilité d'un entrepôt de données. Les organisations l'adoptent pour échapper au verrouillage des fournisseurs, réduire les coûts et unifier leur analyse et leur IA sur une plateforme unique. Mais jusqu'à présent, les lacs de données ont été largement confinés à un seul site ou au stockage d'objets d'un fournisseur de cloud dans une seule région. Cela a bien servi l'industrie, mais la plupart des entreprises ont leurs données brutes et de niveau bronze partout : capteurs d'usine, données de succursales, imagerie médicale, journaux d'application, enregistrements transactionnels, tous générés et conservés dans des centres de données, des sites périphériques et de multiples clouds. IDC prévoit que les données non structurées des entreprises augmenteront à un taux de croissance annuel moyen d'environ 16 % jusqu'en 2028 pour atteindre 10,5 ZB, alimentées par la prolifération des capteurs, l'IoT et les charges de travail d'IA. Amener la maison du lac à tous de ces données, où qu'elles se trouvent, est la prochaine étape architecturale.

Qumulo est une plateforme de données définie par logiciel qui fonctionne sur site, en périphérie et dans le nuage en tant qu'espace de noms global unique. Associée à Databricks, elle permet à la "lakehouse" de s'étendre à l'ensemble des données sans qu'il soit nécessaire de copier ou de consolider les données dans un seul "bucket" dans le nuage. Les mêmes tables gouvernées peuvent être interrogées par Databricks dans une région, par un travail de formation sur site et par un outil de BI dans un autre nuage, par rapport à une seule source de vérité.

Ce billet présente trois modèles d'intégration validés entre Databricks et Qumulo pour permettre différentes architectures Lakehouse : (1) exécuter les analyses et l'IA Databricks directement contre les données sur Qumulo, sans replatformer ni migrer ; (2) amener les tables résidentes de Qumulo sous la gouvernance Unity Catalog, pour une vue gouvernée unique, quel que soit l'emplacement des données ; et (3) partager les données Qumulo, en lecture seule, avec d'autres espaces de travail Databricks, d'autres nuages et des outils non Databricks via le partage ouvert Delta. Pour des conseils de déploiement étape par étape, voir le document Note d'intégration Qumulo et Databricks.

Figure 1. Architecture de haut niveau des modèles d'intégration Qumulo-Databricks 

Avantages pour les équipes de Databricks

Ces modèles permettent aux organisations qui adoptent les Databricks d'obtenir trois résultats :

  • Des résultats plus rapides. Les données existantes sur Qumulo provenant des journaux bruts, de l'imagerie, de la télémétrie, de la génomique et des enregistrements d'application sont lues par Databricks en place, ce qui élimine les coûts et le temps de migration en vrac ainsi que les frais d'API S3 par demande. Lors des tests de validation, Qumulo a vu les coûts de stockage liés à l'API réduits d'au moins 60 % et le temps d'obtention des premiers résultats compressé d'au moins 40 % par rapport à des flux de travail équivalents qui stockaient d'abord les données dans le stockage d'objets dans le nuage.

  • Un exemplaire, plusieurs consommateurs. Les mêmes données sont utilisées simultanément par Databricks dans le cloud, par des tâches de formation sur site, par des applications périphériques et par d'autres outils d'analyse et d'IA. Tout le monde travaille à partir d'une seule source de vérité au lieu que les versions s'éloignent les unes des autres à travers les environnements.

  • Gouvernance unifiée sans migration massive. Les tables sur Qumulo sont régies par Unity Catalog, avec des autorisations, un audit et un lignage appliqués de manière cohérente aux analystes et aux équipes de BI dans les carnets et les tableaux de bord.

Trois modèles validés

Chaque modèle positionne les données et la gouvernance différemment, et la plupart des déploiements en production les combinent. Il convient de noter que les clients peuvent déployer une combinaison de ces intégrations. 

Modèle A. Qumulo contient les données brutes et historiques, Databricks contient les tables curatées. Databricks compute lit les données sources sur Qumulo, applique les transformations Silver et Gold, et écrit les tables Delta curées dans le stockage géré Unity Catalog. Les entrepôts SQL sans serveur interrogent les tables Gold pour la BI et l'analyse. Cette solution est idéale lorsqu'une organisation commence à utiliser Databricks et qu'elle souhaite que sa première couche curatée soit gouvernée nativement par Unity Catalog.

Modèle B. Tous les niveaux de médaillons (Bronze, Argent, Or) sont disponibles sur Qumulo en tant que tables Delta. Les tables sont enregistrées dans un métastore Hive que Databricks fédère dans Unity Catalog. All-Purpose Compute lit et écrit à travers ce chemin ; les Serverless SQL Warehouses interrogent à travers Unity Catalog. C'est la meilleure solution lorsqu'une organisation souhaite conserver l'ensemble de ses données sur Qumulo tout en bénéficiant de la gouvernance, du lignage et de l'audit d'Unity Catalog.

Schéma C : Avec Delta Sharing, Qumulo peut exposer les tables Delta en lecture seule à Unity Catalog et à d'autres consommateurs. Les banques de données et autres outils bénéficient d'un accès de courte durée via le protocole Delta Sharing, sans qu'aucune donnée ne soit copiée sur le consommateur. C'est la meilleure solution pour partager les données Qumulo entre plusieurs consommateurs (autres espaces de travail Databricks, Snowflake, outils de BI) et entre plusieurs nuages.

Les procédures étape par étape pour les trois modèles se trouvent dans la section Note d'intégration Qumulo et Databricks.

Lakehouse Patterns sur Qumulo avec Databricks