QumuloとDatabricksは、エンタープライズ・レイクハウスを組織全体のデータ資産にまたがるようにする共同統合を完了した。 オンプレミス、エッジ、主要クラウドのどこにデータがあっても、DatabricksはQumuloストレージを通じて、データの読み取り、書き込み、管理を行うことができる。
レイクハウスは、データレイクのオープン性とデータウェアハウスのガバナンスと信頼性を組み合わせることで、最新のデータ分析の基盤となっている。企業はデータレイクハウスを採用することで、ベンダーの囲い込みから逃れ、コストを削減し、アナリティクスとAIを単一のプラットフォーム上で統一する。しかし、これまでレイクハウスは、その大部分が単一地域の単一サイトまたはクラウドプロバイダーのオブジェクトストレージに限定されていた。工場のセンサー、支店のデータ、医療画像、アプリケーション・ログ、トランザクション記録など、すべてのデータがデータセンター、エッジ・サイト、複数のクラウドにまたがって生成され、保持されている。IDCは、企業の非構造化データは、センサーの普及、IoT、AIワークロードに後押しされ、2028年まで年平均成長率約16%で成長し、10.5 ZBに達すると予測している。レイクハウスを すべて そのデータがどこに存在しようとも、それが次のアーキテクチャー・ステップである。
Qumuloは、単一のグローバルネームスペースとしてオンプレミス、エッジ、クラウドで動作するソフトウェア定義データプラットフォームです。Databricksと組み合わせることで、データをコピーしたり1つのクラウドバケットに統合したりすることなく、レイクハウスをデータエステート全体に拡張することができる。あるリージョンではDatabricksが、オンプレミスではトレーニングジョブが、別のクラウドではBIツールが、1つのソース・オブ・トゥルースに対して、同じガバメントテーブルをクエリできる。
この投稿では、DatabricksとQumuloの間で有効な3つの統合パターンを紹介し、異なるレイクハウスアーキテクチャを可能にします:(1) DatabricksのアナリティクスとAIをQumulo上のデータに対して直接実行し、再プラットフォームやマイグレーションを行わない。(2) Qumuloに常駐するテーブルをUnity Catalogのガバナンス下に置き、データの保存場所に関係なく単一のガバナンスビューを実現する。(3) オープンなDelta Sharingを通じて、Qumuloのデータを他のDatabricksワークスペース、他のクラウド、Databricks以外のツールと読み取り専用で共有する。ステップバイステップの導入ガイダンスについては QumuloとDatabricksの統合ノート。
図1.Qumulo-Databricks統合パターンのハイレベル・アーキテクチャ
Databricksチームのメリット
これらのパターンは、Databricksを採用する組織に3つの成果をもたらす:
結果を出すまでの時間を短縮。 Qumulo上の生ログ、画像、遠隔測定、ゲノミクス、アプリケーション記録などの既存データは、Databricksによってそのまま読み込まれるため、一括移行コストと時間、リクエストごとのS3 API料金が不要になります。検証テストの負荷において、Qumuloは、最初にクラウドオブジェクトストレージを通してデータをステージングする同等のワークフローと比較して、API関連のストレージコストが60%以上削減され、最初に結果を得るまでの時間が40%以上圧縮された。
一冊で多くの消費者に。 同じデータが、クラウドのDatabricks、オンプレミスのトレーニングジョブ、エッジアプリケーション、その他のアナリティクスやAIツールで同時に使用される。環境間でバージョンがばらばらになるのではなく、誰もが単一の真実のソースに対して作業する。
一括移行なしで統一されたガバナンス。 Qumulo上のテーブルは、Unityカタログを通じて管理され、権限、監査、リネージは、ノートブックとダッシュボードを横断して、アナリストとBIチームに一貫して適用されます。
有効な3つのパターン
それぞれのパターンでデータとガバナンスの位置づけは異なり、ほとんどの本番導入ではこれらを組み合わせている。 顧客はこれらの統合を組み合わせて導入できることに留意すべきである。
パターンA. Qumuloは生データと履歴データを保持し、Databricksはキュレーションされたテーブルを保持する。 DatabricksのコンピュートはQumulo上のソースデータを読み込み、SilverとGoldの変換を適用し、キュレーションされたDeltaテーブルをUnity Catalogのマネージドストレージに書き込む。サーバーレスSQLウェアハウスは、BIとアナリティクスのためにGoldテーブルにクエリを実行します。 組織がDatabricksを使い始め、最初のキュレーションレイヤーをUnity Catalogでネイティブに管理したい場合に最適です。
パターンB. すべてのメダリオン・ティア(ブロンズ、シルバー、ゴールド)は、デルタ・テーブルとしてQumuloに存在する。 テーブルは、DatabricksがUnity CatalogにフェデレートするHiveメタストアに登録される。All-Purpose Computeはこのパスを通して読み書きを行い、Serverless SQL WarehousesはUnity Catalogを通してクエリーを行います。 Unity Catalogのガバナンス、リネージ、監査の恩恵を受けながら、レイクハウス全体をQumuloに残したい場合に最適です。
パターンC:デルタ共有により、QumuloはデルタテーブルをUnityカタログや他のコンシューマーに読み取り専用で公開することができます。 データベースリックやその他のツールは、デルタ共有プロトコルを介して短時間のアクセスを得るが、コンシューマーにデータがコピーされることはない。 これは、複数のコンシューマー(他のDatabricksワークスペース、Snowflake、BIツール)や複数のクラウド間でQumuloデータを共有する場合に最適です。
3つのパターンすべてのステップバイステップの手順は QumuloとDatabricksの統合ノート。