큐뮬로와 데이터브릭스는 엔터프라이즈 레이크하우스가 조직의 전체 데이터 자산을 아우를 수 있는 공동 통합을 완료했습니다. 온프레미스, 엣지, 주요 클라우드 등 데이터가 어디에 있든 이제 데이터브릭은 Qumulo 스토리지를 통해 데이터를 읽고, 쓰고, 관리할 수 있습니다.
레이크하우스는 데이터 레이크의 개방성과 데이터 웨어하우스의 거버넌스 및 안정성을 결합하여 최신 데이터 분석의 기반이 되었습니다. 조직은 공급업체 종속에서 벗어나고, 비용을 절감하며, 단일 플랫폼에서 분석과 AI를 통합하기 위해 이를 채택합니다. 하지만 지금까지 레이크하우스는 대부분 단일 사이트 또는 단일 지역의 클라우드 제공업체의 객체 스토리지에 국한되어 있었습니다. 이는 업계에 도움이 되었지만 대부분의 기업은 공장 센서, 지사 데이터, 의료 이미지, 애플리케이션 로그, 거래 기록 등 원시 및 브론즈 수준의 데이터를 데이터 센터, 엣지 사이트, 여러 클라우드에 걸쳐 생성 및 보관하고 있습니다. IDC는 센서 확산, IoT, AI 워크로드에 힘입어 엔터프라이즈 비정형 데이터가 2028년까지 약 16%의 연평균 성장률로 10.5ZB에 이를 것으로 예상합니다. 레이크하우스를 다음 대상으로 가져오기 모두 데이터의 위치가 어디에 있든, 다음 아키텍처 단계로 이동합니다.
Qumulo는 온프레미스, 엣지, 클라우드에서 단일 글로벌 네임스페이스로 실행되는 소프트웨어 정의 데이터 플랫폼입니다. 데이터를 복사하거나 하나의 클라우드 버킷으로 통합할 필요 없이 레이크하우스를 전체 데이터 자산으로 확장할 수 있습니다. 동일한 관리 테이블을 한 지역의 Databricks, 온프레미스 교육 작업, 다른 클라우드의 BI 도구에서 하나의 데이터 원본에 대해 쿼리할 수 있습니다.
이 포스팅에서는 다양한 레이크하우스 아키텍처를 구현하기 위해 검증된 세 가지 통합 패턴을 Databricks와 Qumulo 간에 소개합니다: (1) 플랫폼 재구축이나 마이그레이션 없이 Qumulo의 데이터에 대해 직접 Databricks 분석 및 AI를 실행하고, (2) 데이터의 위치에 관계없이 단일 관리 뷰를 위해 Qumulo 상주 테이블을 Unity 카탈로그 거버넌스로 가져오며, (3) 오픈 델타 공유를 통해 다른 Databricks 작업 공간, 다른 클라우드 및 비데이터브릭스 툴과 읽기 전용으로 Qumulo 데이터를 공유할 수 있습니다. 단계별 배포 지침은 다음을 참조하세요 큐뮬로와 데이터브릭스 통합 노트.
그림 1. 큐물로-데이터브릭스 통합 패턴의 하이레벨 아키텍처
데이터브릭스 팀을 위한 혜택
이러한 패턴은 데이터브릭을 채택하는 조직에 세 가지 결과를 제공합니다:
결과 도출 시간 단축. 원시 로그, 이미지, 원격 측정, 유전체학, 애플리케이션 레코드의 기존 데이터는 Databricks에서 그대로 읽어오기 때문에 대량 마이그레이션 비용과 시간, 요청당 S3 API 요금이 발생하지 않습니다. 검증 테스트 부하에서 Qumulo는 클라우드 개체 스토리지를 통해 데이터를 먼저 스테이징하는 동등한 워크플로우에 비해 API 관련 스토리지 비용이 60% 이상 절감되고 첫 번째 결과 도출 시간이 40% 이상 단축되는 것을 확인했습니다.
하나의 카피, 많은 소비자. 동일한 데이터가 클라우드의 Databricks, 온프레미스의 학습 작업, 엣지 애플리케이션, 기타 분석 및 AI 도구에서 동시에 사용됩니다. 환경마다 버전이 달라지는 대신 모두가 단일 데이터 소스를 기반으로 작업합니다.
대량 마이그레이션 없이 통합된 거버넌스. Qumulo의 테이블은 Unity 카탈로그를 통해 관리되며, 권한, 감사 및 계보가 노트북과 대시보드 전반에서 분석가와 BI 팀에 일관되게 적용됩니다.
검증된 세 가지 패턴
각 패턴에 따라 데이터와 거버넌스의 위치가 달라지며, 대부분의 프로덕션 배포에서는 이 두 가지를 결합합니다. 고객은 이러한 통합을 조합하여 배포할 수 있다는 점에 유의해야 합니다.
패턴 A. 큐물로는 원시 데이터와 기록 데이터를 보유하고, 데이터브릭스는 큐레이션된 테이블을 보유합니다. 데이터브릭스는 Qumulo에서 소스 데이터를 읽고, 실버 및 골드 변환을 적용하고, 큐레이션된 델타 테이블을 Unity 카탈로그 관리형 스토리지에 씁니다. 서버리스 SQL 웨어하우스는 BI 및 분석을 위해 골드 테이블을 쿼리합니다. 데이터브릭스를 처음 사용하는 조직이 첫 번째 큐레이션 레이어를 Unity 카탈로그에서 기본적으로 관리하기를 원할 때 가장 적합합니다.
패턴 B. 모든 메달리온 등급(브론즈, 실버, 골드)은 큐물로에서 델타 테이블로 표시됩니다. 테이블은 데이터브릭이 Unity 카탈로그에 페더레이션하는 Hive 메타스토어에 등록됩니다. 다목적 컴퓨팅은 이 경로를 통해 읽고 쓰며, 서버리스 SQL 웨어하우스는 Unity 카탈로그를 통해 쿼리합니다. 조직이 전체 레이크하우스를 Qumulo에 유지하면서 Unity 카탈로그 거버넌스, 계보 및 감사의 이점을 계속 활용하고자 할 때 가장 적합합니다.
패턴 C: 델타 공유를 통해 Qumulo는 Unity 카탈로그 및 기타 소비자에게 델타 테이블을 읽기 전용으로 노출할 수 있습니다. 데이터브릭 및 기타 도구는 델타 공유 프로토콜을 통해 단기간 액세스되며, 데이터는 소비자에게 복사되지 않습니다. 이는 여러 소비자(다른 Databricks 작업 공간, Snowflake, BI 도구)와 여러 클라우드에 걸쳐 Qumulo 데이터를 공유하는 데 가장 적합합니다.
세 가지 패턴에 대한 단계별 절차는 다음과 같습니다 큐뮬로와 데이터브릭스 통합 노트.