Cloud Data Lake에 대한 Qumulo의 비전

무대 설정: 클라우드 데이터 레이크의 등장

또한 퍼블릭 클라우드 거의 모든 산업의 경제와 경쟁 역학을 근본적으로 변화시켰습니다. 가장 작은 신생 기업에서 가장 큰 다국적 기업에 이르기까지 CIO와 CEO는 몇 가지 명령과 신용 카드만으로 자신과 경쟁업체가 사용할 수 있는 무제한 인프라와 서비스의 영향과 씨름하고 있습니다. 새로운 시장에 진입하는 데 대한 장벽이 낮아지고 신제품 출시 시간이 줄어들고 있어 리더들은 흥분하기도 하고 두렵기도 합니다.

비정형 데이터는 이러한 근본적인 변화의 핵심입니다. 이미지, 비디오, 로그 파일, 게놈, 지도 및 텍스트 파일은 이러한 회사에서 새로운 혁신을 만들기 위해 사용하는 원자재입니다. 세계에서 가장 큰 대학 중 하나에 있는 연구 컴퓨팅 센터를 생각해 보십시오. 이 그룹은 태양의 기원과 유전자 돌연변이를 이해하고자 하는 전 세계의 과학자들에게 서비스를 제공합니다. 이 연구 센터의 경우 성공은 가장 재능 있는 과학자를 끌어들여 가장 큰 문제를 해결하는 것으로 정의됩니다. 퍼블릭 클라우드의 탄력성은 센터에서 몇 줄의 코드로 최고의 연구원을 위한 새로운 컴퓨팅 및 스토리지 리소스를 생성하고 최종 결과를 전 세계에 공유할 수 있게 함으로써 이를 가능하게 합니다.

그러나 이러한 탄력성이 작동하도록 하려면 연구 센터에 액세스 가능한 데이터 계층이 필요하고, 협업을 촉진할 수 있을 만큼 충분히 개방되어 있지만 지적 재산을 보호할 수 있을 만큼 충분히 통제되어야 합니다. 퍼블릭 클라우드는 "데이터 레이크"로 알려진 잘 알려진 아키텍처로 이 문제를 해결했습니다. 이러한 대규모 비정형 데이터 저장소는 여러 데이터 소스를 하나의 풀로 결합하고 공유 관리 시스템에 의해 모니터링 및 관리됩니다. 적절한 권한이 있으면 모든 연구원이 어디에서나 해당 데이터에 액세스하여 실험을 실행할 수 있습니다. 

과제: 파일 기반 데이터

클라우드 데이터 레이크는 다양한 유형의 데이터에 적합합니다. 데이터가 대부분 완료되고(즉, 많이 변경되지 않음) 응용 프로그램에 독립적이며 드물게 발생하거나 스트리밍 IO 패턴만 있는 경우 클라우드 데이터 레이크가 잘 작동합니다. 그러나 모든 비정형 데이터가 그 틀에 맞는 것은 아닙니다. 일부 데이터는 파일 기반 응용 프로그램에 의해 생성 및 처리되며 처리되는 동안 자주 변경되며 "작은 업데이트" IO 패턴(워크플로 과정에서 파일이 반복적으로 변경되는 경우)이 있습니다. 이러한 데이터 유형은 레거시 클라우드 데이터 레이크에서 실패합니다.

예를 들어, 현대 스튜디오에서 영화를 만드는 데 사용하는 비디오와 이미지를 생각해 보십시오. 앞서 논의한 연구 센터의 예와 마찬가지로 현대적인 스튜디오는 가장 재능 있는 아티스트를 놓고 경쟁하고 클라우드의 탄력성을 사용하여 전문 마술사가 하루 중 언제든지 지체 없이 생산성을 높일 수 있도록 합니다. 그러나 원본 이미지와 비디오를 편집하고 필름으로 변환하는 응용 프로그램은 파일 기반이며, 아티스트 워크플로는 필름이 디지털 프로덕션 라인을 통해 이동함에 따라 많은 파일에 대한 많은 변경으로 이루어집니다. 예를 들어 Amazon S3에만 구축된 레거시 클라우드 데이터 레이크는 이 워크로드를 제대로 처리하지 못합니다.

고장은 기술적이고 경제적입니다. 기술적인 문제는 데이터 레이크에 대한 현재 접근 방식의 핵심입니다. 대부분의 클라우드 제공업체는 객체 시스템(예: 아마존 S3). 강력하게 확장 가능하고 사용자 정의가 가능하지만 이러한 시스템은 기본적으로 개별 개체가 "불변"하다고 가정합니다. 그 가정은 모든 객체 시스템의 핵심입니다. 개체가 변경되면 개체가 업데이트되지 않고 개체가 삭제되고 다시 생성됩니다. 파일 기반 워크플로의 경우 파일 기반 응용 프로그램에서 기본 데이터가 반복적으로 변경될 것이라고 가정하기 때문에 이는 실제 문제입니다. 그런 가정을 할 수 없다면 우리 연구 센터와 영화 스튜디오는 응용 프로그램을 다시 작업하거나 최종 사용자에게 워크플로를 변경하도록 요청해야 합니다. 두 가지 모두 조직이 업계 최고의 인재를 유치하기 어렵게 만듭니다.

경제 붕괴는 클라우드의 가격 책정 모델과 관련이 있습니다. 객체 저장 서비스. 주요 개체 스토리지 서비스는 데이터에 대한 개별 작업에 대해 고객에게 요금을 부과합니다. 비교적 작은 20TB 개체 데이터 세트를 예로 들어 보겠습니다. Amazon S3에서 이 데이터를 저장하는 비용은 ~$420/월에 불과하며 데이터에 자주 액세스하지 않는 경우 연구 또는 영화 스튜디오에 표시되는 유일한 청구서가 됩니다. 그러나 데이터에 대해 작은 임의 IO가 수행되자마자 그 청구액은 $100,000/월 이상으로 치솟을 수 있습니다. 이유는 간단합니다. IO당 변경 사항입니다. 데이터 세트가 IOPS가 많은 워크로드의 중심에 있는 한 오늘날 클라우드 데이터 레이크의 경제 모델은 무너집니다.

앞으로의 길: 클라우드 파일 레이크

파일 기반 애플리케이션은 파일 기반 저장소에서 가장 잘 작동합니다. 이러한 애플리케이션은 혁신의 미션 크리티컬 인에이블러이며 성공을 위해 구축된 인프라를 요구합니다. 이것이 파일 시스템이 수십 년 동안 존재해 왔으며 새로운 파일 시스템(및 파일 서비스)이 항상 개발되는 이유입니다. 우리는 최신 데이터 레이크가 기본 아키텍처의 일부로 확장 가능하고 성능이 뛰어난 클라우드 네이티브 파일 시스템을 포함해야 한다고 믿습니다.

이러한 "클라우드 파일 레이크"는 고객에게 파일 데이터를 원래 저장하려는 대로 파일로 저장할 수 있는 기능을 제공합니다. 데이터 레이크에 대한 이 새로운 접근 방식은 다음과 같은 최신 파일 시스템의 기능과 함께 공용 클라우드에 확장 가능한 단일 파일 네임스페이스를 생성합니다. Qumulo 코어. 이를 통해 고객은 다음을 수행할 수 있습니다.

  • 재능 있는 최종 사용자가 기대하는(그리고 알고 있는) 응용 프로그램을 사용하고 개체를 위해 응용 프로그램을 다시 빌드하지 마십시오.
  • 모든 현대 기업(예: Active Directory)에서 입증된 표준 ID 액세스 방법을 사용하여 지적 재산을 보호합니다.
  • 파일 시스템의 조직 구조를 유지하면서 클라우드의 범위를 사용하여 조직 경계를 넘어 데이터를 공유합니다.

마지막으로 가장 중요한 것은 "클라우드 파일 레이크"가 무료로 액세스할 수 있다는 것입니다. 클라우드 파일 레이크의 지정된 파일에 대한 IO는 네임스페이스 비용에 포함됩니다. 이를 통해 합리적인 비용으로 퍼블릭 클라우드에서 높은 IO 워크로드를 실행할 수 있으며 활성 사용자 또는 애플리케이션이 예산을 초과하는 청구서를 생성할 염려가 없습니다.

요구 사항: 파일 레이크에서 찾아야 할 사항

실제 클라우드 파일 레이크는 그 중심에서 확장 가능한 파일 시스템이어야 합니다. 대규모 파일 워크로드를 처리하려면 클라우드 파일 레이크가 워크플로의 요구 사항을 충족할 수 있도록 용량과 성능이 증가할 수 있어야 합니다. 동시에 핵심 기능을 제공해야 합니다. 엔터프라이즈 데이터 스토리지 솔루션 여러 워크로드를 처리하는 데 필요합니다. 모든 클라우드 파일 레이크의 핵심이라고 생각하는 몇 가지 주요 기능은 다음과 같습니다.

  • 단일 네임스페이스에서 페타바이트, 수백 GB/s, 수십만 IOPS로 확장
  • 사용자 정의 없이 동일한 네임스페이스에서 Windows, Linux 및 Mac 클라이언트(및 애플리케이션) 제공
  • 관리자가 데이터를 보호하고 비용 초과를 방지할 수 있도록 할당량 및 스냅샷과 같은 표준 엔터프라이즈 파일 관리 도구를 제공합니다.
  • Active Directory 및 LDAP와 통합하고 세분화된 권한 제어(Windows/Mac/Linux 전반)를 제공하여 지적 재산권 위험 제어
  • CFT와 같은 표준 오케스트레이션 도구에서 파일 레이크를 생성, 보고 및 관리할 수 있도록 API 또는 명령줄에서 완전히 관리 가능

마지막으로, 클라우드 파일 레이크는 섬에 살지 않아야 합니다. 기본 기능을 통해서든 Lambda 기능과의 간단한 통합을 통해서든 클라우드 파일 레이크는 고객이 다음을 수행할 수 있도록 해야 합니다. S3 또는 기타 클라우드 객체 저장소에서 데이터 가져오기 파일 기반 작업이 완료될 때 데이터를 처리하고 객체 데이터 레이크로 내보내기 위해.

Qumulo: 최초의 클라우드 파일 레이크

Qumulo는 확장 가능한 클라우드 네이티브 파일 시스템을 구축하는 데 지난 몇 년을 보냈습니다. 당사 제품은 최신 파일 제품의 풍부한 엔터프라이즈 제어와 클라우드 네이티브 패키지의 분산형 비공유 아키텍처의 규모를 결합합니다. 우리 고객은 우리 제품을 사용하여 영화를 만들고 게놈을 배열하고 해저 지도를 만듭니다.

Qumulo는 다음과 같은 이점이 있는 단일 파일 시스템을 제공합니다.

물론 그것은 시작에 불과합니다. 아직 끝나지 않았습니다. 우리는 파일 레이크를 더욱 강력하게 만들고 클라우드 파일 워크로드의 성능을 발휘할 수 있는 더 많은 기능을 지속적으로 구축하기 위해 열심히 노력하고 있습니다. 물론 Qumulo 클라우드 가입자는 가입하기만 하면 이러한 모든 기능에 무료로 액세스할 수 있습니다. 

결론

전 세계의 혁신 주도 조직은 퍼블릭 클라우드로 전환하여 신제품을 만들고 새로운 발견을 하며 사명을 완수하고 있습니다. 그 작업의 중심에는 파일 기반 데이터가 있습니다. Qumulo는 이러한 워크로드가 해당 파일 데이터의 잠재력을 이끌어내는 기술을 기반으로 하는 데이터 레이크에서 가장 잘 처리된다고 믿습니다.

새로운 엔터프라이즈 데이터 스토리지 플레이북

새로운 엔터프라이즈 데이터 스토리지 플레이북

비정형 데이터는 어디에나 있으며 통제할 수 없는 속도로 증가하고 있습니다. CIO와 IT 리더는 이 데이터를 관리하고 경쟁력을 유지하기 위해 확장 가능한 스토리지 솔루션으로 눈을 돌리고 있습니다. 블록 스토리지, 개체 스토리지 및 파일 스토리지는 각각 고유한 기능과 제한 사항을 가지고 있습니다. 즉, 엔터프라이즈급 스토리지 시스템은 "만능" 솔루션이 아닙니다.

비정형 데이터가 중요한 이유와 귀하에게 적합한 스토리지 솔루션을 알아보십시오.

플레이북 다운로드

이 게시물을 공유하기