AWS에서 Qumulo의 스케일 아웃 파일 시스템이 고유한 이유는 무엇입니까? (1 부)

AWS 클라우드 마이그레이션을 위한 파일 시스템

2부로 구성된 이 시리즈는 Qumulo의 분산 확장형 파일 시스템을 고유하게 만드는 요소를 탐구합니다. AWS. 아래 1부에서는 쿠물로 클라우드 Q 소프트웨어 아키텍처는 성능 및 동적 확장성을 위해 구축되어 클라우드 또는 하이브리드 클라우드 환경에서 실행되는 고성능 워크로드에 대한 다중 프로토콜 파일 액세스를 지원합니다. 2부에서는 중점적으로 S3 버킷과 클러스터 간에 객체를 복사하는 방법.

클라우드에서 엔터프라이즈 파일 서비스가 필요한 이유

비정형 데이터의 급속한 성장, 계속 증가하는 스토리지 용량 요구 사항, 엄격한 예산 사이에서 IT 부서는 데이터 센터 문제에 직면해 있습니다. 자본 지출과 확장성 부족이 혁신을 가로막는 장애물이며 정당화하기가 점점 더 어려워지고 있습니다. 클라우드 마이그레이션은 무제한 성능과 스토리지 확장성을 위한 확실한 솔루션입니다. 고성능 데이터 전략을 위한 비용 관리.

리프트 앤 시프트 클라우드 마이그레이션

전 세계의 기업들은 데이터와 애플리케이션을 클라우드로 이동하기로 선택하고 있지만 많은 사람들에게 있어 문제는 위험을 최소화하면서 신속하게 이동하는 방법입니다. 가장 빠른 것 중 하나 클라우드 마이그레이션 방법은 "리프트 앤 시프트"이며, 이는 워크로드에 대한 주요 재설계 없이 기존 애플리케이션을 이동하는 것을 의미합니다. 그리고 대부분의 온프레미스 애플리케이션이 Unix/Linux 및/또는 Windows용 파일 시스템과 함께 작동하기 때문에 클라우드에는 엔터프라이즈급 파일 시스템이 필요합니다.

엔터프라이즈 데이터를 클라우드로 마이그레이션할 때의 과제

조직이 마이그레이션됨에 따라 페타바이트 규모의 고성능 컴퓨팅 클라우드로의 워크로드는 확장 가능한 선택을 포함한 고유한 문제에 직면해 있습니다. 엔터프라이즈 데이터 스토리지 솔루션 기본 형식의 데이터를 사용하여 HPC(고성능 컴퓨팅) 워크플로 및 응용 프로그램을 저장, 관리 및 구축할 수 있습니다.

파일 시스템 종속 워크로드를 클라우드로 마이그레이션할 때 CIO 및 시스템 관리자는 다음 마이그레이션 문제를 해결하는 솔루션이 필요합니다.

  • 모든 프로토콜에서 동시에 데이터에 액세스할 수 있어야 합니다.
  • 권한 ACL은 POSIX와 Windows, 그리고 잠재적으로 FTP 또는 HTTP와 같은 다른 프로토콜 간에 투명하게 "변환"되어야 합니다.
  • 솔루션에는 스냅샷, 할당량, Kerberos 통합 및 UID/SID 매핑과 같이 스토리지 관리자가 온프레미스에서 사용하는 엔터프라이즈 기능이 있어야 합니다.
  • 동시에 솔루션은 클라우드 네이티브 통합으로 소프트웨어 정의되어야 합니다. 예를 들어 Cloud Formation 템플릿을 통한 자동화된 구현 또는 테라 폼 뿐만 아니라 Amazon CloudWatch와의 통합
  • 솔루션은 다음과 같아야 합니다. 확장성 서비스 중단 없이 실시간으로 용량 및 성능 확장 가능
  • 시스템이 처리할 수 있어야 합니다. 수십억 개의 파일 백업, 분석 또는 사용성 통계 생성과 같은 특정 작업에 대해 트리 워크를 수행할 필요 없이
  • 솔루션은 SMB, NFS 및 때로는 FTP를 지원해야 합니다.
  • 다중 클라우드 전략을 사용하는 회사는 동일한 API, 관리, 클라우드 통합, 성능 계층, 백업 방법, 액세스 프로토콜 등
  • 대부분의 경우 중앙 데이터 리포지토리가 S3에 있기 때문에 솔루션에서는 파일 시스템과 Amazon Simple Storage Service(S3) 간에 데이터를 이동할 수 있습니다.
  • 또는 S3의 파일 데이터에 대해 작동하는 Amazon 기본 서비스로 처리하려는 파일 시스템에 데이터가 있을 수 있습니다.
  • 파일 시스템은 온프레미스 데이터를 클라우드로 쉽게 이동할 수 있도록 하이브리드 클라우드 환경을 지원해야 합니다.
    이상적으로 솔루션에는 다음이 포함됩니다. 실시간 성능 및 용량 분석 사용 패턴, 활용도 및 비용 최적화에 대한 통찰력 확보

Qumulo는 레거시 스케일 아웃 및 스케일 업 솔루션이 오늘날의 데이터 볼륨, 파일 유형, 애플리케이션 및 워크로드를 처리하도록 설계되지 않았음을 인식했습니다. 기존 데이터 스토리지 시스템은 단순히 클라우드에 대한 경로를 제공할 수 없으므로 더 나은 시스템을 구축했습니다.

아래에서 우리는 어떻게 Qumulo 코어 소프트웨어는 온프레미스 및 클라우드에서 이러한 요구 사항을 해결합니다. 당사 고유의 하이브리드 클라우드 접근 방식이 어떻게 비정형 데이터를 AWS 및 관련 애플리케이션으로 마이그레이션하는 것을 크게 단순화하여 데이터 센터와 클라우드 환경 간에 데이터를 원활하게 관리할 수 있는지 자세히 살펴봅니다.

EC2, EBS 및 S3를 기반으로 구축된 클라우드 네이티브 파일 스토리지 솔루션

AWS용 Qumulo Cloud Q Amazon Elastic Compute Cloud(EC2), Amazon Elastic Block Store(EBS) 볼륨 및 Amazon Simple Storage Service(S3)를 기반으로 구축된 클라우드 네이티브 파일 스토리지 솔루션입니다. 다음을 포함하여 다른 엔터프라이즈 데이터 스토리지 솔루션을 능가하는 많은 흥미로운 기능을 제공합니다.

  • AWS 전초 기지 지원
  • 가능 AWS GovCloud(미국)
  • 수평 확장 아키텍처: 단일 네임스페이스에서 현재 약 100PB 이상인 30개의 인스턴스로 확장
  • 평균 약 1ms의 짧은 대기 시간으로 매우 높은 집계 처리량
  • 다중 프로토콜: NFS/SMB/FTP/HTTP를 통해 동시에 파일에 액세스할 수 있습니다.
  • 파일 데이터를 기본 및 디렉터리 기반으로 S3 버킷으로 복사하고 그 반대로 복사
  • 완전히 프로그래밍 가능한 API
  • 자동화된 배포를 위한 고급 CFT
  • Kerberos/Active Directory 통합
  • 스냅샷 통합
  • 실시간 할당량
  • 멀티 클라우드 복제 및 온프레미스에서 AWS로 복제

Qumulo 코어 파일 시스템은 어떻게 구축됩니까?

쿠물로 코어 하이브리드 클라우드 파일 시스템 자주 업데이트되는 제거된 Ubuntu LTS 버전 위에서 실행되는 사용자 공간 응용 프로그램으로 구축되었습니다. 4개 노드에서 시작하여 현재까지 100개 노드로 확장되는 클러스터형 시스템입니다. 가장 작은 클러스터는 1TB만큼 작을 수 있지만 가장 큰 배포는 현재 30.5PB의 데이터를 호스팅할 수 있습니다. 배포는 제공된 AWS CloudFormation 템플릿 그리고 Qumulo Cloud Q용 AWS 빠른 시작.

관련 이야기 : Qumulo의 핵심 아키텍처는 하드웨어 유연성을 염두에 두고 구축되었습니다.

다음 그림은 AWS Well Architected Framework의 원칙을 충족하는 CFT를 통해 배포되는 최소 스택을 보여줍니다.

프라이빗 서브넷에 배포된 최소 Qumulo 클러스터

그림 1: 사설 서브넷에 배포된 최소 Qumulo 클러스터.

그것을 분해하자 : 가장 좋은 방법은 Qumulo 클러스터를 사설 서브넷에 배포하는 것입니다. 지원되는 m5 및 c5n 인스턴스 유형이 현재 지원되며 인스턴스 유형에 따라 성능이 크게 결정됩니다(성능에 대한 자세한 내용은 나중에 참조). 저장 공간은 EBS 볼륨으로 구성됩니다. 노드 유형에 따라 볼륨은 GP2 볼륨(전체 플래시 노드)이거나 GP2와 SC1 또는 ST1의 혼합(하이브리드 노드)입니다. 각 노드는 고정 내부 IP 주소와 일반적으로 한 노드가 실패할 경우 나머지 노드로 장애 조치되는 3개의 유동 IP 주소를 받습니다. 선택적으로 공용 IP 주소가 필요한 경우 노드당 탄력적 IP로 클러스터를 구성할 수도 있습니다.

Lambda 함수는 모든 EBS 볼륨의 상태를 확인하고 하나 이상의 EBS 볼륨이 실패할 경우 자동 교체를 위해 배포됩니다. 또 다른 Lambda 함수는 클러스터에서 자세한 메타데이터 지표를 수집하여 Amazon CloudWatch 로그에 저장합니다.

성능과 확장성을 위해 구축된 AWS용 파일 시스템

단일 스트림 처리량, 읽기 또는 쓰기는 인스턴스 유형 및 EBS 구성이 해당 상한을 지원하지 않는 경우 600MB/s 이하로 제한됩니다. 이 수치는 EC5 배치 그룹 외부에서 시행되는 AWS 2Gbps 단일 TCP 흐름 속도 제한과 같습니다. 클러스터 노드와 컴퓨팅 노드가 동일한 배치 그룹에 배포된 경우에만 이 값을 초과할 수 있습니다(기본적으로 Qumulo는 클러스터 노드 간의 대기 시간을 최소화하기 위해 클러스터 배치 그룹에 배포).

멀티 스트림 성능 EBS 볼륨 구성 및 EC2 인스턴스 유형에 따라 다릅니다. 더 작은 인스턴스 유형은 네트워크 대역폭과 EBS 대역폭이 작아 크레딧 버스트가 적용됩니다. 더 작은 EBS 구성에도 버스트 크레딧이 적용됩니다. 성능 보장을 위해 각각의 기준선 IOPS, 최소한 c5n.4xlarge 인스턴스 유형을 선택하십시오. 그런 다음 인스턴스 유형을 조정하여 처리량을 늘립니다. 특히 가용 용량이 더 작은 클러스터나 매우 무작위적인 워크로드에서 처리량이 많은 워크로드에는 올 플래시 아키텍처를 선택해야 합니다. IOPS는 작은 파일 워크로드 또는 작은 가용 용량 클러스터에 대해 고려해야 할 또 다른 요소입니다.

GitHub에서 자세히 알아보기: Qumulo Cloud Q QuickStart – AWS의 크기 조정 및 성능(PDF)

다음 그래프는 각 노드가 8TiB의 데이터를 호스팅하는 올 플래시 구성에 대한 멀티스트림 성능을 보여줍니다(y축은 로그 척도에서 처리량을 MB/s로 표시한다는 점에 유의하십시오).

Qumulo Cloud Q All-Flash 클러스터당 최대 읽기 성능 및 다양한 인스턴스 유형에 대한 노드 수.

그림 2: 다양한 인스턴스 유형에 대한 클러스터 및 노드 수당 Qumulo Cloud Q All-Flash 최대 읽기 성능.

다음 통계는 Qumulo 글로벌 설치 기반에서 집계된 읽기 지연 시간을 보여줍니다. 이 글로벌 설치 기반에는 클라우드 및 온프레미스 클러스터의 하이브리드 노드(HDD 및 SSD)의 약 70%가 포함됩니다. HDD에서 데이터를 호스팅하는 대다수의 노드에서도 모든 읽기 요청의 90%는 1ms 미만의 지연 시간으로 처리됩니다. 이것은 Qumulo의 지능형 예측 캐싱 알고리즘의 결과입니다. 빠른 읽기를 가능하게 하고, I/O 패턴을 식별하고, 디스크에서 SSD 또는 메모리로 후속 관련 데이터를 프리페치합니다.

Qumulo의 글로벌 설치 기반에서 집계된 읽기 지연 시간

그림 3: Qumulo의 글로벌 설치 기반에서 집계된 읽기 지연 시간.

다중 프로토콜 파일 액세스

꾸 울로 프로토콜 간 권한 (XPP)는 프로토콜 전반에 걸쳐 파일 액세스 권한을 자동으로 관리합니다. XPP는 SMB ACL(액세스 제어 목록)을 유지하고 권한 상속을 유지하며 권한 설정과 관련된 응용 프로그램 비호환성을 줄임으로써 혼합 SMB 및 NFS 프로토콜 워크플로를 가능하게 합니다.

XPP는 다음과 같이 작동하도록 설계되었습니다.

  • 프로토콜 간 상호 작용이 없는 경우 Qumulo는 프로토콜 사양에 따라 정확하게 작동합니다.
  • 프로토콜 간에 충돌이 발생하면 XPP는 응용 프로그램 비호환 가능성을 최소화하기 위해 작동합니다.
  • XPP를 활성화해도 파일 시스템의 기존 파일에 대한 권한은 변경되지 않습니다. 모드가 활성화된 상태에서 파일이 수정된 경우에만 변경 사항이 발생할 수 있습니다.

Qumulo XPP는 많은 ACES(액세스 제어 항목)를 포함할 수 있는 모든 파일 및 디렉토리에 대한 내부 ACLS 세트를 유지 관리하므로 Windows 또는 NFSv4.1. (이러한 내부 ACLS를 QACLS라고 합니다.) SMB 또는 NFS를 통해 파일에 액세스하면 권한이 실시간으로 적절한 프로토콜 권한으로 변환되거나 적용됩니다.

자세한 내용은 Qumulo 기술 자료 문서를 참조하십시오. Qumulo Core에서 교차 프로토콜 권한(XPP)을 활용하는 방법.

QACLS를 NTFS ACLS 또는 POSIX 권한으로 변환 시행

그림 4: QACLS에서 NTFS ACLS 또는 POSIX 권한으로의 변환/시행.

Qumulo는 내부 QACL 구조를 쿼리하기 위해 함께 작동하는 도구 세트를 제공합니다. 예를 들어, CLI 명령 qq fs_get_acl은 지정된 파일 또는 디렉토리의 실제 QACL 목록을 제공합니다.

# qq fs_get_acl --path /
Control: Present
Posix Special Permissions: None

Permissions:
Position Trustee Type Flags Rights
======== =========== ======= ===== ================================================
1 local:admin Allowed Delete child, Execute/Traverse, Read, Write file
2 local:Users Allowed Delete child, Execute/Traverse, Read, Write file
3 Everyone Allowed Delete child, Execute/Traverse, Read, Write file

Another interesting command is:

#qq fs_acl_explain_posix_mode --path /

The output will explain in detail how Qumulo produced the displayed POSIX mode from a file's ACL. Please refer to Cross-Protocol (XPP) Explain Permissions Tools to study an output example.

Next up: The Importance of Data Mobility Between Clusters and Amazon S3 

Now that we've shown you what makes Qumulo Cloud Q a unique file system on AWS and how it solves some of the most common challenges of migrating enterprise data to the cloud, in part 2 you'll learn how to copy objects between S3 buckets and clusters using Qumulo Shift. We take a high-level look at the importance of replication and data movement between data center clusters and Amazon S3; and, we reveal three deployment automation options you can take to simplify cloud migration.

The Definitive Guide to Qumulo on AWS

The Definitive Guide to Qumulo on AWS

Qumulo simplifies migrations to the Cloud where unstructured data is being stored in file systems, making Cloud Q for AWS an attractive choice for many workflows.

Download Now

Written by Dr. Stefan Radtke, CTO, Qumulo, and Jason Westra, Solution Architect, AWS.

Share this post