Qumulo의 차이점: 가용 용량은 가용 용량을 의미합니다

Qumulo를 통한 스토리지 효율성

Qumulo가 스토리지 시스템의 사용 가능한 용량을 알려줄 때 정확히 의미하는 것은 파일을 저장하는 데 사용할 수 있는 용량입니다. 간단해 보이지만 이것은 많은 경쟁자들이 할 수 없는 진술입니다. 사실, 기존 데이터 보호 방법의 비효율성과 완전한 활용으로 인해 발생할 수 있는 성능 문제를 고려할 때 대부분의 스토리지 공급업체는 최대 30%의 용량을 사용하지 않는 상태로 남겨둡니다. 모든 데이터가 손끝에 필요한 세상에서 이는 큰 결핍입니다.

Qumulo를 사용하여 성능이나 데이터 보호를 희생하지 않고도 페타바이트 규모의 파일에 사용할 수 있는 모든 용량에 의존할 수 있는 방법을 설명하고 싶습니다. 저장하는 파일의 수나 파일의 크거나 작거나에 상관없이 사실입니다. 실제로 수십억 개의 작은 파일을 큰 파일만큼 효율적으로 저장할 수 있습니다. 비즈니스 요구에 따라 원하는 방식으로 사용할 수 있는 스토리지입니다. 그것의 모든. 결국 "가용 용량"이 실제로 의미하는 바가 무엇인지 고민하지 않고도 스토리지 관리가 충분히 어려울 수 있습니다.

레거시 스케일 아웃 스토리지 솔루션이 낭비되는 용량을 위해 구축된 이유

Qumulo와 기존 스토리지 공급업체 간의 차이점은 데이터 보호, 소규모 파일 스토리지 및 재구축 작업에 대한 접근 방식의 근본적인 차이에서 비롯된 뿌리 깊은 것입니다. 우리는 이것들을 하나씩 논의할 것입니다.

기존 데이터 보호: 매우 비효율적인 것에서 약간 덜 비효율적인 것까지

데이터 보호는 분명히 타협할 수 없습니다. 모든 엔터프라이즈급 파일 스토리지 시스템은 디스크에 장애가 발생할 경우 데이터 손실을 방지하도록 설계되었으며 모두 스토리지 장치 전반에 걸친 정보의 중복 또는 중복 형태에 의존합니다. 그러나 사용된 접근 방식은 저장된 데이터의 양을 사용된 총 디스크 용량으로 나눈 값으로 정의되는 데이터 보호 효율성에 엄청난 차이를 만듭니다.

미러링가장 기본적인 형태의 데이터 보호는 보호되는 데이터의 전체 복사본을 두 개 이상 만드는 것을 기반으로 합니다. 각 복사본은 다른 디스크에 상주하므로 디스크 중 하나에 장애가 발생해도 복구할 수 있습니다. 이는 복구 측면에서 효과적이지만 파일 저장에 사용할 수 있는 용량을 절반으로 줄여 매우 비효율적입니다.

최대 3개의 동시 드라이브 오류로부터 보호하기 위해 XNUMX개의 데이터 복사본을 유지하는 이중 미러링은 복구 목적에 훨씬 더 효과적이지만 훨씬 더 비효율적이어서 "사용 가능한" 용량의 XNUMX분의 XNUMX를 파일에 사용할 수 없게 됩니다. 이 경우 XNUMX개의 드라이브 보호를 위한 미러링에는 TB의 파일 데이터를 저장하기 위해 XNUMXTB의 원시 용량이 필요합니다.

페타바이트 규모에서는 실제로 파일을 저장하는 데 사용할 수 없는 스토리지에 예산의 XNUMX/XNUMX를 낭비하지 않도록 가능한 한 미러링을 피하는 것이 좋습니다.

이레이저 코딩 (EC) 미러링보다 더 효율적일 뿐만 아니라 더 빠르고 구성 가능한 데이터 보호를 위한 가장 잘 알려진 대안입니다. EC의 주요 이점은 제공하는 유연성입니다. 관리자는 성능, 물리적 미디어에 장애가 발생한 경우 복구 시간, 허용되는 동시 장애 수의 적절한 균형을 유지하는 방법을 결정할 수 있습니다.

파일 수준이 아닌 블록 수준에서 작업하는 EC를 사용하면 전체 데이터 볼륨의 일대일 복사본을 만들지 않고도 데이터를 효과적으로 보호할 수 있습니다. 대신 블록 데이터는 별도의 물리적 미디어에 저장되는 부분적으로 중복된 세그먼트로 인코딩됩니다. (3, 2) 인코딩으로 알려진 가장 간단한 예에서 세 개의 저장 블록은 사용자 데이터의 두 블록을 안전하게 인코딩하는 데 사용됩니다. "패리티 블록"으로 알려진 세 번째 블록은 복구에 사용됩니다.

패리티 블록의 내용은 이레이저 코딩 알고리즘에 의해 계산됩니다. 이 간단한 구성표도 미러링보다 효율적입니다. 두 데이터 블록마다 하나의 패리티 블록만 쓰는 것입니다. (3, 2) 인코딩에서 세 블록 중 하나를 포함하는 디스크에 장애가 발생하면 블록 1과 2의 사용자 데이터는 안전합니다.

작동 방식은 다음과 같습니다. 데이터 블록 1을 사용할 수 있으면 읽기만 하면 됩니다. 데이터 블록 2의 경우도 마찬가지입니다. 그러나 데이터 블록 1이 손실된 경우 EC 시스템은 데이터 블록 2와 패리티 블록을 읽은 다음 데이터 블록 1의 값을 재구성합니다. 마찬가지로 데이터 블록 2가 데이터 블록에 있는 경우 장애가 발생한 디스크, 시스템은 데이터 블록 1과 패리티 블록을 읽습니다.

(3, 2) 인코딩의 효율성은 67%입니다. 즉, 사용 가능한 스토리지의 6/4를 사용자 데이터에 사용할 수 있고 나머지 67/3은 데이터 보호에 사용할 수 있습니다. 디스크를 추가하면 보호 수준이 향상될 수 있습니다. 예를 들어, (2, 6)와 동일한 4% 효율성을 갖는 (3, 2) 인코딩은 하나가 아닌 두 개의 디스크 오류를 허용할 수 있습니다. 즉, 두 개의 디스크에 동시에 장애가 발생하더라도 시스템은 다운타임이나 데이터 손실 없이 계속 작동할 수 있습니다. 효율성 감소가 없는 추가 보호는 공짜 점심이 아닙니다. (XNUMX, XNUMX) 인코딩된 데이터를 복구하는 프로세스는 (XNUMX, XNUMX) 인코딩의 경우보다 더 많은 작업이 필요하므로 재구축 시간이 더 깁니다. .

엔터프라이즈급 스토리지에서 EC는 매우 높은 효율성을 제공할 수 있습니다. 예를 들어, (16, 14) 인코딩은 약 85%의 효율성을 가지며 데이터 손실 없이 최대 XNUMX개의 동시 드라이브 오류를 허용합니다.

이 시점에서 85%의 스토리지 효율성은 특히 미러링을 사용하는 33개 드라이브 보호의 1% 효율성과 비교할 때 꽤 좋아 보일 수 있습니다. 약 1.2PB의 파일을 저장해야 하는 경우 XNUMXPB의 원시 용량이 이를 커버해야 하지 않습니까? 반드시는 아닙니다. 다시 한 번, 숫자 뒤에 숨겨진 현실은 보이는 것보다 덜 명확합니다.

작은 파일 스토리지: 레거시 공급업체가 가용 용량을 제대로 제공하지 못하는 또 다른 방법

스토리지 공급업체에서 사용 가능한 용량을 소거 코딩 패리티 비트를 허용한 후 남은 모든 것으로 보고할 수 있지만 실제로 이 공간을 모두 사용할 수 있다고 가정하지 마십시오. 레거시 스케일 아웃 스토리지 시스템은 작은 파일과 관련하여 제대로 작동하지 않는 것으로 나타났습니다. 작게는 128KB 미만을 의미합니다.

여기에는 간단한 이유가 있습니다. 레거시 스토리지 시스템은 128KB보다 작은 파일을 미러링(또는 이중 미러링 또는 삼중 미러링)하도록 강제하는 수십 년 된 디자인을 기반으로 합니다. 미러링의 비효율성에 대해서는 이미 논의했지만 이제는 EC 데이터 보호에서도 문제가 될 수 있음이 밝혀졌습니다. 최악의 부분은 다음과 같습니다. 이 미러링에 필요한 공간은 공급업체가 보고한 사용 가능한 용량에서 차감됩니다. 그것은 샌드위치를 사다가 포장을 풀었을 때 큰 조각이 빠져 있음을 발견하는 것과 같습니다.

빠진 한 입의 크기는 얼마나 됩니까? 그것은 또 다른 문제입니다. 알 방법이 없습니다. 얼마나 많은 파일이 128KB 임계값 아래로 떨어지는지 보려면 작성하려는 각 파일의 정확한 크기를 미리 결정해야 하며 이를 예측할 방법이 없습니다. 결과적으로 실제로 사용 가능한 용량이 얼마나 되는지 또는 언제 소진될지 알 수 없습니다. 대신 보장을 받기 위해 오버프로비저닝을 해야 합니다. 이는 실제로 두 가지 방법으로 돈을 낭비하고 있음을 의미합니다. 하나는 작은 파일 저장 장치로 인해 손실되는 "사용 가능한" 용량이고, 다른 하나는 쿠션으로 구입하는 추가 용량입니다.

그것은 데이터 집약적인 비즈니스를 운영하는 방법이 아닙니다.

재구축 작업: 디스크 복구의 숨겨진 비용

레거시 스토리지 공급업체는 약속된 사용 가능한 용량을 회수할 수 있는 또 다른 방법이 있을 수 있습니다. 많은 시스템이 디스크 장애로부터 복구하는 동안 재구축 작업을 위해 스토리지 용량을 소모하며, 이에 사용할 수 있는 용량이 충분하지 않은 경우 시스템은 복구를 완료하는 데 어려움을 겪을 것입니다. 이러한 이유로 대부분의 공급업체에서는 사용률을 약속한 사용 가능한 용량의 80%로 제한할 것을 권장합니다. 다시 말하지만, 이는 "사용 가능"이라는 단어에 대한 공급업체의 정의에 의문을 제기합니다.

Qumulo의 차이점: 가용 용량은 가용 용량을 의미합니다.

Qumulo는 다른 종류의 파일 스토리지 회사입니다. 사용 가능한 용량은 파일을 저장하는 데 사용할 수 있는 공간의 양을 의미합니다. 쿠물로스와 함께 현대적이고 확장 가능한 파일 시스템, 파일에 가용 용량을 100% 사용할 수 있습니다. 여기 이유가 있습니다.

더 스마트한 블록 수준 데이터 보호

레거시 스토리지 공급업체가 효율성을 점진적으로 개선하는 데 중점을 둔 반면, Qumulo는 근본적으로 다른 접근 방식으로 업계를 혁신했습니다. 다른 사람들처럼 파일 수준에서 데이터를 보호하는 대신 Qumulo는 블록 수준, 대용량 파일의 사용 용량이 20% 증가합니다. 그리고 그 수치는 작은 파일이 사진에 들어오면 두 배가 됩니다.

고효율 소형 파일 스토리지

작은 파일을 관리할 때 블록 수준 보호는 파일 기반 보호보다 최대 40% 더 높은 스토리지 효율성을 제공합니다. 이것은 일반적으로 많은 수의 작은 파일 형태로 제공되는 기계 생성 데이터 시대에 특히 유용합니다.

다음은 실제 기업 고객의 예입니다(Qumulo에 오기 전).

이 고객은 레거시 스토리지 클러스터에서 Qumulo 클러스터로 약 30천만 개의 작은 파일을 마이그레이션했습니다. 왼쪽의 대화 상자는 작은 파일을 미러링하는 레거시 공급업체 시스템에서 이러한 파일이 차지하는 공간의 양을 보여줍니다. 오른쪽 상자는 파일이 Qumulo 클러스터에서 차지하는 공간의 양을 보여줍니다. 보시다시피, 레거시 공급업체의 시스템은 동일한 파일을 저장하기 위해 33.2배 이상 더 많은 공간이 필요했습니다. 즉, 9.33TB의 파일 데이터에 대해 전체 9.49TB의 가용 용량이 필요했습니다. Qumulo 클러스터에서는 XNUMXTB만 사용했습니다.

그게 더 좋아.

실제로 Qumulo를 사용하면 대용량 파일과 작은 파일 간에 저장 효율성에 차이가 없습니다.

그러면 필요한 스토리지의 양을 훨씬 더 간단하게 예측할 수 있습니다. 워크로드에 있는 크고 작은 파일의 혼합에 대한 복잡한 추정과 씨름하고 목표에서 너무 멀지 않기를 바라는 대신 웹 UI를 보고 사용 가능한 공간을 확인할 수 있습니다. 저장된 파일은 크든 작든 상관없이 동일한 양의 공간을 차지합니다.

사용 가능한 용량을 소진하지 않는 재구축 작업

Qumulo를 사용하면 재구축과 같은 관리 작업을 위해 사용 가능한 용량을 따로 설정할 필요가 없습니다. 대신 시스템은 사용 가능한 용량을 보고하기 전에 필요한 공간을 따로 확보합니다. 즉, 시스템이 100% 꽉 찬 경우에도 여유 공간을 모니터링할 필요 없이 드라이브 오류로부터 복구할 수 있습니다. 또한 Qumulo는 기존 RAID보다 더 빠른 재구축을 제공하며 드라이브 장애 후 성능 핫스팟을 도입하지 않습니다.

100% 활용도에서 최고의 성능

활용도와 성능 간의 균형은 스토리지 관리자에게 너무나 익숙합니다. 많은 스케일 업 시스템, RAID기반 시스템과 일부 대중적인 오픈 소스 파일 시스템은 파일 시스템이 가득 차면 성능이 저하됩니다. 성능 문제를 방지하려면 사용 가능한 용량의 70% 미만을 유지해야 합니다. 활용도와 성능 사이에서 선택해야 할 필요는 없지만 많은 공급업체에서 그렇게 생각합니다.

일부 다른 시스템과 달리 Qumulo의 성능은 시스템이 가득 차더라도 저하되지 않습니다. 용량의 30%를 예비로 유지하는 대신 성능에 영향을 주지 않고 수십억 개의 파일을 저장하여 용량의 100%를 사용할 수 있습니다.

데이터에 대한 Qumulo의 의미

종합하자면, 효율성 이점이 결합되어 일반적인 Qumulo 고객은 다른 파일 시스템보다 25% 적은 원시 용량으로 동일한 양의 사용자 데이터를 저장할 수 있습니다.

이러한 높은 효율성은 데이터 집약적인 비즈니스에 중요한 이점으로 보완됩니다.

디스크 드라이브 고장 시 빠른 재구축 시간
재구축 작업 중에 정상적인 파일 작업을 계속하는 기능
일반 파일 쓰기와 재구축 쓰기 간의 경합으로 인한 성능 저하 없음
크고 작은 파일을 위한 동일한 스토리지 효율성
사용 가능한 공간의 정확한 보고
Qumulo 클러스터를 수백 개의 노드로 확장할 수 있는 효율적인 트랜잭션
아카이브 가격으로 플래시 성능을 제공하는 기본 제공 핫/콜드 데이터 계층화.

데이터가 너무 중요해서 구식의 레거시 스토리지 방식이나 "가용 용량"이라는 개념을 느슨하게 파악하는 공급업체에 맡기기에는 너무 중요합니다. Qumulo는 디지털 시대의 데이터 운영에 필요한 투명성, 예측 가능성 및 성능을 제공합니다.