올플래시로 가는 길

2019년 ２월 21일

작성자 :

쿠물로 팀

임무 : 초기 시작

아주 오래 전 2016년 늦가을의 쌀쌀하고 음산한 오후에 여기 Qumulo의 하드웨어 제품 소유자인 Jason Sturgeon은 하드웨어 엔지니어링 팀에 현재 및 잠재 고객이 올플래시 제품을 원한다고 말했습니다.

그들은 Qumulo가 우리 포트폴리오에 더 빠르고 더 화려한 제품인 새로운 계층의 스토리지 플랫폼을 갖기를 원했습니다.

하드웨어 고려 사항

경쟁업체는 고객을 맞춤형 하드웨어 솔루션에 가둡니다. 회사로서의 우리의 사명은 그렇게 하지 않는 것입니다. 다른 올플래시 스토리지 솔루션을 출발점으로 삼아 여러 블레이드 기반 플랫폼을 살펴보았습니다. 파트너가 제공하는 제품에 대해 더 논의하면서 우리가 찾던 밀도, 비용 및 폼 팩터 속성을 가진 몇 가지 솔루션을 찾았습니다.

이 플랫폼에 대한 주요 결정은 SATA/SAS SSD 또는 NVMe SSD를 사용할지 여부였습니다. 공급업체는 두 가지 모두를 취할 수 있는 흥미로운 폼 팩터의 플랫폼을 가지고 있었습니다. 경쟁업체의 패턴에 따라 단일 물리적 섀시에 여러 서버가 있는 클라우드 중심 시스템을 살펴보았습니다. 우리는 1개의 SATA 12” SSD 또는 2.5개의 NVMe SSD를 사용할 수 있는 12U 섀시와 같은 옵션을 고려했으며 해당 섀시 내에 2개의 컴퓨팅 노드가 있습니다. 또는 단일 섀시 내에서 24개의 컴퓨팅 노드가 있는 24개의 SATA SSD 또는 2개의 NVMe SSD를 사용할 수 있는 XNUMXU 섀시입니다. XNUMX개의 서버가 포함된 단일 XNUMXU!

고객 및 공급업체 파트너의 의견

이 서버를 보면서 공급업체를 본사에 방문하게 하고 검사를 위해 샘플을 가져오면서 고객과도 이야기를 나눴습니다. 고객은 우리의 자기장이므로 고객이 올바른 솔루션을 구축하기 위한 안내 스타가 되도록 합니다. 새로운 플랫폼, 특히 완전히 새로운 차원의 플랫폼을 만들기 시작하면서 우리는 현재와 잠재 고객 모두에게 자문을 구했습니다.

거품 속에서 결정을 내리지 않도록 주의하면서 플랫폼을 성공적으로 만드는 데 핵심 파트너인 공급업체와도 상의했습니다. 고객 및 공급업체와 동일하게 작업하면 최종 사용자 경험을 개선하는 제품의 생성, 제공 및 사용이 이루어집니다.

NVMe 또는 흉상!

NVMe 또는 bust라는 매우 명확한 메시지가 이러한 토론에서 나왔습니다. NVM은 플래시의 미래입니다!

NVMe SSD가 곧 SATA SSD와 동급이 될 것이며 SATA/SAS 드라이브에 비해 엄청난 성능 이점을 제공할 것입니다. NVM은 공급업체와 고객을 위한 선택이었습니다. 수년간의 여유 공간이 있는 미래 지향적인 플랫폼을 구축하기 위해 노력하는 Qumulo는 항상 앞으로 몇 년 동안 데이터가 필요한 곳을 찾고 있습니다. 따라서 Qumulo는 영광스러운 미래로 도약하기로 결정하고 NVMe SSD 기술을 기반으로 최초의 올 플래시 플랫폼을 구축했습니다.

그러나 사용 가능한 것과 함께 NVM을 활용하는 연구 중에 우리는 고통스러운 결핍을 발견했습니다.

사용 가능한 플랫폼은 SkyLake 아키텍처를 기반으로 하지 않았으며 당분간 다양한 서버 및 섀시 공급업체를 통해 출시되지 않을 예정입니다. NVMe 장치 핫 스왑을 관리하기 위한 볼륨 관리 장치라는 표준이 SkyLake 아키텍처와 함께 개발 및 출시되었습니다. 이 기술이 출시될 때까지 모든 NVMe 구현은 NVMe 장치의 핫스왑을 관리하기 위해 독점 소프트웨어에 의존했습니다.

소프트웨어 스타트업으로서 Qumulo는 가치를 전달하는 주기를 보낸다. 결과적으로 PCIe 장치가 갑자기 사라졌다가 다시 나타나는 것을 처리하기 위해 소프트웨어 기능을 개발하거나 커널을 수정하는 범위를 취하는 것은 우리가 개발을 위해 등록할 의향이 없었습니다. 특히 곧 있을 기술 릴리스가 비용 없이 우리가 필요로 하는 기능을 제공할 때 그렇습니다.

하드웨어 팀에 다른 기회가 주어졌기 때문에 NVMe 핫 스왑에 대한 기술이 완전히 구워지지는 않았지만 우리는 나중에 다른 중요한 기능을 희생하지 않고 고객 가치를 제공할 수 있을 때 이 플랫폼을 다시 방문하도록 보류했습니다.

기차는 역을 떠난다

XNUMX개월이 지났고 이제 그 기술은 우리가 필요로 하는 기능을 갖추게 되었습니다. 우리는 여러 아키텍처를 고려했습니다. 인텔이 방금 출시한 확장 가능한 제온 (일명 SkyLake) 및 AMD의 EPYC CPU가 출시될 예정이었습니다. 우리는 더 높기 때문에 Intel SkyLake를 선택했습니다. NUMA 노드 AMD EPYC CPU에서 계산합니다. (NUMA는 비균일 메모리 액세스.) 더 많은 NUMA 도메인 수를 처리하는 데 필요한 소프트웨어 개발 노력은 고객이 이를 수행하기에 적절한 가치를 제공하지 않았을 것입니다.

사용할 특정 CPU를 결정하기 위해 테스트할 두 가지 모델을 집으로 가져왔습니다. 이 CPU를 선택할 때 우리는 프로세서의 열 설계 전력(TDP)을 고려했습니다. 우리는 우리의 올플래시 제품이 빠르지만 뜨겁다는 것을 알고 있었기 때문입니다! 각각 2W의 전력을 소비할 수 있는 24개의 NVMe U.2 장치를 사용하여 25U 서버를 냉각하는 기능은 다소 어렵습니다. 각각 24W의 전력 손실이 있는 25개의 드라이브의 경우 600W가 되며, 실제로 최대 쓰기 워크로드의 각 드라이브는 잠재적인 전력 손실의 절반만 소모합니다. 그러나 예상치 못한 전력 소모 급증을 처리하고 사용하는 구성 요소의 사양에 맞게 안전 여유를 설계해야 합니다.

현실적으로 이러한 드라이브는 실제로 600W를 소비하지 않지만 예상치 못한 전력 소비 급증을 처리할 수 있는 안전 여유가 있어야 합니다. 이것이 가장 빠른 시스템이었기 때문에 사용 가능한 가장 빠른 CPU를 선택한다고 가정할 수 있습니다. 우리가 한 일은 고객에게 최고의 가성비를 제공하는 CPU를 선택하는 것이었습니다. 이를 통해 우리는 Intel Xeon Gold 6126 프로세서를 사용하게 되었습니다. 이 프로세서는 코어 수가 적고 주파수가 더 빨라 우리 소프트웨어가 활용할 수 있으므로 고객에게 최고의 가치를 제공할 수 있습니다.

2017년 봄에 우리는 공급업체와 다시 논의를 하고 우리가 전환할 수 있는 다양한 플랫폼을 살펴보고 있었습니다. 올플래시 NVMe 고객이 원하는 솔루션. 그 시점에서 블레이드 솔루션은 여전히 아이디어였으므로 사용 가능한 제품을 살펴보았습니다.

제품의 구체적인 제약 조건을 식별했습니다. 플래시는 비싸고 비용이 큰 요인이었습니다. Bugatti Veyron의 스토리지 제품을 만드는 동안 여전히 Dodge Viper 가격으로 판매할 수 있어야 했습니다.

속도가 빨라야 했지만 고객을 만족시킬 만큼 빠르면 얼마나 빠를까요?

우리는 멀티 스트림 읽기를 위해 노드당 4GB/s 이상을 처리할 수 있는 하드웨어 상자를 만드는 것을 목표로 했으며 조정에 따라 확장할 수 있는 충분한 여유 공간이 있습니다. 노드당 125K IOPS를 목표로 선택했습니다. 고객이 좋아할 매력적인 제품을 제공하려면 랙 U당 약 40TB가 필요했습니다. 우리는 최적의 플랫폼 옵션을 좁혀 개념 증명 작업을 수행하기 위해 1U 및 2U 프로토타입을 결정했습니다.

우리는 프로토타입 상자에서 Qumulo 소프트웨어를 테스트했고 짜잔! 완전하지만 아직 판매되지 않는 올플래시 제품이 있었습니다!

하드웨어 추상화 계층으로 인해 최소한의 변경으로 이 코드 계층을 변경하여 외부 하드웨어에서 즉시 실행할 수 있습니다. 소프트웨어 하드웨어에 구애받지 않는 또 다른 승리입니다.

흥미진진한 시리즈의 XNUMX부를 기대해주세요!

올플래시로 가는 길

작성자 :

임무 : 초기 시작

하드웨어 고려 사항

고객 및 공급업체 파트너의 의견

NVMe 또는 흉상!

기차는 역을 떠난다

관련 게시물

Azure 네이티브 Qumulo Storage를 사용하여 Azure 가상 데스크탑을 확장할 때 얻을 수 있는 3가지 주요 이점

Azure Files를 사용하여 시작한 경우 Azure Virtual Desktop 비용이 너무 높습니다.

제품

고객 사례

산업별 서비스

파트너

시작하기

Follow Us

기업 정보

쿠물로 트러스트

우리의 가장 큰 릴리스