사용하지 않는 GPU에 대한 비용 지불을 중단하세요.

작성자 :

CNQ는 어떻게 멀티 AZ를 보험에서 비용 중립적인 경쟁 우위로 전환했을까요?

클라우드는 어느 지역에서든 실행 가능한 탄력적인 컴퓨팅을 약속합니다. 하지만 GPU 워크로드는 조용히 그 약속을 깨뜨렸습니다.

클라우드에는 GPU가 존재하지만, 데이터가 있는 지역이나 영역에서 해당 GPU를 사용할 수 있을까요? 필요할 때 GPU를 사용할 수 있을까요?

가속 컴퓨팅에 대한 수요가 지역별 공급을 앞지르고 있습니다. 많은 조직에서 GPU 수요가 단일 가용 영역 또는 단일 지역의 GPU 용량을 초과하여 중요한 업무가 지연되고 있습니다. 용량은 잠깐 나타났다가 예측할 수 없이 변동하고 순식간에 사라집니다.

GPU 가용성의 불균형은 새로운 운영 현실을 만들어냅니다. 팀은 더 이상 GPU 작업을 예약하지 않습니다. GPU가 사용 가능해지는 시점에 맞춰 어디든 찾아다닙니다. 컴퓨팅 가용성이 동적으로 변함에 따라 데이터 지역성이 제약 조건이 됩니다. GPU는 결국 나타나지만, 데이터는 GPU가 있는 곳에 결코 있지 않습니다.

대부분의 조직은 이 문제에 대해 두 가지 비용이 많이 드는 방식 중 하나로 대응합니다.

옵션 1: 예약하고 기다리기
수백만 달러 상당의 예약된 GPU가 유휴 상태로 방치되어 있습니다. 작업이 준비되지 않아서가 아니라, 데이터가 컴퓨팅 자원이 사용 가능한 위치에 없기 때문입니다. 팀은 막대한 비용을 들여 부족한 GPU 용량을 확보한 후, 데이터가 "적절한" 가용 영역으로 복사될 때까지 몇 시간 또는 며칠을 기다려야 합니다. 컴퓨팅 자원이 먼저 예약되고, 작업은 나중에 시작됩니다. 아무것도 실행되지 않는 동안에도 시간은 계속 흘러갑니다.

옵션 2: 미리 복사하고 운에 맡기기
팀은 여러 가용 영역, 지역 또는 클라우드에 걸쳐 데이터를 미리 복제합니다. 데이터는 모든 위치에서 전송, 저장 및 유지 관리되어야 하므로 네트워크 요금, 스토리지 비용 및 운영 오버헤드가 증가합니다. 이러한 데이터의 상당 부분은 유휴 상태로 남아 GPU가 유용한 작업을 수행하기 훨씬 전에 예산을 소모합니다.

결과적으로 클라우드에 대규모 GPU를 구축할 때마다 조용한 손실이 발생합니다. 기업이 데이터를 기다리든 컴퓨팅 자원을 기다리든 결과는 같습니다. 즉, 업무를 시작하기도 전에 비용을 지출하게 되는 것입니다.

경영진은 대시보드에서 이러한 손실을 거의 확인하지 못합니다. 대신 클라우드 요금, 프로젝트 지연, 기한 초과, 경쟁사보다 느리게 움직이는 팀 등의 형태로 나타납니다.

이는 용량 문제가 아닙니다. 클라우드 네이티브 Qumulo가 해결하기 위해 설계된 아키텍처 문제입니다.

GPU 구매에 숨겨진 비용

이론적으로 클라우드 컴퓨팅은 탄력적입니다. 하지만 실제로는 GPU 용량이 여러 가용 영역에 분산되어 있고 끊임없이 변동합니다. 어떤 영역에는 오늘 용량이 충분하지만, 내일은 다른 영역에 용량이 부족할 수 있습니다.

대부분의 스토리지 시스템 아키텍처는 이러한 조건에 적응할 수 없습니다.

기존 클라우드 파일 시스템은 여전히 ​​활성 데이터를 단일 영역에 고정합니다. "다중 가용 영역(multi-AZ)"이라고 표시되어 있더라도 컴퓨팅 작업이 실행되어야 하는 기본 위치에 의존합니다. 복제본은 다른 곳에 존재하지만 성능과 실행은 여전히 ​​고정되어 있습니다.

결과는 예상대로입니다.

  • GPU 가용성이 데이터의 영역 위치와 일치하지 않습니다.
  • 데이터는 구역별 GPU 가용성에 맞춰 복사되어야 합니다.
  • 수백 테라바이트의 데이터가 이동하는 동안 GPU는 유휴 상태로 있습니다.
 

이러한 "GPU 사냥 세금"은 이제 클라우드에서 AI, ML 및 시뮬레이션을 수행하는 데 드는 구조적인 비용이 되었습니다.

규모가 커질수록 상황은 더욱 악화됩니다.

컴퓨팅 자원이 비싸고 부족할수록, 유휴 시간 1초 한 순간이 더욱 큰 손해로 이어집니다. 저장 공간이 작업 위치를 결정하게 되면, 지역 전체의 가용성은 무의미해집니다.

멀티 AZ가 해결하고자 했던 아키텍처적 결함

다중 가용성 영역(Multi-Availability Zone)은 복원력 요구 사항을 충족하도록 설계되었으며 실제로 그렇습니다. 하지만 GPU 워크로드의 경우 복원력은 문제가 되지 않습니다.

접근 권한이 있습니다.

아키텍처가 용량이 있는 모든 곳에 컴퓨팅 리소스를 데이터에 연결할 수 없다면, 멀티 AZ 시스템이 아니라 백업 기능을 갖춘 단일 AZ 시스템입니다.

그것이 바로 클라우드 네이티브 Qumulo가 없애고자 설계된 결함입니다.

CNQ는 유휴 GPU 비용을 제거합니다.

클라우드 네이티브 쿠물로(CNQ)는 중복이 아닌 설계상 다중 가용 영역을 지원합니다.

기본 구역 없음.

데이터 중력 없음: 컴퓨팅은 어디서든 데이터에 즉시 연결됩니다.

사전 준비 단계가 없습니다.

CNQ를 사용하면 여러 가용 영역의 컴퓨팅 리소스가 동일한 실시간 데이터 세트에 동시에 액세스할 수 있습니다. 다른 플랫폼은 기본 가용 영역에 대한 액세스만 제한합니다. 

CNQ를 사용하면 데이터는 지역 수준에서 영구적으로 보호되는 상태로 한 번만 존재하며, 성능은 GPU를 사용할 수 있는 곳이라면 어디에서든 제공됩니다.

용량 변동 시:

  • 아무것도 움직이지 않는다.
  • 아무것도 재건되지 않습니다
  • 아무것도 기다려주지 않는다
 

팀은 GPU가 있는 곳에서 바로 실행됩니다. 작업은 즉시 시작되며 유휴 시간이 없습니다. 

CNQ는 만일의 사태에 대비해 페타바이트 규모의 데이터를 미리 복사하는 대신, 필요에 따라 데이터를 스트리밍합니다. 실제로 액세스되는 데이터만 네트워크를 통해 전송되고, 나머지는 그대로 유지됩니다. GPU는 영역에 관계없이 데이터에 즉시 연결됩니다. 

GPU 확보는 더 이상 물류 문제가 아니라 일정 결정 사항이 되었습니다.

비용 중립적인 멀티 AZ가 획기적인 발전입니다.

대부분의 멀티 가용 영역(Multi-AZ) 스토리지 시스템은 복원력을 제공하는 대신 상당한 비용을 수반합니다. 가용 영역을 하나 더 활성화하면 데이터가 완전히 복제되어 새 영역에 저장되므로 스토리지 비용이 증가합니다. 이러한 과정은 새로운 가용 영역을 추가할 때마다 반복됩니다. 결과적으로 멀티 가용 영역은 일상적인 운영보다는 장애 발생 시나리오에 대비하여 마지못해 활성화하는 기능이 됩니다.

CNQ는 다른 방식으로 작동합니다. CNQ는 가용성과 내구성을 Amazon S3로 오프로드하여, 설계상 지역별 보호 기능을 제공합니다. 결과적으로 데이터 세트는 가용 영역별로 한 번만 존재하며, 여러 가용 영역에서 데이터에 접근할 수 있도록 여러 개의 전체 복사본을 만들 필요가 없습니다. 스토리지 비용은 하나의 가용 영역을 사용하든 여러 가용 영역을 사용하든 실질적으로 동일하게 유지됩니다.

이것은 단순한 튜닝 트릭이 아닙니다. 근본적인 아키텍처 설계상의 결정입니다.

CNQ에는 다음과 같은 특징이 있습니다.

  • 여러 가용 영역에 데이터 복사본을 여러 개 저장하더라도 비용 증가는 없습니다.
  • 다중 AZ 액세스에 대한 성능 저하 없음
  • 회복탄력성을 위한 불필요한 비용은 없습니다.
 

투명성을 위해 말씀드리자면, CNQ는 데이터에 대한 쓰기 작업이 활발히 진행될 때 가용성 영역 간 네트워크 사용료가 소액 발생할 수 있습니다. 하지만 대부분의 AI, 머신러닝 및 분석 워크로드의 경우 액세스 패턴은 압도적으로 읽기 위주입니다. 실제로 이러한 오버헤드는 최소화되며 작업이 실행되는 동안에만 발생하고 데이터가 유휴 상태일 때는 발생하지 않습니다. 항상 그렇듯이 특정 워크로드에 대해서는 솔루션 엔지니어와 상담하는 것이 가장 좋습니다.

참고: Qumulo는 무료 아키텍처 검토 및 솔루션 구상 세션을 제공합니다. 

팀에서 CNQ를 배포하여 가용 영역 전반에 걸쳐 GPU 가용성을 추적하면 스토리지 시스템에 대한 다중 가용 영역 가용성 및 내구성을 자동으로 확보할 수 있습니다. 일반적으로 보험 기능으로 여겨지던 것이 기본 제공 이점으로 전환되는 것입니다. 다중 가용 영역은 더 이상 예방 차원에서만 정당화되는 추가 비용이 아닙니다. 스토리지 비용을 늘리지 않고도 GPU를 사용할 수 있는 곳이라면 어디에서든 작업을 실행할 수 있도록 지원하는 핵심 기능입니다.

이것이 GPU 경제에 변화를 가져오는 이유

GPU를 프로비저닝하는 순간부터 작동 시간 1초당 비용이 발생합니다. 유휴 시간은 곧 금전적 손실로 이어집니다. 이러한 지연은 팀과 프로젝트 전체에 걸쳐 누적됩니다.

GPU가 부족할 때, 팀은 끊임없는 딜레마에 직면합니다. 데이터 대기 시간 동안 컴퓨팅 비용을 지불하거나, 컴퓨팅 자원을 기다리는 동안 스토리지 및 네트워크 용량 비용을 지불해야 합니다. 결국 두 가지 비용을 모두 지불하게 되는 경우가 많습니다. 어떤 경우든, GPU 확보를 위한 'GPU 사냥 세금'을 내야 하는 것입니다. 

CNQ는 영역 고정(zone anchoring)을 완전히 제거함으로써 두 가지 상충 관계를 모두 해소합니다. 지역 GPU 용량이 사용 가능한 용량으로 전환됩니다. 고객은 더 이상 데이터 대기 또는 유휴 데이터 복사본 유지에 비용을 지불하지 않습니다. GPU가 작업을 수행할 때만 비용을 지불하면 됩니다.

더 큰 장점은 선택의 폭이 넓다는 것입니다.

CNQ와 함께:

  • 팀들은 GPU를 몇 주 전에 미리 어디에서 사용할 수 있을지 예측할 필요가 없습니다.
  • 스토리지는 더 이상 초기 인스턴스 결정에 얽매이지 않습니다.
  • 마이그레이션이나 다운타임 없이 새로운 인스턴스 패밀리를 추가할 수 있습니다.

용량, 가격 및 성능이 변화함에 따라 인프라는 그에 맞춰 조정됩니다.

이제 클라우드 규모의 리소스가 현실이 되었습니다. 인프라 배치 결정에 구애받지 않고 실시간으로 적응하는 탄력적이고 위치에 구애받지 않는 컴퓨팅 환경을 제공하며, 용량이 사용 가능한 곳이라면 어디에서든 무료로 실행할 수 있습니다.

방어적 아키텍처에서 경쟁 우위까지

CNQ 덕분에 GPU 확보 과정이 훨씬 수월해졌다고 말하는 것이 정확할 것입니다.

하지만 그것은 그 영향력을 과소평가하는 것입니다.

CNQ가 진정으로 없애는 것은 아키텍처의 제약입니다. 스토리지가 더 이상 작업 위치를 결정하지 않으며, 컴퓨팅 자원도 과거의 배치 결정에 얽매이지 않습니다. 이제 팀은 인프라가 허용하는 때가 아니라 기회가 생길 때 이동합니다.

이 시점에서 다중 가용 영역(MAZ)은 더 이상 장애 발생 시 생존에 관한 것이 아닙니다. 경쟁사보다 빠르게 움직이고, 용량이 확보되는 즉시 작업을 시작하며, 유휴 상태였던 GPU 시간을 실질적인 성과로 전환하는 데 관한 것입니다.

그건 보험이 아닙니다.

그것은 장점입니다.

5 1 투표
좋아요^^
확인
나에게 알려주세요
손님
0 코멘트
오래된
최신 대부분의 투표
인라인 피드백
모든 댓글보기

관련 게시물

유휴 GPU 비용 지불 중단 - Qumulo Stratus가 모든 것을 바꿉니다.

위쪽으로 스크롤
0
의견을 부탁드립니다.x