개요
인공 지능(AI)과 머신 러닝(ML) 시대에 구조화되지 않은 방대한 양의 데이터를 효율적으로 처리하는 것은 기본입니다. 기업과 정부 기관은 점점 더 AI를 활용하여 통찰력을 얻고, 운영을 개선하고, 혁신을 추진하고 있습니다. 그러나 데이터 관리 과제는 특히 하이브리드 및 멀티 클라우드 환경에서 AI 이니셔티브를 방해할 수 있습니다. Qumulo Cloud Data Platform은 퍼블릭 클라우드에서 AI 데이터 가속을 위한 완벽하고 고성능 솔루션을 제공하여 이러한 과제를 해결합니다.
Qumulo 클라우드 데이터 플랫폼 개요
Qumulo Cloud Data Platform은 온프레미스와 퍼블릭, 프라이빗, 하이브리드 클라우드 환경에서 데이터 저장 및 관리를 통합하는 포괄적인 솔루션입니다. 세 가지 핵심 구성 요소로 구성됩니다.
- 온프레미스 Qumulo 클러스터: 이들은 데이터 센터, 연구 캠퍼스, 병원 및 기타 주요 위치에 배포되어 구조화되지 않은 파일 및 객체 데이터의 엑사바이트를 호스팅합니다. 이들은 가격/성능 곡선의 모든 지점에서 대규모 워크로드에 최적화된 고성능 스토리지를 제공합니다.
- 클라우드 네이티브 Qumulo 인스턴스: AWS, Azure, Google Cloud Platform(GCP), Oracle Cloud Infrastructure(OCI) 등의 주요 클라우드 공급업체에 배포된 이러한 인스턴스는 Qumulo의 기능을 클라우드로 확장하여 병렬 파일 시스템과 비슷한 성능으로, 온프레미스 스토리지 제품과 비슷한 경제성을 갖춘 확장 가능하고 유연한 데이터 저장 솔루션을 제공합니다.
- 글로벌 데이터 패브릭: 이는 온프레미스 및 멀티 클라우드 인스턴스를 응집력 있는 시스템으로 통합하는 데이터 백본입니다. 이를 통해 모든 AI 모델 및/또는 서비스를 채택하여 GPU가 온프레미스에 있든 클라우드에 있든 가용성 및 가격에 따라 동일한 데이터에 동시에 액세스할 수 있습니다. 다음을 제공합니다.
- 엄격히 일관된 글로벌 네임스페이스(GNS): 모든 위치에서 데이터 일관성을 보장합니다.
- Edge 읽기/쓰기 GNS 캐싱: 지리적으로 분산된 데이터 센터, 클라우드 또는 이 둘의 조합에서 자주 사용되는 데이터에 대한 저지연 액세스를 에지와 여러 데이터 센터 전반에서 제공합니다.
- 클러스터형 읽기/쓰기 영구 데이터 저장소 캐싱: 데이터를 컴퓨팅 리소스에 더 가깝게 캐싱하여 성능을 향상시키고 S3/Blob/GCS API 트랜잭션 비용을 줄입니다.
- 네트워크 인식 서비스 품질 및 효율적인 네트워크 활용: 이 기술은 네트워크 상황에 따라 광역 네트워크(WAN)에서 데이터 전송을 최적화합니다.
AI 워크로드 가속화
지능형 데이터 이동
Qumulo 클라우드 데이터 플랫폼은 글로벌 데이터 패브릭에서 지능적이고 효율적인 데이터 이동을 가능하게 합니다. 데이터는 모든 위치에서 블록 수준에서 주문형으로 스트리밍되고 WAN을 통해 클라우드 기반 읽기/쓰기 클러스터로 표현될 수 있습니다. 이러한 클러스터는 지속성 계층으로 저렴하고 내구성이 높은 S3 스토리지를 사용하고 EC2에서 NVMe 인스턴스에 연결된 디스크로 지능형 캐싱을 사용합니다. 이를 통해 데이터는 기존 클라우드 기반 파일 스토리지 제공에서 찾을 수 없는 속도로 GPU 인스턴스에 공급할 수 있습니다.
성능 향상
- GPU 실행 시간 단축: Qumulo는 클라우드 네이티브 Qumulo 기반 파일 스토리지에서 클라우드 호스팅 GPU 시스템으로의 데이터 전송을 가속화하여 GPU 실행 시간을 최대 40%까지 개선하고 S3에서 GPU로의 데이터 복사 단계를 피합니다. 이 최적화는 훈련 실행이 시작되기 전에 GPU 인스턴스의 로컬 NVMe 스토리지에 개체 또는 파일 저장소에서 데이터를 로드하는 데 종종 발생하는 병목 현상과 비용을 해결합니다.
- S3 API 호출에 대한 비용 절감: 클라우드 데이터 플랫폼은 쓰기 캐시를 압축하는 동시에 지능형 머신 러닝 기반 예측적 지능형 읽기 캐싱 및 압축을 사용하여 S3 API 호출을 결합합니다. 이 접근 방식은 S3 API 요금을 최대 90%까지 줄여 상당한 비용 절감 효과를 가져옵니다.
- 최적화된 GPU 인스턴스: 이 기능을 사용하면 GPU EC2 인스턴스에서 로컬 NVMe 스토리지가 필요 없으므로 성능 저하 없이 보다 저렴한 GPU 인스턴스를 사용할 수 있습니다.
기업을 위한 클라우드 기반 AI
많은 기업과 정부 기관은 훈련 워크로드에 풀타임 GPU 클러스터가 필요하지 않습니다. Qumulo의 입장은 다음과 같습니다. 생성 AI(GenAI) 워크로드(훈련, 튜닝, 추론)는 대부분 조직에서 주로 클라우드 기반이 될 것입니다. 장점은 다음과 같습니다.
- 유지된 데이터 거버넌스 기존 데이터 출처 및 거버넌스 요구 사항을 준수함으로써 규정 준수와 데이터 보안을 보장하고 위험을 줄입니다.
- 자본 지출 감소 GPU 구매에 대한 상당한 투자가 필요 없으며 런타임 처리 비용이 절감됩니다.
- 탄력적 자원 소비 작업 부하 수요에 따라 리소스를 확장하거나 축소할 수 있는 유연성을 제공하여 운영 비용을 최적화합니다. 이는 AI 개발의 80%가 훈련 작업을 실행하기 전에 데이터를 정리하고 모델을 개선하는 데 관련되기 때문에 매우 중요합니다.
- 가속화된 처리 시간 최대 AI 워크플로를 가속화합니다. 40%민첩성과 통찰력 확보 시간이 향상됩니다.
공공 및 상업용 GenAI 모델 활용
Qumulo는 대부분의 기업이 자체 GenAI 모델을 구축하기보다는 공개 또는 상업적 GenAI 모델을 소비할 것이라는 점을 인식합니다. 이를 지원하기 위해 Qumulo는 다음을 개발했습니다.
- 강력한 API 통합: Qumulo 클라우드 데이터 플랫폼은 Microsoft와 AWS와 같은 주요 클라우드 공급업체가 제공하는 대규모 언어 모델(LLM) 및 AI/ML 개발 도구를 비롯한 클라우드 기반 AI 서비스와 인터페이스할 수 있는 강력한 API를 제공합니다.
- 안전한 데이터 처리: 다음과 같은 기술을 활용합니다. 검색 증강 생성(RAG) 적절한 데이터 거버넌스 정책을 구축하면 기업은 향후 교육 데이터 세트에 데이터가 사용되지 않도록 보장하는 동시에 공개 또는 오픈 LLM을 활용할 수 있으며, 이를 통해 데이터 개인 정보 보호와 지적 재산권을 보호할 수 있습니다.
결론
Qumulo Cloud Data Platform은 퍼블릭 클라우드에서 AI 데이터 워크플로를 가속화하기 위한 강력한 솔루션을 제공합니다. Qumulo는 Global Data Fabric을 통해 온프레미스와 클라우드 환경을 통합하여 대규모 데이터 관리 및 이동의 과제를 해결합니다. 기업은 상당한 성능 향상과 비용 절감을 달성하고 데이터 거버넌스 표준을 준수할 수 있습니다. 또한 Qumulo는 데이터를 보호하면서 퍼블릭 GenAI 모델과의 통합을 용이하게 함으로써 조직이 보안을 손상시키거나 불필요한 비용을 발생시키지 않고도 AI 기술을 효과적으로 활용할 수 있도록 지원합니다.
주요 이점
- 유연성: 이 솔루션은 데이터 수집, 데이터 변환, 데이터 로딩이라는 전체 AI 데이터 수명 주기의 성능, 용량, 보안 요구 사항을 해결하여 원활한 엔드투엔드 데이터 파이프라인을 구축합니다.
- 성능 : 더 빠른 데이터 로드 시간으로 GPU 실행 시간과 경제성이 향상됩니다.
- 무제한: 공공 및 프라이빗 클라우드 간, 그리고 조직 간의 원활하고 안전한 데이터 액세스를 지원하여 혁신적인 비즈니스 및 연구 기회를 제공합니다.
- 비용 효율성 : S90 API 요금이 최대 3% 절감되고 로컬 NVMe 없이도 저렴한 GPU 인스턴스를 활용할 수 있습니다.
- 확장성: GPU 리소스의 탄력적 소비
- 데이터 거버넌스: 기존 데이터 출처 및 규정 준수 요구 사항을 유지합니다.
- 데이터 내구성: 다중 AZ 지원 및 병렬 S3 삭제 코딩은 AWS S3의 전설적인 내구성을 더욱 향상시킵니다.
- 보안 : 보안 API 통합을 통해 기업 데이터가 외부 모델 교육에 사용되는 것을 방지합니다.
Qumulo 클라우드 데이터 플랫폼을 채택함으로써 조직은 현대 AI 워크로드의 요구 사항을 효율적이고 안전하게 처리할 수 있는 도구를 갖추게 됩니다. 이를 통해 조직은 AI 혁신의 최전선에 서서 경쟁 우위를 확보하고 혁신적인 비즈니스 기회를 실현할 수 있습니다.