공동 저자: Bryan Berezdivin & Marcos Seoane
모든 산업 분야의 기업들이 채택을 위해 경쟁하고 있습니다. 생성 적 AI 그리고 기반 모델(FM)도 있습니다. 가속화된 인프라에 대한 막대한 투자에도 불구하고, 데이터와 컴퓨팅이 항상 동일한 위치에 있는 것은 아니라는 끊임없는 과제가 남아 있습니다. 현대의 기반 모델은 전례 없는 규모를 요구합니다. FM을 학습하려면 수천 개의 GPU 가속 인스턴스가 며칠에서 몇 주 동안 실행되어야 하며, 언어 모델의 경우 수백 테라바이트(TB)에서 텍스트, 이미지, 비디오를 결합한 멀티모달 시스템의 경우 수십 페타바이트(PB)에 이르는 데이터 세트를 사용해야 합니다. 이러한 데이터 세트는 고정되어 있지 않으며, 조직이 새로운 엣지 케이스, 사용자 피드백 또는 도메인별 데이터를 포착하기 위해 모델을 재학습하고 미세 조정함에 따라 지속적으로 진화합니다.
대부분의 대기업은 데이터가 온프레미스 데이터 센터와 여러 클라우드에 분산되어 있는 것이 현실입니다. 데이터 지역성과 가속화된 컴퓨팅 가용성 간의 이러한 단절은 인공지능(AI) 확장의 가장 큰 장벽 중 하나가 되었습니다. 페타바이트 규모의 데이터 세트를 여러 지역 또는 클라우드로 이동하면 운영 오버헤드, 비용, 지연 시간 및 거버넌스 복잡성이 증가하여 학습 시간과 투자 수익률(ROI)에 직접적인 영향을 미칩니다. 통합된 지역성 인식 데이터 패브릭은 이러한 격차를 해소합니다. Qumulo의 통합 데이터 플랫폼은 다중 지역 또는 하이브리드 토폴로지에서 글로벌 일관성, 보편적인 액세스, 그리고 저지연 액세스를 보장하여 최신 AI 팩토리에 부합하는 새로운 데이터 아키텍처 패러다임을 구현합니다.
이 글에서는 파운데이션 모델 학습과 같은 대규모 AI 워크로드를 지원할 수 있는 통합 데이터 플랫폼의 아키텍처 요소를 간략하게 설명합니다. 또한, 아마존 세이지메이커 하이퍼팟, 페어링 클라우드 네이티브 Qumulo (CNQ)는 분산형 AI/ML 학습을 위한 엔드 투 엔드 환경을 제공합니다. SageMaker HyperPod는 GPU 클러스터의 복원력 있는 오케스트레이션 및 확장을 제공하며, Cloud Data Fabric(CDF)을 활용한 CNQ는 여러 리전이나 사이트에서 낮은 지연 시간으로 데이터에 액세스할 수 있도록 보장합니다. 단일 리전(그림 1 참조) 및 다중 리전(그림 2 참조) 배포 환경에서 SageMaker HyperPod와 CNQ를 결합한 검증된 참조 아키텍처와 Qumulo 및 SageMaker HyperPod 통합 세부 정보를 함께 제시합니다.
Qumulo를 SageMaker HyperPod(및 기타 클라우드 또는 온프레미스 AI 툴)와 페어링하면 조직에서 다음을 수행할 수 있습니다.
- 훈련 전후의 결과를 얻는 시간을 25% 이상 단축합니다.
- 지리적으로 분산된 데이터 전반에 AI 워크로드를 배포하고 가속화된 컴퓨팅 부족을 극복하세요.
- 오케스트레이션 없이 AI 데이터 루프의 운영 오버헤드를 줄입니다.
- 여러 환경 간에 데이터 거버넌스와 보안 정책을 통합합니다.
Foundation 모델 교육을 위한 통합 데이터 플랫폼
지역적으로 분산된 데이터나 로컬 데이터를 활용한 기반 모델 훈련을 위한 핵심 요소는 다음과 같습니다.
- 높은 처리량, 낮은 지연 시간 액세스 로컬 및 원격으로 지속적인 GPU 활용을 위한 데이터입니다.
- 탄력적인 확장성 멀티 페타바이트 규모의 데이터 세트와 동적으로 크기가 조정되는 컴퓨팅 클러스터를 처리합니다.
- 다중 프로토콜 지원 PyTorch와 같은 최적의 파일 기반 라이브러리를 제공합니다.
- 글로벌 가시성 및 거버넌스 데이터 상주 및 규정 준수 요구 사항을 충족합니다.
Qumulo는 고유한 실행-어디서나(Run-Anywhere) 아키텍처를 통해 이러한 각 기능을 제공하며, 컴퓨팅, 메모리, 스토리지의 어떤 조합에서도 고유한 기능을 구현할 수 있습니다. 이를 통해 데이터 플랫폼은 클라우드(AWS, Azure, GCP, OCI)는 물론 HPE, Cisco, Penguin 등을 포함한 온프레미스의 모든 서버 하드웨어에서 동급 최고의 비용 및 성능으로 운영될 수 있었습니다. 이는 통합 플랫폼의 기반이지만, Qumulo는 애플리케이션이 이러한 위치에서 데이터에 액세스하고 관리할 수 있도록 다중 프로토콜을 지원합니다. 이를 통해 PyTorch, TensorFlow, JAX와 같은 다양한 AI 개발 툴체인을 포함한 엔터프라이즈 애플리케이션 생태계 전반에 걸쳐 손쉽게 통합할 수 있습니다. 또한 Amazon SageMaker Hyperpod와의 간편한 통합을 지원하는 데에도 중요한 역할을 합니다.
값비싼 훈련 실행에서 고성능을 보장하는 것이 핵심입니다. 뉴럴캐시 기능은 로컬 및 지리적으로 분산된 데이터 아키텍처에서 최적의 성능을 제공합니다. 예를 들어, 여러 AWS P5e EC2 인스턴스(각 인스턴스에 Nvidia H200 Tensor Core GPU 8개 포함)를 사용하여 llama-3.1-8B를 학습할 때 평균 지연 시간은 밀리초 미만이었습니다. 추가 성능 데이터를 수집했으며, 이는 단일 리전 및 다중 리전 배포에 대해 별도로 게시될 예정입니다.
AI 팀의 경우, 모델 개발에는 여러 번의 학습 실행이 필요하며, 이는 일반적으로 가속 컴퓨팅 리소스를 사용하는 사이트 외부의 데이터를 사용합니다. 예를 들어, 지역 1에서 학습 실행을 실행해야 하지만 GPU 부족 문제로 인해 며칠에서 몇 주까지 지연되는 경우가 있습니다. DIY(Do-It-Yourself) 방식은 미리 선택된 각 데이터 세트를 가속 컴퓨팅 사이트에서 학습 및 검증 실행을 위해 스테이징하는 수백 개의 파이프라인을 필요로 합니다. 이로 인해 학습 시간 지연, 데이터 확산, 데이터 세트의 일관성 부족, 거버넌스 문제가 발생합니다. 대안은 통합 데이터 플랫폼을 통해 필요에 따라 데이터를 이동하여 사이트 간 성능, 비용 효율성 및 일관성을 보장하는 것입니다. 클라우드 데이터 패브릭(CDF)Qumulo는 지역성 인식 데이터 플랫폼을 제공합니다. CDF는 디렉터리/프리픽스를 "허브"에서 하나 또는 여러 개의 "스포크"로 효과적으로 확장합니다. 스포크는 완전히 일관성을 유지하며, Neural Cache의 지역성 인식 및 모델 앙상블을 사용하여 각 워크로드에 대해 어떤 데이터를 프리페치할지 결정합니다. CDF를 통해 스포크는 애플리케이션에 로컬 성능을 제공할 수 있습니다. 그림 1과 2는 SageMaker HyperPod와 Qumulo를 사용한 검증된 아키텍처를 보여줍니다.
이는 AI 팀을 위한 새로운 데이터 패러다임으로, 엔지니어가 결과를 도출하는 데 걸리는 시간을 단축하고 최적화된 제로 오케스트레이션 데이터 루프를 통해 새로운 모델의 성능을 향상시킵니다. 비용 모델링 결과, 이 접근 방식을 사용하면 TCO를 30% 이상 절감할 수 있습니다. 이러한 목표를 달성하기 위해 Qumulo를 활용한 통합 데이터 플랫폼의 주요 기능은 다음과 같습니다.
가속화된 컴퓨팅을 위한 탄력적이고 고성능 데이터 액세스
- 규모에서 1GB/s ~ 1TB/s 표시된 바와 같이 밀리초 미만의 지연 시간을 갖는 처리량 AI-이미지 벤치마크.
- 데이터 로딩, 샤딩, 체크포인팅 또는 미세 조정 중에 I/O 중단을 제거하여 GPU를 최대한 활용합니다.
- NeuralCache™ AI 기반 캐싱 및 프리페칭을 로컬 및 원격으로 사용하여 각 교육 워크로드에 자동으로 적응합니다.
워크로드 모빌리티를 위한 통합 데이터 패브릭
- NeuralCache™ AI 기반 캐싱 및 프리페칭을 사용하여 허브 Qumulo 클러스터와 여러 스포크 Qumulo 클러스터 간에 원활하게 스포크의 대기 시간을 최적화했습니다.
- 데이터 전송을 압축하고, 중복을 제거하고, WAN을 최적화하여 수동 복사에 비해 전송되는 데이터를 30% 이상 줄입니다.
- 버전 정보와 같은 공유 메타데이터를 통해 모든 환경에서 일관된 데이터를 적용합니다.
다중 프로토콜 유연성
- 기본 지원 S3, NFS, SMB, REST 및 SFTP 리팩토링, 재설계 또는 중복 복사를 제거합니다.
- 데이터 과학자, 엔지니어, 시뮬레이션 팀은 선호하는 도구를 사용하여 동일한 데이터 세트에 액세스할 수 있습니다.
- 기존의 사일로형 스토리지에 비해 데이터 오케스트레이션 오버헤드를 최대 4배까지 줄여줍니다.
Qumulo를 사용한 SageMaker HyperPod
이를 증명하기 위해 Qumulo는 다음을 사용하여 공통 기반 모델 워크플로를 검증했습니다. 세이지메이커 하이퍼팟 훈련 데이터와 동일한 지역에 배포될 뿐만 아니라 훈련 데이터 세트와 별도의 지역에도 배포됩니다. 그 결과 데이터 중복이나 오케스트레이션 없이 글로벌 모델 훈련이 이루어지지만 일관성은 유지되고 총 소유 비용은 절감됩니다. 한 가지 중요한 세부 사항은 대부분의 AI 모델 개발 작업에서 훈련 실행당 레이블이 지정된 데이터의 30%만 사용되고 첫 번째 실행과 후속 실행에서 상당한 중복이 발생한다는 것입니다. 이는 대부분의 팀에서 오케스트레이션 작업에서 일반적인 시나리오인 실행당 데이터 세트를 복제하는 것에 비해 더 높은 ROI로 이어집니다. ROI 개선에 더 큰 영향을 미치는 것은 많은 팀이 이러한 목적을 위해 중복을 피하기 위해 복잡한 데이터 카탈로그를 구축했으며, Qumulo CDF를 활용하면 더 이상 구축, 유지 관리 및 발전에 중복이 필요하지 않다는 것입니다.
Qumulo를 사용한 SageMaker HyperPod – 단일 지역 데이터 세트
이 배포에서는 SageMaker HyperPod와 동일한 리전에 학습 데이터를 포함한 CNQ를 배포했습니다. CNQ는 P5e EC2 노드와 함께 배치되지 않은 단일 가용 영역 방식으로 배포되었습니다. 아키텍처는 그림 1에 나와 있습니다.
Qumulo를 사용한 SageMaker HyperPod – 다중 지역 데이터 세트
이 배포에서는 CNQ를 지역 2에 허브로, 지역 1에 스포크로 배포했습니다. CDF는 CNQ 스포크 폴더와의 데이터 분배를 최적화합니다. 이를 통해 학습에 필요한 데이터만 스포크로 분배됩니다.
Qumulo가 포함된 SageMaker HyperPod – 하이브리드 또는 멀티 클라우드 옵션
많은 기업이 이미 한 환경에서 GPU 클러스터를 운영하면서 데이터 세트는 다른 환경에 보관하고 있습니다. Qumulo의 클라우드 데이터 패브릭은 오케스트레이션 없이도 원활한 하이브리드 또는 멀티클라우드 토폴로지를 지원합니다.
- 온프레미스에서 클라우드로: 온프레미스 Qumulo 클러스터를 권한 데이터 소스로 사용하여 SageMaker HyperPod 또는 Azure AI Foundry에서 학습합니다. 그림 2에서 이를 확인할 수 있습니다.
- 멀티 클라우드 : 통합 네임스페이스와 정책 제어를 통해 AWS, Azure, GCP에서 Qumulo 인스턴스를 사용하세요.
- 엣지 투 코어: 복잡한 복제 작업 없이 엣지에서 생성된 데이터를 수집, 큐레이션하고 학습합니다.
SageMaker HyperPod와 Qumulo 통합
우리는 단일 지역 배포를 위한 검증된 레시피를 제공합니다. AWS 마켓플레이스의 클라우드 네이티브 Qumulo(CNQ) SageMaker Hyperpod와 통합합니다. 이 레시피에서 CNQ는 학습 데이터와 체크포인트를 지원하고, NFS CSI 드라이버를 사용하여 SageMaker Hyperpod에서 동적 컨테이너 배포를 지원합니다.
검증된 구성을 재현하려면 다음 단계를 설명합니다.
1단계: Amazon EKS 및 HyperPod 클러스터 프로비저닝
우리는 따라갔다 EKS 및 HyperPod 설정 가이드 EKS 클러스터를 배포하고 SageMaker HyperPod를 통합합니다.
# Create EKS Cluster with managed node groups
eksctl create cluster \
--name hyperpod-eks \
--version 1.29 \
--region us-west-2 \
--nodegroup-name workers \
--node-type P5.4xlarge \
--nodes 2 \
--nodes-min 2 \
--nodes-max 8
# Confirm nodes are ready
kubectl get nodes
2단계: Terraform을 통해 Qumulo 클러스터 배포
Terraform을 사용하여 AWS에 클라우드 네이티브 Qumulo(CNQ)를 배포하려면 영구 스토리지로 AWS S3를 활용하고 컴퓨팅 및 캐시 리소스로 EC2 인스턴스를 활용하는 완전히 탄력적인 파일 데이터 플랫폼을 설정해야 합니다. 배포 프로세스는 AWS Well-Architected Framework를 준수하여 확장성, 보안 및 운영 효율성을 보장합니다. 시작하기 전에 환경은 적절한 IAM 권한, Qumulo 엔드포인트로의 아웃바운드 인터넷 연결, 그리고 S3 VPC 게이트웨이(사용하는 경우) 설정을 포함한 몇 가지 전제 조건을 충족해야 합니다. Terraform 배포 패키지는 필요한 모든 AWS 리소스의 프로비저닝을 자동화하는 모듈식 템플릿을 제공합니다.
배포는 두 가지 주요 단계로 진행됩니다. 첫째, Terraform 구성을 사용하여 Qumulo 데이터를 저장할 S3 버킷을 생성하여 영구 저장소를 구축합니다. 저장소가 생성되면 두 번째 단계에서는 Qumulo Core를 호스팅하는 EC2 인스턴스를 배포합니다. Terraform은 구성 일관성, 명명 규칙 및 종속성 관리를 자동으로 처리하며, 여러 클러스터 간 충돌을 방지하기 위해 모든 리소스에 고유한 배포 식별자를 지정합니다.
배포 후, 배포 후 작업에는 클러스터 구성 검증, AWS Systems Manager를 통한 성공적인 프로비저닝 확인, 그리고 Qumulo 권한 DNS를 사용한 DNS 확인(선택 사항) 설정이 포함됩니다. 그 결과, 페타바이트 규모의 데이터를 탄력적으로 관리할 수 있는 완벽하게 작동하는 클라우드 네이티브 Qumulo 클러스터가 탄생합니다. 다중 프로토콜 액세스 을 통한 S3, NFS, SMB, FTP 및 RestAPI 액세스 AWS의 통합 이점.
에 따라 Terraform을 사용하여 AWS에 CNQ를 배포하는 방법 가이드 자세한 단계는
3단계: Qumulo 사용자 생성 및 NFS 내보내기
사용법 - Qumulo GUI 도구 (http 브라우저를 통해 접근 가능):
- 새로운 사용자와 권한을 추가했습니다.
- NFS 내보내기 경로 /ai-factory-data를 만듭니다.
참조 : NFS 내보내기를 만드는 방법.
4단계: CSI 드라이버 설치 및 PVC 구성
Kubernetes 워크로드를 Qumulo에 연결하기 위해 CSI 드라이버를 설치하고 PVC를 정의했습니다.
# Install Qumulo CSI Driver
helm repo add csi-driver-nfs https://raw.githubusercontent.com/kubernetes-csi/csi-driver-nfs/master/charts
helm install csi-driver-nfs csi-driver-nfs/csi-driver-nfs --namespace kube-system --version 4.12.0
# Example PV configuration
apiVersion: v1
kind: PersistentVolume
metadata:
name: pv-qumulo-static
spec:
capacity:
storage: 50Ti
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
storageClassName: ""
mountOptions:
- vers=3
- proto=tcp
- nolock
csi:
driver: nfs.csi.k8s.io
# Unique ID for this directory/volume; use a stable path-based handle volumeHandle: qumulo-nfs-root
volumeAttributes:
server: qumulo.qumulo-hub.com
share: "/csi"
# Example PVC configuration
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: pvc-qumulo-static
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 50Ti
storageClassName: ""
volumeName: pv-qumulo-static
참조 : CSI 드라이버와 Kubernetes 연결.
5단계: 작업 실행
우리는 배치했다 라마 2 모델 사용 파이토치 FSDP 쿠버네티스에 관하여.
# Launch distributed Llama 2 job with FSDP
kubectl create -f llama2-fsdp-job.yaml
구성은 AWS 샘플인 Llama 2 FSDP 예시를 따랐습니다.
이 설정은 단일 지역 및 다중 지역 운영에 대해 검증되었으며, 프로덕션에 바로 적용할 수 있으며 하이브리드 및 다중 클라우드 AI 팩토리에 대한 청사진을 형성합니다.
결론
기업이 AI 포부를 확장함에 따라, 데이터가 있는 곳으로 이동하지 않고도 컴퓨팅이 가능한 곳에서 학습할 수 있는 능력은 각 사업부의 운영 효율성과 전반적인 성과 달성 시간을 향상시킵니다. 온프레미스, 클라우드, 그리고 엣지 환경에서 Qumulo를 활용하면 기반 모델 개발에 필요한 성능과 간편성을 확보하면서 비용 최적화된 방식으로 이러한 목표를 달성할 수 있습니다. Qumulo를 SageMaker HyperPod(및 기타 클라우드 또는 온프레미스 AI 개발 프레임워크)와 함께 사용하면 다음과 같은 이점을 얻을 수 있습니다.
- 훈련 전후의 결과를 얻는 시간을 25% 이상 단축합니다.
- 지리적으로 분산된 데이터 전반에 AI 워크로드를 배포하고 가속화된 컴퓨팅 부족을 극복하세요.
- 오케스트레이션 없이 AI 데이터 루프의 운영 오버헤드를 줄입니다.
- 여러 환경 간에 데이터 거버넌스와 보안 정책을 통합합니다.
GPU가 AWS, Azure, GCP 또는 온프레미스에서 실행되는지 여부에 관계없이 Qumulo는 어디서나 학습하고 관리할 수 있는 AI 전략을 구현합니다.
에서 자세한 내용보기 qumulo.com/ai


