Qumulo에서 우리는 수년간 Scale Anywhere 엔터프라이즈 전체 기본 스토리지 시스템을 만들고 이를 진정한 클라우드 데이터 플랫폼으로 발전시키는 데 전념해 왔습니다. 이는 고성능 컴퓨팅, 슈퍼컴퓨팅, 인공 지능, 콘텐츠 생성, 의료, 생명 과학, 방위/정보 및 연구 분야에 적합합니다. 우리 기술의 가장 큰 영향력 있는 사용 사례 중 하나는 다음을 지원하는 것입니다. 자율 주행 클러스터, 또한 ~으로 알려진 첨단 운전자 지원 시스템(ADAS)자율 주행차 개발의 기초가 되는 이러한 AI 클러스터는 크고 작은 파일이 혼합된 방대한 데이터 세트를 관리하는 Qumulo의 고유한 강점을 활용하여 퍼블릭, 하이브리드 및 프라이빗 클라우드 환경에서 타의 추종을 불허하는 내구성, 일관성 및 확장성을 제공합니다.
DaVinci에는 대규모 언어 모델(LLM) GPT-4는 스토리를 쓰고, 언어를 세련되게 만들고, 심지어 괜찮은 농담을 할 수 있는 능력으로 헤드라인을 장식했습니다. ADAS 클러스터는 더욱 중요한 임무 수행 목적을 제공합니다.: 운전자 안전을 강화하고, 연료 사용을 최적화하며, 궁극적으로 생명을 구합니다. 이러한 컴퓨팅 집약적 도메인(ADAS 및 LLM)은 각각 미묘한 차이점이 있어 과제와 기회를 모두 가져옵니다. LLM이 대중의 상상력을 사로잡을 수 있지만, Qumulo에서는 세계에서 가장 큰 ADAS 클러스터의 많은 데이터 시스템을 강화하게 되어 자랑스럽습니다. 도로에서 모든 사람의 삶에 영향을 미치는 혁신적인 애플리케이션으로 안전과 효율성을 개선합니다.
데이터의 목적 및 특성
대형 언어 모델(LLM):
LLM은 인간과 유사한 텍스트를 처리하고 생성하도록 설계되었습니다. 이들의 데이터 세트는 다음으로 구성됩니다. 토큰 책, 기사, 웹사이트, 코드 저장소와 같은 자연어 소스에서 파생되었습니다. 이러한 데이터 세트는 강조합니다. 언어적 일반화, 데이터가 다양하고 모델이 제공할 언어를 대표해야 합니다. 토큰화(텍스트를 하위 단어 단위 또는 단어로 나누는 프로세스)를 통해 데이터를 효율적으로 표현할 수 있습니다.
자율 주행 / 고급 운전자 지원 시스템(ADAS):
자율 주행차는 센서 데이터에 의존하여 실제 환경을 탐색합니다. 이러한 데이터 세트에는 다음이 포함됩니다. 원시, 압축되지 않은 출력 카메라, LiDAR, 레이더, GPS, 관성 측정 장치(IMU)에서 시작합니다. 목표는 모델을 훈련하여 공간 환경을 이해하고, 물체를 인식하고, 실시간 결정을 내리는 것입니다. ADAS 데이터 세트는 일반적인 주행 시나리오뿐만 아니라 악천후나 비정상적인 보행자 행동과 같은 드문 예외 사례도 포착해야 합니다.
데이터 세트 크기: 양적 관점
LLM:
LLM 데이터 세트의 규모는 일반적으로 다음과 같이 측정됩니다. 토큰. 예를 들면 :
- GPT-3는 대략적으로 훈련되었습니다. 300 억 토큰, 압축된 데이터 약 570GB 또는 압축되지 않은 데이터 수 테라바이트에 해당합니다(Brown et al., 2020).
- GPT-4와 같은 최신 LLM은 다음을 초과하는 데이터 세트를 활용할 가능성이 높습니다. 1~2페타바이트특히 다중 모드 및 다중 언어 소스를 통합할 때 그렇습니다. 이는 약 100개에 해당합니다. 8K RAW 장편 영화.
ADAS:
ADAS 데이터 세트는 다음에서 측정됩니다. 원시 데이터 저장 센서 출력의 비압축 특성으로 인해:
- 단일 자율 주행 차량은 다음을 생성합니다. 매일 1~10테라바이트의 데이터 (웨이모, 2023).
- Tesla 및 Waymo와 같은 회사에서 사용하는 차량 전체 데이터 세트는 다음을 초과합니다. 연간 100~500페타바이트. 문맥을 위해 Tesla의 차량은 다음을 수집합니다. 매일 1만 마일의 주행 데이터 (테슬라 AI 데이, 2021). LLM 교육 데이터 세트와 비교하면 이는 대략 다음과 같습니다. 매년 25,000개의 8K RAW 장편 영화가 제작되거나 32년 동안의 현대 영화 제작이 이루어집니다..
데이터의 다양성과 구조
LLM:
- 토큰화 및 중복 제거 프로세스로 인해 데이터가 고도로 압축되었습니다.
- 일반화를 보장하기 위해 여러 도메인(예: 과학 논문, 소설, 코드)에서 다양성을 우선시합니다.
- 낮은 품질이나 편향된 텍스트를 걸러내기 위해 상당한 전처리가 수행됩니다(OpenAI, 2020).
ADAS:
- Video: 초당 1080~4프레임의 고해상도(30p 또는 60K) 녹화.
- LiDAR: 초당 수백만 개의 3D 포인트.
데이터의 상당 부분은 다음에 사용됩니다. 시뮬레이션 및 검증특히 드물게 발생하는 예외 사례에 대해서요.
컴퓨팅 문제
LLM:
- 훈련에는 수십억 개에서 수조 개의 매개변수가 포함되므로 토큰화된 데이터 세트의 고처리량 처리가 필요합니다.
- GPT-3에 필요한 교육은 대략 다음과 같습니다. 3640페타플롭스 일 컴퓨팅의 (Brown et al., 2020).
- 최적화된 데이터 파이프라인(예: 토큰화, 배칭)은 학습 중에 효과적인 데이터 세트 크기를 줄여줍니다.
ADAS:
- 처리에는 시계열 데이터와 공간 모델링이 포함되며, 이는 종종 실시간 성능을 요구합니다.
- 시뮬레이션 환경(예: CARLA, NVIDIA DRIVE)은 훈련을 보강하는 데 사용되며, 이로 인해 계산 복잡성이 증가합니다.
- GPU나 전용 TPU와 같은 특수 하드웨어와 대용량 코어 너비의 단일 소켓 CISC CPU는 학습과 추론을 위해 대용량의 원시 데이터 세트를 처리합니다.
데이터 수명 및 성장
LLM:
- 데이터 세트 크기는 모델 복잡성에 따라 점진적으로 증가합니다. 그러나 규모에 따른 수익 감소로 인해 성장이 둔화됩니다(Kaplan et al., 2020).
- 언어적 기본은 빠르게 변하지 않기 때문에 오래된 데이터 세트는 여전히 관련성이 있습니다.
ADAS:
- 데이터 세트는 다음과 같은 이유로 기하급수적으로 증가합니다.
- 함대 규모 확대 및 채택률 상승.
- 센서 기술의 발전(더 높은 해상도 및 샘플링 속도)
- 강력한 일반화를 위해 엣지 케이스의 적용 범위 확장
- 차량 및 센서 기술이 발전함에 따라 오래된 데이터 세트는 더 이상 필요 없게 될 수 있습니다.
데이터 세트 비교
아래 | LLM | ADAS/자율주행 |
---|---|---|
데이터세트 크기 | 테라바이트에서 페타바이트 수준까지 | 수백 페타바이트 |
데이터 형식 | 텍스트(토큰) | 비디오, LiDAR, 레이더, GPS, GIS, 위성 이미지 |
압축 | 고도로 압축됨(토큰화) | 최소 압축(원시 데이터) |
목적 | 언어적 이해 | 실시간 공간 의사결정 - 생명 구조 및 교통 안전 개선 |
성장 | 수익이 감소함에 따라 확장 속도가 느려짐 | 기하급수적 성장(함대, 센서) |
결론
선택의 자유
이는 더 광범위한 전략적 결정으로 이어집니다. 가속 컴퓨팅 인프라를 온프레미스에 구축해야 할까요, 아니면 퍼블릭 클라우드 환경의 확장성과 용량을 활용하여 하이브리드 인프라에서 데이터 세트를 원활하게 연결하는 것이 더 효율적일까요? Qumulo에서는 고객이 두 가지 시나리오에서 모두 탁월함을 발휘할 수 있도록 지원하여 기술적 장벽을 허물고 고유한 요구 사항에 맞는 최상의 비즈니스, 엔지니어링 및 운영 결정을 내릴 수 있도록 하는 것을 목표로 합니다. Qumulo가 클라우드 데이터 플랫폼을 사용하여 퍼블릭 클라우드 환경에서 제공한 획기적인 성능에 대해 자세히 알아보려면 다음을 확인하세요. 이 동영상을.