AI 튜닝 및 추론을 위한 데이터 세트 비교: 대규모 언어 모델 대 자율 주행 시스템

작성자 : 

AI 튜닝 및 추론: 대규모 언어 모델 대 자율 주행 시스템

Qumulo에서 우리는 수년간 Scale Anywhere 엔터프라이즈 전체 기본 스토리지 시스템을 만들고 이를 진정한 클라우드 데이터 플랫폼으로 발전시키는 데 전념해 왔습니다. 이는 고성능 컴퓨팅, 슈퍼컴퓨팅, 인공 지능, 콘텐츠 생성, 의료, 생명 과학, 방위/정보 및 연구 분야에 적합합니다. 우리 기술의 가장 큰 영향력 있는 사용 사례 중 하나는 다음을 지원하는 것입니다. 자율 주행 클러스터, 또한 ~으로 알려진 첨단 운전자 지원 시스템(ADAS)자율 주행차 개발의 기초가 되는 이러한 AI 클러스터는 크고 작은 파일이 혼합된 방대한 데이터 세트를 관리하는 Qumulo의 고유한 강점을 활용하여 퍼블릭, 하이브리드 및 프라이빗 클라우드 환경에서 타의 추종을 불허하는 내구성, 일관성 및 확장성을 제공합니다.

DaVinci에는 대규모 언어 모델(LLM) GPT-4는 스토리를 쓰고, 언어를 세련되게 만들고, 심지어 괜찮은 농담을 할 수 있는 능력으로 헤드라인을 장식했습니다. ADAS 클러스터는 더욱 중요한 임무 수행 목적을 제공합니다.: 운전자 안전을 강화하고, 연료 사용을 최적화하며, 궁극적으로 생명을 구합니다. 이러한 컴퓨팅 집약적 도메인(ADAS 및 LLM)은 각각 미묘한 차이점이 있어 과제와 기회를 모두 가져옵니다. LLM이 대중의 상상력을 사로잡을 수 있지만, Qumulo에서는 세계에서 가장 큰 ADAS 클러스터의 많은 데이터 시스템을 강화하게 되어 자랑스럽습니다. 도로에서 모든 사람의 삶에 영향을 미치는 혁신적인 애플리케이션으로 안전과 효율성을 개선합니다.

최근 몇 년 동안 인공지능의 발전으로 OpenAI의 GPT 시리즈와 ADAS와 같은 LLM이 주도되었습니다. 둘 다 학습을 위해 상당한 데이터 세트에 의존하지만 이러한 데이터 세트의 특성, 규모 및 구조는 상당히 다릅니다. 이러한 대조를 기술적 수준에서 살펴보고 각각의 과제와 기회에 대해 알아보겠습니다.

데이터의 목적 및 특성

LLM과 ADAS 데이터 세트의 근본적인 차이점은 목적과 수집하는 데이터 유형에 있습니다.

대형 언어 모델(LLM):

LLM은 인간과 유사한 텍스트를 처리하고 생성하도록 설계되었습니다. 이들의 데이터 세트는 다음으로 구성됩니다. 토큰 책, 기사, 웹사이트, 코드 저장소와 같은 자연어 소스에서 파생되었습니다. 이러한 데이터 세트는 강조합니다. 언어적 일반화, 데이터가 다양하고 모델이 제공할 언어를 대표해야 합니다. 토큰화(텍스트를 하위 단어 단위 또는 단어로 나누는 프로세스)를 통해 데이터를 효율적으로 표현할 수 있습니다.

자율 주행 / 고급 운전자 지원 시스템(ADAS):

자율 주행차는 센서 데이터에 의존하여 실제 환경을 탐색합니다. 이러한 데이터 세트에는 다음이 포함됩니다. 원시, 압축되지 않은 출력 카메라, LiDAR, 레이더, GPS, 관성 측정 장치(IMU)에서 시작합니다. 목표는 모델을 훈련하여 공간 환경을 이해하고, 물체를 인식하고, 실시간 결정을 내리는 것입니다. ADAS 데이터 세트는 일반적인 주행 시나리오뿐만 아니라 악천후나 비정상적인 보행자 행동과 같은 드문 예외 사례도 포착해야 합니다.

데이터 세트 크기: 양적 관점

데이터 세트 크기는 절대적인 측면에서도 다르고 측정 방법도 다릅니다.

LLM:

LLM 데이터 세트의 규모는 일반적으로 다음과 같이 측정됩니다. 토큰. 예를 들면 :

  • GPT-3는 대략적으로 훈련되었습니다. 300 억 토큰, 압축된 데이터 약 570GB 또는 압축되지 않은 데이터 수 테라바이트에 해당합니다(Brown et al., 2020).
  • GPT-4와 같은 최신 LLM은 다음을 초과하는 데이터 세트를 활용할 가능성이 높습니다. 1~2페타바이트특히 다중 모드 및 다중 언어 소스를 통합할 때 그렇습니다. 이는 약 100개에 해당합니다. 8K RAW 장편 영화.

ADAS:

ADAS 데이터 세트는 다음에서 측정됩니다. 원시 데이터 저장 센서 출력의 비압축 특성으로 인해:

  • 단일 자율 주행 차량은 다음을 생성합니다. 매일 1~10테라바이트의 데이터 (웨이모, 2023).
  • Tesla 및 Waymo와 같은 회사에서 사용하는 차량 전체 데이터 세트는 다음을 초과합니다. 연간 100~500페타바이트. 문맥을 위해 Tesla의 차량은 다음을 수집합니다. 매일 1만 마일의 주행 데이터 (테슬라 AI 데이, 2021). LLM 교육 데이터 세트와 비교하면 이는 대략 다음과 같습니다. 매년 25,000개의 8K RAW 장편 영화가 제작되거나 32년 동안의 현대 영화 제작이 이루어집니다..

데이터의 다양성과 구조

데이터의 구조와 다양성은 또한 극명한 대조를 강조합니다.

LLM:

  • 토큰화 및 중복 제거 프로세스로 인해 데이터가 고도로 압축되었습니다.
  • 일반화를 보장하기 위해 여러 도메인(예: 과학 논문, 소설, 코드)에서 다양성을 우선시합니다.
  • 낮은 품질이나 편향된 텍스트를 걸러내기 위해 상당한 전처리가 수행됩니다(OpenAI, 2020).

ADAS:

데이터는 본질적으로 고차원적이고 공간적이며 다음을 포함합니다.
  • Video: 초당 1080~4프레임의 고해상도(30p 또는 60K) 녹화.
  • LiDAR: 초당 수백만 개의 3D 포인트.

데이터의 상당 부분은 다음에 사용됩니다. 시뮬레이션 및 검증특히 드물게 발생하는 예외 사례에 대해서요.

컴퓨팅 문제

LLM 데이터 세트는 원시 저장소 측면에서는 더 작지만, 교육 복잡성과 컴퓨팅 요구 사항은 ADAS와 비슷합니다.

LLM:

  • 훈련에는 수십억 개에서 수조 개의 매개변수가 포함되므로 토큰화된 데이터 세트의 고처리량 처리가 필요합니다.
  • GPT-3에 필요한 교육은 대략 다음과 같습니다. 3640페타플롭스 일 컴퓨팅의 (Brown et al., 2020).
  • 최적화된 데이터 파이프라인(예: 토큰화, 배칭)은 학습 중에 효과적인 데이터 세트 크기를 줄여줍니다.

ADAS:

  • 처리에는 시계열 데이터와 공간 모델링이 포함되며, 이는 종종 실시간 성능을 요구합니다.
  • 시뮬레이션 환경(예: CARLA, NVIDIA DRIVE)은 훈련을 보강하는 데 사용되며, 이로 인해 계산 복잡성이 증가합니다.
  • GPU나 전용 TPU와 같은 특수 하드웨어와 대용량 코어 너비의 단일 소켓 CISC CPU는 학습과 추론을 위해 대용량의 원시 데이터 세트를 처리합니다.

데이터 수명 및 성장

LLM:

  • 데이터 세트 크기는 모델 복잡성에 따라 점진적으로 증가합니다. 그러나 규모에 따른 수익 감소로 인해 성장이 둔화됩니다(Kaplan et al., 2020).
  • 언어적 기본은 빠르게 변하지 않기 때문에 오래된 데이터 세트는 여전히 관련성이 있습니다.

ADAS:

  • 데이터 세트는 다음과 같은 이유로 기하급수적으로 증가합니다.
    • 함대 규모 확대 및 채택률 상승.
    • 센서 기술의 발전(더 높은 해상도 및 샘플링 속도)
    • 강력한 일반화를 위해 엣지 케이스의 적용 범위 확장
  • 차량 및 센서 기술이 발전함에 따라 오래된 데이터 세트는 더 이상 필요 없게 될 수 있습니다.

데이터 세트 비교

아래 LLM ADAS/자율주행
데이터세트 크기 테라바이트에서 페타바이트 수준까지 수백 페타바이트
데이터 형식 텍스트(토큰) 비디오, LiDAR, 레이더, GPS, GIS, 위성 이미지
압축 고도로 압축됨(토큰화) 최소 압축(원시 데이터)
목적 언어적 이해 실시간 공간 의사결정 - 생명 구조 및 교통 안전 개선
성장 수익이 감소함에 따라 확장 속도가 느려짐 기하급수적 성장(함대, 센서)

결론

LLM 및 ADAS 시스템을 훈련하는 데 사용되는 데이터 세트는 각 도메인의 고유한 과제에 맞게 조정됩니다. LLM은 고도로 압축되고 큐레이팅된 주로 텍스트 데이터에 의존하는 반면, ADAS 시스템은 저장 요구 사항이 훨씬 더 큰 원시 비압축 센서 데이터를 처리합니다. 그러나 LLM을 훈련하는 데 필요한 계산 복잡도는 종종 ADAS의 복잡도와 맞먹으며, 이는 현대 언어 모델의 방대한 매개변수 공간을 반영합니다.
이러한 분야가 계속 진화함에 따라 데이터 처리 및 모델 아키텍처의 혁신은 각각의 과제를 해결하는 데 여전히 중요할 것입니다. ADAS 시스템이 원시 데이터 확장의 물류적 장애물에 직면하는 반면, LLM은 데이터 세트 크기, 품질 및 감소하는 수익 간의 균형을 찾아야 합니다.

선택의 자유

대규모 언어 모델이나 ADAS 시스템을 처리하는 현대적 과제를 고려할 때, 핵심적인 질문이 생깁니다. 내 데이터 센터에 훈련에 필요한 가속 컴퓨팅 기술을 지원할 수 있는 용량(공간, 전력 및 냉각)이 있습니까? 마찬가지로 중요한 것은 전문 하드웨어에서 지속적인 훈련과 튜닝이 필수적인지, 아니면 추론으로 전환하기 전에 특정 결과를 얻기 위해 이러한 리소스를 일시적으로 활용하는 것으로 충분한지 여부를 판단하는 것입니다.

이는 더 광범위한 전략적 결정으로 이어집니다. 가속 컴퓨팅 인프라를 온프레미스에 구축해야 할까요, 아니면 퍼블릭 클라우드 환경의 확장성과 용량을 활용하여 하이브리드 인프라에서 데이터 세트를 원활하게 연결하는 것이 더 효율적일까요? Qumulo에서는 고객이 두 가지 시나리오에서 모두 탁월함을 발휘할 수 있도록 지원하여 기술적 장벽을 허물고 고유한 요구 사항에 맞는 최상의 비즈니스, 엔지니어링 및 운영 결정을 내릴 수 있도록 하는 것을 목표로 합니다. Qumulo가 클라우드 데이터 플랫폼을 사용하여 퍼블릭 클라우드 환경에서 제공한 획기적인 성능에 대해 자세히 알아보려면 다음을 확인하세요. 이 동영상을.

참고자료

Brown, T. 등 (2020). 언어 모델은 Few-Shot Learners입니다. NeurIPS. (링크)

Kaplan, J. 등 (2020). 신경 언어 모델을 위한 스케일링 법칙. OpenAI. (링크)

Waymo(2023). 자율주행 데이터 세트 개요. Waymo Research. 웹 사이트

테슬라 AI 데이(2021). 테슬라의 차량 데이터 수집. 테슬라. (링크)

0 0 투표
좋아요^^
확인
나에게 알려주세요
손님
0 코멘트
오래된
최신 대부분의 투표
인라인 피드백
모든 댓글보기

관련 게시물

0
의견을 부탁드립니다.x
위쪽으로 스크롤