블로그

Cryo-EM에서 데이터 중력 극복하기: 지능형 하이브리드 데이터 아키텍처가 신약 개발의 미래를 가속화하는 방법

2026년 6월 2일

Marcos Seoane

Cryo-EM은 단백질, 바이러스, 분자 복합체의 원자 수준 3D 시각화를 가능하게 함으로써 구조 생물학, 백신 개발, 제약 혁신의 미래를 재정의하는 데 기여하고 있습니다. 이러한 기능을 통해 미세한 세포 구조와 복잡한 생물학적 구조를 아세포 및 분자 규모로 자세히 연구할 수 있습니다.

종종 헤드라인을 장식하는 것은 과학적 혁신이지만, 그 이면에 있는 인프라 문제는 거의 논의되지 않습니다.

현실적으로 Cryo-EM 워크플로는 현대 생명과학 분야에서 가장 데이터 집약적인 파이프라인 중 하나입니다.

각 프로젝트는 수만 개의 작은 이미지 파일과 비디오 시퀀스로 구성된 10TB에서 200TB 이상의 고해상도 현미경 데이터를 생성할 수 있습니다. 이 데이터는 일반적으로 현미경으로 생물학적 샘플을 캡처하는 습식 실험실에서 생성되지만, 모션 보정, CTF 추정, 입자 선택, 2D 분류, 3D 세분화 등 무거운 연산 작업에는 대규모 데이터센터나 퍼블릭 클라우드 플랫폼에서만 가능한 GPU 고밀도 컴퓨팅 용량이 필요합니다.

많은 조직에서 이로 인해 비용이 많이 들고 운영상 복잡한 문제가 발생합니다.

데이터를 실험실 환경에서 HPC 또는 클라우드 인프라로 복사해야 하므로 모든 프로젝트에 훨씬 더 많은 것을 준비해야 합니다. 복제된 데이터 세트를 저장하기 위해 추가 스토리지를 프로비저닝해야 하며, 사이트당 프로젝트당 최대 200TB의 용량을 확보해야 합니다. 모든 프로젝트와 모든 엔드포인트에 대해 복제 파이프라인을 구현하고 유지 관리해야 하며, 데이터 파이프라인 구축, 활성 복제 작업 모니터링, 주요 전송 후 데이터 무결성 확인에 소중한 직원 시간을 소비해야 합니다.

이러한 모든 데이터 중복과 환경의 복잡성은 모든 프로젝트의 비용을 증가시킬 뿐만 아니라 프로젝트 일정도 길어지게 합니다. 과학자들은 처리를 시작하기까지 몇 시간 또는 며칠을 기다려야 하는 경우가 많으며, 최종 결과물은 검증, 시각화 및 광범위한 협업을 위해 다시 한 번 전송해야 하는 경우가 많습니다.

스토리지 용량을 훨씬 뛰어넘는 숨겨진 비용이 훨씬 더 많습니다. 복제는 인프라 공간을 확장하고, 네트워킹 수요를 증가시키며, 운영 스크립팅의 복잡성을 더하고, 더 심층적인 IT 감독이 필요하며, 여러 팀에 걸쳐 상당한 인적 의존성을 유발합니다. 현미경 전문가, IT 관리자, 클라우드 설계자, 생물정보학 팀, 스토리지 엔지니어, 연구원 모두가 취약한 운영 체인의 연결 고리가 되어 데이터가 필요한 곳에 일관성 있게 제시간에 도착하도록 하기 위해 초과 근무를 해야 합니다.

조직의 모든 지점과 동시에 연결되는 파일 시스템, 한 위치에서 생성된 데이터를 다른 위치에서 즉시 액세스할 수 있는 더 간단한 접근 방식을 상상해 보세요.

팔로알토, 보스턴, 영국의 CRO 파트너에 있는 사이트에서 동시에 3개의 신약 개발 프로그램을 운영하는 한 제약 회사를 생각해 보세요. 기존 복제 모델에서는 각 사이트마다 스토리지 용량에 3을 곱한 값, 모든 엔드포인트에서 유지되는 복제 파이프라인, 클라우드 GPU 클러스터가 처리를 시작하기 전 12~24시간의 준비 기간 등 모든 데이터 세트의 자체 복사본을 유지합니다. 통합 데이터 패브릭을 사용하면 동일한 조직에서 각 데이터 세트의 단일 복사본으로 운영할 수 있으므로, 팔로알토에서 작성된 계측기 데이터를 AWS의 GPU 클러스터, 보스턴에서 실행 중인 분석 파이프라인, 영국의 CRO 팀에서 단일 복제 작업 실행 없이 동시에 볼 수 있습니다. IT 복잡성이 줄어들고 스토리지 오버헤드가 비례적으로 감소하며 데이터 수집과 실행 가능한 결과 사이의 시간이 며칠에서 몇 시간으로 단축됩니다.

Qumulo의 하이브리드 데이터 아키텍처는 이 방정식을 근본적으로 바꿔놓습니다.

Qumulo의 파일 시스템은 업계 표준 프로토콜인 NFS v3/v4.1, SMB 3.0 및 S3 호환 개체 API를 통해 모든 엔드포인트에 데이터를 노출하므로 기존의 생물정보학 파이프라인, HPC 작업 스케줄러 및 클라우드 네이티브 도구가 수정 없이 네임스페이스를 마운트하거나 액세스할 수 있습니다. 글로벌 네임스페이스는 온프레미스 노드와 클라우드 인스턴스에서 동시에 하나의 일관된 메타데이터 플레인을 유지합니다. 디렉토리 목록, 파일 속성 및 이노드 상태는 요청을 발행하는 엔드포인트에 관계없이 일관되므로 기존 복제 아키텍처에서 흔히 발생하는 분할 뇌 조건 및 캐시 부실 장애를 제거할 수 있습니다. 클라우드 가속기는 클라우드 컴퓨팅 인스턴스에 대한 표준 NFS 마운트 포인트로 제공되므로 물리적 데이터 위치와 클라우드 엔드포인트 간의 지연 시간 차이를 처리하는 지능형 읽기 및 프리페치를 통해 네임스페이스에 첫 번째 파일이 표시되는 즉시 GPU 워크로드가 처리를 시작할 수 있으며, 기기 사이트의 Edge Accelerator 어플라이언스는 중간 단계 없이 탐지기와 스캐너에서 패브릭으로 직접 고대역폭 쓰기 스트림을 흡수합니다.

불필요한 복제를 없애고 데이터 세트에 대한 통합된 글로벌 액세스를 가능하게 함으로써 조직은 Cryo-EM을 파편화된 물류 문제에서 간소화된 과학 워크플로우로 전환할 수 있도록 Qumulo를 지원합니다. 클라우드 데이터 플랫폼은 데이터를 복사, 검증, 전송, 다시 스테이징하는 과정을 반복하는 대신 즉각적인 글로벌 가용성을 지원하여 컴퓨팅 리소스가 가장 효과적인 곳에서 처리가 이루어지도록 하고 필요한 모든 곳에서 결과에 즉시 액세스할 수 있도록 보장합니다.

통합된 글로벌 네임스페이스를 통해 웨트 랩, 클라우드 HPC 환경, 연구팀을 실시간으로 연결함으로써 Qumulo는 데이터의 단일 사본을 하나의 물리적 위치에 존재하게 하면서도 사이트, 플랫폼, 클라우드 전반에서 즉시 액세스할 수 있게 합니다. 데이터 세트가 중복될 필요도 없고, 깨지기 쉬운 전송 스크립트에 의존할 필요도 없으며, 검증 주기를 반복할 필요도 없고, 기존 복제 방식으로 인한 운영 지연도 없습니다.

이 모든 작업은 단일 데이터 세트를 복제하지 않고 수행되므로 저장 및 관리할 데이터 사본이 하나만 필요하므로 조직의 IT 팀은 스토리지 오버헤드, 관리 복잡성, 가치 실현 시간을 획기적으로 줄일 수 있습니다.

AWS, Azure, GCP와 같은 주요 하이퍼스케일러의 마켓플레이스에서 사용하거나 선호하는 OEM의 하드웨어를 사용하여 온프레미스에 배포할 수 있는 Qumulo의 확장 가능한 고성능 파일 시스템과 Qumulo 클라우드 데이터 패브릭의 확장된 파일 시스템 기능을 결합하여 구축된 Qumulo 클라우드 데이터 플랫폼은 데이터 생성, GPU 가속, 글로벌 협업을 실시간으로 연결하는 진정한 생명과학용 하이브리드 환경을 조성합니다. 엣지 액셀러레이터 어플라이언스(옵션)는 원격 사이트와 습식 실험실을 패브릭에 다시 연결하고, 클라우드 액셀러레이터는 데이터가 있는 곳에서 클라우드로 데이터를 투사하는 임시 포털을 열어 로컬 리소스가 제한될 때 데이터를 이동하지 않고도 워크로드를 가용 클라우드 GPU 용량으로 급증시키고 필요에 따라 컴퓨팅을 확장할 수 있게 해줍니다.

제약 및 바이오테크 조직의 경우, 이는 분자 모델링 이니셔티브를 가속화하고, 치료법 발견 일정을 몇 주에서 며칠로 단축하며, 보다 민첩한 백신 개발을 가능하게 하고, 고가의 GPU 리소스 활용을 극대화하고, 궁극적으로 R&D 자체의 비용과 복잡성을 줄이는 것을 의미합니다.

AI, HPC, 첨단 생물학적 이미징이 계속 융합됨에 따라 전략적 우위를 점하는 조직은 단순히 최고의 현미경이나 최대 규모의 GPU 클러스터를 보유한 조직이 아니라 데이터 중력을 완전히 제거할 수 있는 인프라를 구축하는 조직이 될 것입니다.

생명과학의 다음 개척지는 단순한 컴퓨팅이 아닙니다.

바로 지능형 데이터 아키텍처이며, 큐물로 클라우드 데이터 패브릭과 같은 솔루션이 이러한 미래를 실현하는 데 도움을 주고 있습니다.