Azure Native Qumulo 이제 EU, 영국 및 캐나다에서 사용 가능 – 자세히 알아보기

생명 공학 조직이 차세대 게놈 시퀀싱을 위해 증가하는 파일 데이터를 관리하는 방법

작성자 :
"차세대 시퀀싱"(또는 NGS)이라고 하는 게놈 시퀀싱은 지난 XNUMX년 동안 극적인 변화를 겪었습니다.

게놈 시퀀싱 지난 XNUMX년 동안 극적인 변화를 겪었습니다. 집합적으로 "차세대 시퀀싱" 또는 NGS라고 하는 새로운 기술이 개발되었습니다. NGS가 계속 발전함에 따라 이러한 증가하는 용량을 지원하는 스토리지 및 데이터 관리 시스템도 빠르게 발전해야 합니다.

IT 관리자는 스토리지 인프라 내에서 효율성을 높일 방법을 찾아야 한다는 압박을 받고 있습니다.

생물학적 샘플의 DNA 단편은 시퀀서라고 하는 기계에 의해 추출됩니다. 차세대 시퀀싱은 XNUMX세대 시퀀싱보다 훨씬 더 높은 처리량의 유전자 염기서열, 자동화된 생산, 훨씬 저렴한 비용을 제공합니다. NGS를 사용하면 전체 인간 게놈을 하루 만에 시퀀싱할 수 있습니다.

시퀀서가 더욱 발전되고 비용 효율성이 높아짐에 따라 연구 수는 계속 증가하고 더 많은 데이터가 생성됩니다. 이러한 시퀀서는 수십억 개의 작은 파일을 생성할 수 있으므로 이러한 대용량의 작은 파일을 관리하는 데 사용되는 파일 시스템은 연구 예산을 충족하고 새로운 연구 프로젝트를 지원하기 위해 데이터 저장 및 보호 측면에서 빠르고 쉽게 확장 가능하고 효율적이어야 합니다. .

자손의 신속한 진단 테스트 및 정보 지원

(주)프로제니티 임상의에게 여성 건강, 생식 의학 및 종양학에 대한 복잡한 분자 및 전문 진단 테스트를 제공하는 생명공학 회사입니다.

수년에 걸쳐 회사의 유전자 시퀀싱 작업은 XNUMX억 개 이상의 파일을 생성했습니다. Progenity의 Linux 및 Windows 애플리케이션용 솔루션 아키텍트인 David Meiser에 따르면 “그 속도는 가속화되고 있습니다. XNUMX년 안에 또 다른 XNUMX억 개의 파일이 있을 수 있습니다."

Meiser는 "항상 존재하는 한 가지 문제는 상당한 파일 오버헤드가 있다는 것이었습니다. 우리가 쓰는 파일은 매우 작고 기존 스토리지 시스템의 블록 크기는 매우 컸습니다."라고 말했습니다. 또한 Meiser는 "접근 시간이 너무 빨라서 현장에서 분석을 수행할 수 없다는 것을 발견했습니다."라고 설명했습니다.

15년 또는 20년 된 디자인을 기반으로 하는 레거시 파일 시스템은 최신 NGS 워크플로의 요구 사항을 충족할 수 없습니다.

너무 자주, IT 조직은 레거시 시스템의 비효율성을 보완하기 위해 NGS 워크플로의 다른 부분에 대해 서로 다른 솔루션을 사용해야 합니다. 다음과 같은 몇 가지 이유로 문제가 됩니다.

  • 다중 시스템은 복잡성을 추가하여 전체 운영 비용을 증가시킵니다.
  • 여러 시스템으로 인해 데이터 사일로가 발생할 수도 있으므로 한 연구원 그룹이 다른 팀이 사용하는 데이터에 액세스하지 못할 수 있습니다.
  • 협업이 부족하면 결과를 얻는 데 걸리는 시간이 느려지고 프로젝트를 완료하거나 제품을 출시하는 데 걸리는 시간이 지연될 수 있습니다.

Progenity는 급속한 성장과 데이터 집약적 워크플로를 통해 기존 시스템 공급업체가 미래의 요구 사항을 충족할 수 없다는 것을 알고 있었습니다. Meiser는 높은 비용과 스토리지 효율성을 언급하면서 "우리의 원래 스토리지 시스템을 사용한 지 몇 년 후에 회사의 일하는 방식이 우리에게 좋은 모델이 아니라는 것을 깨달았습니다."라고 말했습니다.

온프레미스 및 클라우드 기반 NGS 워크플로 구성

쿠물로스 파일 데이터 플랫폼 온프레미스 또는 클라우드에서 게놈 시퀀싱 데이터를 저장, 관리 및 액세스하기 위한 성능 및 용량 요구 사항을 충족합니다. 수십억 개의 크고 작은 파일을 관리하고 SMB, NFS, FTP 및 REST를 포함한 다양한 프로토콜을 지원하므로 게놈 분석 워크플로의 모든 단계에서 동일한 Qumulo 클러스터를 사용할 수 있습니다.

다음은 온프레미스 NGS 워크플로 구성의 예입니다.

 

이 예는 정렬되지 않은 DNA 서열 단편인 많은 작은 BCL 파일 또는 염기 호출을 생성하는 DNA 시퀀서를 보여줍니다. 역다중화 프로세스는 BCL 파일을 해당 품질 점수와 함께 BCL 파일의 결합된 출력 결과를 저장하는 텍스트 파일인 FASTQ 파일로 조합합니다.

컴퓨팅 팜은 정렬 및 변형 호출을 수행합니다. 정렬에서 서열 단편은 품질 검사, 전처리 및 참조 게놈에 정렬됩니다. BAM 파일은 이 정렬 데이터를 저장하는 이진 파일입니다. 변형 호출은 데이터와 참조 게놈 간의 차이점을 찾습니다. 결과는 VCF 파일에 저장됩니다.

이러한 데이터 저장소가 준비되면 연구원이 자체 프로젝트를 위해 수행하는 응용 프로그램별 분석에 사용할 수 있습니다. 예를 들어, 연구원은 특정 유전자 돌연변이가 있는 종양이 있는 환자를 위한 표적 치료법을 연구하고 있을 수 있습니다. 연구원은 BAM 및 VCF 파일에 포함된 생성된 모든 데이터를 사용할 수 있습니다.

다음은 AWS용 Qumulo 및 EC2 스팟 인스턴스를 사용하여 클라우드에서 분석을 수행하는 방법을 보여주는 워크플로 예입니다.

이 예에서 연속 복제를 통해 AWS의 Qumulo 클라우드 클러스터와 로컬 Qumulo 클러스터는 항상 동기화됩니다. 조직은 EC2 스팟 인스턴스를 활용하여 비용을 절감할 수 있습니다.

 

자세히 알아보기

Qumulo에 대해 자세히 알아볼 수 있는 몇 가지 유용한 리소스가 있습니다. 게놈 데이터 및 시퀀싱 당사의 파일 데이터 플랫폼이 조직이 온프레미스 및 클라우드에서 게놈 시퀀싱 데이터를 저장, 관리 및 액세스하는 데 어떻게 도움이 되는지 설명합니다. 솔루션 개요 읽기 여기에서 지금 확인해 보세요., 주문형 웨비나를 확인하십시오. "하이브리드 클라우드 솔루션으로 게놈 연구 가속화. "

회의를 주선하거나 데모 신청.

관련 게시물

위쪽으로 스크롤