게놈 시퀀싱을 위한 데이터 저장

2018년 ２월 14일

작성자 :

쿠물로 팀

게놈은 유기체를 만들고, 실행하고, 유지하고 다음 세대에 생명을 전달하기 위한 유전 지침의 전체 집합입니다. 게놈 시퀀싱은 유기체의 DNA를 구성하는 게놈에서 DNA 뉴클레오티드 또는 염기의 순서, 즉 염기의 순서(As, Cs, Gs 및 Ts)를 파악합니다. 인간 게놈은 3억 개 이상의 이러한 유전 문자로 구성됩니다.

더 알아보기 : 게놈 시퀀싱을 위한 Qumulo 데이터 스토리지

게놈 시퀀싱은 지난 3년 동안 극적인 변화를 겪었습니다. 집합적으로 "차세대 시퀀싱" 또는 NGS라고 하는 새로운 기술이 개발되었습니다. 1,000세대 시퀀싱("Sanger 시퀀싱")과 비교할 때 NGS는 유전자 염기서열의 처리량이 훨씬 더 높고 생산을 자동화하며 비용이 크게 낮습니다. NGS를 사용하면 전체 인간 게놈을 하루 만에 시퀀싱할 수 있습니다. 대조적으로, XNUMX세대 기술은 단일 인간 게놈의 최종 초안을 제공하는 데 XNUMX년 이상이 필요했습니다. 첫 번째 게놈 지도를 작성하는 데 드는 비용은 XNUMX억 달러에 이를 것으로 추정됩니다. 오늘날에는 약 XNUMX달러가 소요될 것입니다.

게놈 시퀀싱이 중요한 이유는 무엇입니까?

더 좋고, 빠르고, 더 저렴한 게놈 시퀀싱은 우리 삶에 미치는 영향이 훨씬 더 크다는 것을 의미합니다. 연구원들은 이제 다양한 개인의 대규모 DNA를 빠르고 저렴하게 비교할 수 있습니다. 그러한 비교는 질병에 대한 감수성과 환경적 영향에 대한 반응에서 유전의 역할에 대한 엄청난 양의 정보를 산출할 수 있습니다. 또한 게놈을 보다 빠르고 비용 효율적으로 시퀀싱할 수 있는 능력은 진단 및 치료에 대한 막대한 잠재력을 창출합니다.

보다 구체적인 예는 일상화되고 있는 유전자 검사의 유형입니다. 많은 사람들이 자녀에게 유전될 수 있는 장애를 확인하기 위해 유전적 보인자 검사를 받습니다. 다른 검사는 특정 유형의 암에 대한 유전적 위험을 결정할 수 있습니다.

이것이 게놈 시퀀싱을 위한 데이터 저장에 의미하는 바는 무엇입니까?

"굉장히 멋지다, 나는 그것에 대해 이야기해야 한다"라는 요소를 제외하고, 왜 내가 게놈 시퀀싱에 대해 블로그를 하고 있습니까?

생물학적 샘플의 DNA 단편은 시퀀서라고 하는 기계에 의해 추출됩니다. 오늘날 우리가 사용하는 방법은 한 번에 짧은 DNA 길이만 처리할 수 있기 때문에 전체 게놈을 한 번에 모두 시퀀싱할 수 없습니다. 결과적으로 이러한 시퀀서는 수많은 작은 파일을 생성합니다. 원시 이미지 파일은 일반적으로 샘플당 총 1-2TB인 각각 약 5KB의 TIFF 파일입니다.

데이터 스토리지는 빠르고 효율적이어야 합니다.

많은 작은 파일을 생성하는 모든 시스템에는 성능이 뛰어나고 작은 파일을 효율적으로 저장하고 보호하는 스토리지 시스템이 필요합니다. 미러링과 같은 기술은 많은 디스크 공간을 낭비할 수 있습니다. 디스크 공간 낭비는 기업이 더 많은 스토리지를 구입하고 더 많은 랙 공간을 사용하며 전력 및 냉각과 같은 인프라 비용을 더 많이 지불해야 함을 의미합니다.

Qumulo는 레거시 스케일 아웃 NAS보다 작은 파일을 표시하고 보호하는 데 훨씬 더 효율적이며 일반적으로 스토리지 용량의 XNUMX/XNUMX과 보호 오버헤드의 절반이 필요합니다.

I/O는 항상 중요합니다.

조각난 초안을 끊김이나 오류 없이 길고 연속적인 최종 제품으로 변환하는 원시 데이터를 정제하는 프로세스를 마무리라고 합니다. 마무리에는 모든 개별 읽기를 적절한 순서로 연결하고, 실수와 격차를 확인하고, 최종 결과와 참조 게놈 간의 차이점을 찾는 등 다양한 유형의 분석이 포함됩니다. 이 모든 단계는 다양한 유형의 파일을 생성하며 이러한 모든 단계는 빠른 분석을 위해 우수한 I/O 성능이 필요합니다.

빠른 I/O는 워크플로 반대편에 완성된 데이터를 자신의 프로젝트에 사용하는 많은 연구원이 있는 경우 중요합니다. 다운스트림 연구원은 자신의 컴퓨팅 리소스에 데이터가 부족하기 때문에 기다리지 않고 실시간으로 작업을 수행하기를 원합니다.

Qumulo는 레거시 스토리지 시스템에 비해 XNUMX배의 가격 대비 성능을 제공합니다.

스토리지는 수십억 개의 파일로 확장되어야 합니다.

시퀀서가 하나만 있는 조직은 거의 없습니다. 그들은 행을 가지고 있으며 모두 하루에 TB의 데이터를 생성합니다. 단 몇 개의 시퀀서로도 1년에 2억 개 이상의 파일을 생성할 수 있으며 XNUMX-XNUMXPB의 저장 공간을 차지합니다. 분석의 다른 단계도 다른 시간 동안 저장됩니다. 원시 TIFF 파일은 몇 주 동안만 저장될 수 있지만 다른 유형의 파일은 수년 동안 저장될 수 있습니다. 엄청난 양의 데이터는 파일 스토리지가 쉽게 확장되어야 함을 의미하며, 노드를 추가하면 용량뿐만 아니라 성능도 추가되어야 합니다.

Qumulo를 사용하면 크고 작은 파일을 혼합하여 사용하고 필요한 만큼 파일을 저장할 수 있습니다. Qumulo의 고급 파일 시스템 기술에는 실질적인 한계가 없습니다. 많은 Qumulo 고객은 XNUMX억 개 이상의 파일에 데이터 풋프린트를 보유하고 있습니다.

가시성과 통제가 중요하다

스토리지 시스템에 수십억 개의 파일이 있는 경우 이를 관리할 방법이 필요합니다. 트리 워크와 같은 순차적 기술은 더 이상 작동하지 않습니다. 데이터에 대한 정보를 얻는 데 며칠 또는 몇 주가 걸릴 수 있으며 이는 쓸모가 없다는 것을 의미합니다.

Qumulo는 데이터에 대한 실시간 가시성을 제공하고 관리자가 I/O 핫스팟 위치와 같은 질문에 대한 답변을 쉽게 찾고 즉각적인 조치를 취할 수 있도록 합니다.

다중 프로토콜 지원

많은 시퀀서가 데이터를 SMB를 통해 스토리지로 보내지만 많은 연구자가 NFS를 통해 데이터에 액세스합니다. 스토리지 시스템은 여러 프로토콜을 지원해야 합니다. Qumulo는 SMB, NFS, FTP 및 REST를 지원합니다.

클라우드로 이동

조직은 분석을 위한 더 많은 컴퓨팅 리소스를 제공하기 위해 클라우드를 찾고 있습니다. 클라우드의 파일 스토리지에 대한 많은 옵션이 확장성과 성능이 좋지 않기 때문에 방해를 받습니다.

AWS용 Qumulo Cloud Q 클라우드에 있는 모든 파일 스토리지 중 최고의 성능을 제공할 뿐만 아니라 확장성이 가장 뛰어납니다. 다른 옵션과 달리 성능과 용량을 독립적으로 확장할 수 있습니다.

Qumulo는 지속적 복제를 사용하여 필요할 때 필요할 때 데이터를 이동합니다. Qumluo는 최신 변경 사항을 적용하여 걱정할 필요 없이 복제합니다. 연속 복제는 온프레미스 Qumulo 클러스터에서 AWS의 Qumulo 클러스터로 데이터를 쉽게 전송하고 분석을 수행한 다음 결과를 다시 온프레미스 스토리지로 전송할 수 있음을 의미합니다.

지금 게놈 시퀀싱을 위한 최고의 데이터 스토리지를 사용해 보십시오.

게놈 시퀀싱을 수행하는 연구 그룹이나 회사에 소속되어 있는 경우 파일 저장 시스템을 구입하기 전에 올바른 질문을 해야 합니다.

Qumulo 아키텍처가 용량과 확장성을 제공하면서 비용을 절감할 수 있는 방법에 대해 자세히 알아보려면 다음을 참조하십시오. Qumulo 파일 데이터 아키텍처 기술 가이드.

게놈 시퀀싱을 위한 데이터 저장

작성자 :

게놈 시퀀싱이 중요한 이유는 무엇입니까?

이것이 게놈 시퀀싱을 위한 데이터 저장에 의미하는 바는 무엇입니까?

데이터 스토리지는 빠르고 효율적이어야 합니다.

I/O는 항상 중요합니다.

스토리지는 수십억 개의 파일로 확장되어야 합니다.

가시성과 통제가 중요하다

다중 프로토콜 지원

클라우드로 이동

지금 게놈 시퀀싱을 위한 최고의 데이터 스토리지를 사용해 보십시오.

관련 게시물

Azure 네이티브 Qumulo Storage를 사용하여 Azure 가상 데스크탑을 확장할 때 얻을 수 있는 3가지 주요 이점

Azure Files를 사용하여 시작한 경우 Azure Virtual Desktop 비용이 너무 높습니다.

제품

고객 사례

산업별 서비스

파트너

시작하기

Follow Us

기업 정보

쿠물로 트러스트

우리의 가장 큰 릴리스