Qumulo LogoQumulo Logo

ブログ

低温電子顕微鏡におけるデータの重力の克服:インテリジェントなハイブリッドデータアーキテクチャーが創薬の未来をいかに加速するか

低温電子顕微鏡は、タンパク質、ウイルス、分子複合体の原子レベルの3D可視化を可能にすることで、構造生物学、ワクチン開発、医薬品イノベーションの未来を再定義するのに役立っている。これらの機能により、微細な細胞構造や、細胞内および分子スケールの複雑な生物学的構造の詳細な研究が可能になります。 

科学的なブレークスルーが見出しを飾ることはよくあるが、その背後にあるインフラストラクチャーの課題が議論されることはほとんどない。

クライオ電子顕微鏡ワークフローは、現代のライフサイエンスにおいて最もデータ集約的なパイプラインのひとつである。

各プロジェクトは、10 TBから200 TBを超える高解像度の顕微鏡データを生成し、多くの場合、数万の小さな画像ファイルやビデオシーケンスで構成されます。このデータは通常、顕微鏡が生物学的サンプルをキャプチャするウェットラボで生まれますが、動き補正、CTF推定、パーティクルピッキング、2D分類、3D精密化などの重い計算作業にはGPU密度の高い計算能力が必要です。

多くの組織にとって、これは高価で運営上複雑な問題を引き起こす。

データをラボ環境からHPCやクラウドインフラストラクチャにコピーする必要がある。レプリケートされたデータセットを格納するために、追加のストレージをプロビジョニングしなければならない。レプリケーション・パイプラインは、プロジェクトごと、エンドポイントごとに実装され、維持されなければならない。貴重なスタッフの時間は、データ・パイプラインの構築、アクティブなレプリケーション・タスクの監視、主要な転送後のデータ整合性の検証に費やされる。 

このようなデータの重複や環境の複雑さは、すべてのプロジェクトのコストを押し上げるだけでなく、プロジェクトのタイムラインを引き延ばしてしまう。科学者たちは、処理開始までに数時間、あるいは数日待たされることが多く、最終的な結果は、検証、可視化、より広範な共同作業のために再度転送する必要があることが多い。

さらに、ストレージ容量だけにとどまらない隠れたコストが存在する。レプリケーションはインフラストラクチャーのフットプリントを拡大し、ネットワーキングの要求を高め、運用スクリプトの複雑さを増し、より深いITの監視を必要とし、複数のチームにわたる大きな人的依存を生み出す。顕微鏡の専門家、IT管理者、クラウド・アーキテクト、バイオインフォマティクス・チーム、ストレージ・エンジニア、そして研究者、これら全てが壊れやすいオペレーション・チェーンのリンクとなり、データが必要な場所に、一貫性を持って、時間通りに到着することを保証するために残業することになる。

ある場所で作成されたデータに、他のどこからでも即座にアクセスできる。 

パロアルト、ボストン、英国のCROパートナーにまたがって、3つの創薬プログラムを同時並行で実行している製薬会社を考えてみましょう。従来のレプリケーション・モデルでは、各拠点がすべてのデータセットのコピーを独自に管理し、ストレージ容量を3倍にして、すべてのエンドポイントでレプリケーション・パイプラインを維持し、クラウドGPUクラスタが処理を開始するまでに12時間から24時間のステージング・ウィンドウを設けていた。パロアルトで書き込まれた装置データは、AWSのGPUクラスター、ボストンで稼働している分析パイプライン、そして英国のCROチームから即座に見える。ITの複雑さは解消され、ストレージのオーバーヘッドもそれに比例して減少し、データ取得から実用的な結果までの時間は数日から数時間に短縮される。

Qumuloのハイブリッド・データ・アーキテクチャは、この方程式を根本的に変えます。

Qumuloのファイルシステムは、業界標準のプロトコル(NFS v3/v4.1、SMB 3.0、S3互換オブジェクトAPI)を介して、すべてのエンドポイントにデータを公開します。これは、既存のバイオインフォマティクスパイプライン、HPCジョブスケジューラ、クラウドネイティブなツールが、名前空間を変更することなく、マウントまたはアクセスできることを意味します。つまり、既存のバイオインフォマティクス・パイプラインやHPCジョブ・スケジューリング、クラウド・ネイティブ・ツールは、名前空間を変更することなくマウントしたりアクセスしたりできるのだ。グローバル名前空間は、オンプレミス・ノードとクラウド・インスタンスに同時にまたがって、単一の一貫したメタデータ・プレーンを維持する。ディレクトリのリスト、ファイルの属性、inodeの状態は、どのエンドポイントがリクエストを発行しても一貫しており、従来のレプリケーション・アーキテクチャで一般的なスプリットブレイン状態やスタールキャッシュ障害を排除している。クラウド・アクセラレータは、クラウド・コンピューティング・インスタンスへの標準的なNFSマウント・ポイントとして提供されるため、GPUワークロードは、最初のファイルがネームスペースに表示されるとすぐに処理を開始することができます(インテリジェントなリード・アヘッドとプリフェッチにより、物理データ・ロケーションとクラウド・エンドポイント間のレイテンシ・ギャップを処理します)。

不必要な複製を排除し、データセットへの統一されたグローバルアクセスを可能にすることで、Qumuloは、組織がCryo-EMを断片的なロジスティクスの課題から合理化された科学的ワークフローへと変革することを支援します。クラウドデータプラットフォームは、データをコピーし、検証し、転送し、再表示するというサイクルを繰り返すのではなく、即座にグローバルな可用性を実現し、計算リソースが最も効果的な場所で処理を行うことを可能にすると同時に、結果が必要な場所で即座にアクセスできるようにします。

Qumuloは、ウェットラボ、クラウドHPC環境、研究チームを統一されたグローバルなネームスペースでリアルタイムに接続することで、1つの物理的な場所に1つのデータコピーを存在させながら、サイト、プラットフォーム、クラウドを越えて即座にアクセスできるようにします。データセットの重複、脆弱な転送スクリプトへの依存、検証サイクルの繰り返し、従来のレプリケーション手法による運用の足かせはありません。

この作業はすべて、データセットを1つも複製することなく行われる。つまり、保存・管理するデータのコピーは1つだけなので、組織のITチームはストレージのオーバーヘッド、管理の複雑さ、Time-to-Valueを劇的に削減できる。

AWS、Azure、GCPのような主要なハイパースケーラのマーケットプレイスで入手可能な、またはお好みのOEMのハードウェアを使用してオンプレミスで展開可能な、Qumuloのスケーラブルで高性能なファイルシステムと、Qumulo Cloud Data Fabricのストレッチされたファイルシステム機能との組み合わせによって構築されたQumulo Cloud Data Platformは、データ生成、GPUアクセラレーション、グローバルコラボレーションをリアルタイムで接続する、ライフサイエンス向けの真のハイブリッド環境を構築します。オプションのEdge Acceleratorアプライアンスは、リモートサイトやウェットラボをファブリックに接続し、Cloud Acceleratorは、データをその場所からクラウドに投影するエフェメラルポータルを開きます。

製薬会社やバイオテクノロジー企業にとって、これは分子モデリングイニシアチブを加速し、治療法の発見スケジュールを数週間から数日に短縮し、より機敏なワクチン開発を可能にし、高価なGPUリソースを最大限に活用し、最終的には研究開発自体のコストと複雑さを軽減することを意味する。

AI、HPC、そして高度な生物学的イメージングが融合し続ける中、戦略的優位性を獲得する組織は、単に最高の顕微鏡や最大のGPUクラスターを持つ組織ではなく、データの重力を完全に取り除くことができるインフラを構築する組織となるだろう。

ライフサイエンスにおける次のフロンティアは、計算だけではない。

それがインテリジェント・データ・アーキテクチャであり、Qumulo Cloud Data Fabricのようなソリューションが、そのような未来を可能にする手助けをしている。