Qumulo LogoQumulo Logo

ブログ

アイドリングストップGPU

CNQが保険からマルチAZをコスト中立的な競争優位性に変えた方法

クラウドは、どんな場所でも、どんな地域でも動作する弾力的なコンピュートを約束する。GPUワークロードは静かにその約束を破っている。

GPUはクラウド上に存在しますが、データが存在する地域やゾーンで利用できますか?GPUは必要なときに利用できますか?

アクセラレイティド・コンピューティングの需要は、今や地域ごとの供給を上回っています。多くの企業では、GPUの需要が単一のアベイラビリティ・ゾーン、あるいは単一のリージョンのGPUキャパシティを上回り、その結果、重大な作業の遅れが生じています。キャパシティは短期間に出現し、予測不可能に変化し、そしてすぐに消失する。

GPUの可用性に不均衡が生じると、新たな業務上の現実が生まれる。チームはもはやGPU作業のスケジュールを立てない。GPUが利用可能になれば、いつでもどこでもGPUを探し回ることになる。コンピューティングの可用性がダイナミックになると、データのローカリティが制約になります。GPUがようやく現れても、データがGPUのある場所にあることはない。

ほとんどの組織は、この問題に2つの高価な方法のいずれかで対応している。

オプション1:予約して待つ
何百万ドル分もの予約GPUがアイドル状態になっているのは、作業の準備が整っていないからではなく、データがコンピュート可能な場所にないからです。チームは莫大なコストをかけて少ないGPU容量を確保し、データが「適切な」アベイラビリティ・ゾーンにコピーされるまで数時間から数日待ちます。コンピュートが最初に予約される。仕事は後から始まる。何も実行されない間、メーターは刻々と動き続ける。

オプション2:プレコピーと希望
チームは複数のアベイラビリティ・ゾーン、リージョン、あるいはクラウドにデータを事前にレプリケートする。データはすべての場所で転送、保存、維持されなければならず、ネットワーク料金、ストレージコスト、運用オーバーヘッドを増大させる。データの多くは、GPUが有用な作業を行う前に、予算が消費され、アイドル状態になっている。

その結果、クラウドにGPUを大量導入するたびに、静かな損失が隠されている。企業がデータを待とうが、コンピューティングを待とうが、結果は同じだ。企業は仕事を始める前にお金を使う。

経営幹部がこの損失をダッシュボードで見ることはほとんどない。その代わりに、クラウド請求書、プロジェクトの遅延、窓口の不在、競合他社よりも動きが遅いチームなどに現れる。

これは容量の問題ではない。クラウドネイティブのQumuloが解決するために構築されたアーキテクチャの問題なのだ。

GPUハンティングの隠れたコスト

理論上、クラウド・コンピューティングは弾力性がある。しかし実際には、GPUのキャパシティはアベイラビリティ・ゾーンごとに分断され、常に変動している。あるゾーンには今日キャパシティがある。明日は別のゾーンにある。

ほとんどのストレージ・システム・アーキテクチャは、こうした状況に適応できない。

従来のクラウド・ファイルシステムは、いまだにアクティブデータを単一のゾーンに固定している。マルチAZ "と表示されていても、コンピュート実行が必要なプライマリー・ロケーションに依存している。レプリカは別の場所に存在するが、パフォーマンスと実行は固定されたままだ。

結果は予想通りだ:

  • GPUの可用性がデータのゾーン居住地と一致しない

  • ゾーンGPUの可用性に合わせてデータをコピーする必要がある

  • 数百テラバイトが動いている間、GPUはアイドル状態

 

この「GPU狩猟税」は、今やAI、ML、シミュレーションをクラウドで行う際の構造的なコストとなっている。

そして、規模が大きくなればなるほど悪化する。

コンピュートが高価で希少であればあるほど、アイドルな1秒1秒の損害は大きくなる。ストレージが作業場所を決めると、リージョン全体の可用性は関係なくなる。

マルチAZが修正するはずだった建築上の欠陥

Multi-Availabilityゾーンは、弾力性の要件を満たすように設計されており、その通りです。しかし、GPUワークロードにとっては、弾力性は問題ではない。

アクセスは

キャパシティのあるところならどこにでも、コンピュートとデータをアタッチできるようなアーキテクチャでなければ、マルチAZシステムとは言えない。バックアップのあるシングルAZシステムしかない。

これこそが、クラウドネイティブのQumuloが排除するために設計された欠陥なのだ。

CNQがアイドルGPUのコストを削減

クラウドネイティブQumulo(CNQ)は、重複ではなく、設計によってマルチ可用性ゾーンです。

プライマリーゾーンなし。

データの重力はない:Computeは、どこでも即座にデータにアタッチします。

ステージング段階はない。

CNQでは、複数のアベイラビリティゾーンのコンピュートから、同じライブデータセットに同時にアクセスすることができます。他のプラットフォームは、プライマリ・アベイラビリティ・ゾーンへのアクセスを制限しています。 

CNQでは、データは一度だけ存在し、地域レベルで永続的に保護される一方、性能はGPUが利用可能な場所であればどこでも提供される。

キャパシティの変化

  • 何も動かない

  • 何も再建しない

  • 何も待っていない

 

チームはGPUが今ある場所で動くだけだ。仕事はすぐに始まる。アイドリングなし。 

万が一に備えて前もってペタバイトをコピーする代わりに、CNQはオンデマンドでデータをストリーミングする。実際にアクセスされたデータだけがネットワークを通過する。残りはそのままです。GPUはゾーンに関係なく、即座にデータにアタッチする。 

GPUハンティングはロジスティクスの枠を超え、スケジューリングの決定事項となった。

コスト中立のマルチAZがブレークスルーとなる

ほとんどのマルチAZストレージシステムは、弾力性と引き換えに実質的なコストを課している。別のアベイラビリティ・ゾーンを有効にすると、データが完全にレプリケートされ、その新しいゾーンに保存されるため、ストレージ・コストが増加する。このプロセスは、新しいアベイラビリティ・ゾーンごとに繰り返される。マルチAZは、日常的な運用ではなく、障害シナリオのために、組織がしぶしぶオンにするものになる。

CNQは違う。CNQは可用性と耐久性をAmazon S3にオフロードする。その結果、データセットはアベイラビリティ・ゾーンごとに存在するのではなく、リージョン・レベルで存在することになります。ゾーンをまたいでアクセスできるようにするためだけに、同じデータの複数のフルコピーにお金を払う必要はありません。ストレージ・コストは、1つのAZを使用する場合でも、多数のAZを使用する場合でも、実質的に横ばいです。

これはチューニングのトリックではない。アーキテクチャーの基本的な決定事項なのだ。

CNQにはそれがある:

  • 複数のアベイラビリティ・ゾーンに複数のデータ・コピーをパークしてもコスト増はない。

  • マルチAZアクセスのパフォーマンス・ペナルティなし

  • 弾力性のためのアイドルコストは不要

 

透明性を確保するため、CNQはデータの書き込みが活発な場合、クロス・アベイラビリティ・ゾーンのネットワーク料金がわずかに発生することがある。しかし、AI、ML、アナリティクスのワークロードの大部分では、アクセスパターンは圧倒的に読み取りが多い。実際には、このオーバーヘッドは最小限のままであり、データがアイドル状態ではなく、作業実行中にのみ発生する。いつものように、特定のワークロードをソリューション・エンジニアと検討するのが最善です。

注:Qumuloは、アーキテクチャのレビューとソリューションの構想セッションを無料で提供しています。 

チームがCNQを導入して、アベイラビリティゾーン全体でGPUのアベイラビリティをフォローすると、ストレージシステムのマルチAZアベイラビリティと耐久性が自動的に実現される。通常、保険機能として扱われるものが、組み込みの利点となる。マルチAZはもはや、予防措置としてのみ正当化される追加コストではない。マルチAZは、GPUが利用可能な場所であればどこでも、ストレージ・コストを増加させることなく作業を実行することを可能にする中核機能なのだ。

GPUエコノミクスを変える理由

GPUをプロビジョニングするとすぐに、1秒間の動作ごとにコストが発生する。アイドリング・セコンドは無駄なコストとなります。すべての遅延は、チームやプロジェクト全体に影響を及ぼします。

GPUが不足している場合、チームは常にジレンマに直面する。データを待っている間に計算コストを発生させるか、計算を待っている間にストレージとネットワーク容量にお金を払うかだ。多くの場合、両方の費用を支払うことになります。いずれの場合も、GPUハンティング税を支払うことになります。 

ゾーン・アンカリングを完全に取り除くことで、CNQは両方のトレードオフを解消する。地域のGPU容量は使用可能な容量となる。顧客はもはや、データを待ったり、データのアイドルコピーを維持するためにお金を払う必要はありません。顧客は、GPUが作業を実行するときだけ料金を支払います。

より深い利点はオプション性だ。

CNQと:

  • チームは数週間前にGPUが利用できる場所を予測する必要はない。

  • ストレージは、もはや初期のインスタンスの決定に縛られることはない。

  • マイグレーションやダウンタイムなしで新しいインスタンスファミリーを採用可能

容量、価格、パフォーマンスが変われば、インフラはその場で適応する。

今、クラウドスケールリソースの約束が実現しました。インフラ配置の決定から切り離され、利用可能な容量があればどこでも自由に稼働し、リアルタイムで適応する、場所にとらわれない弾力的なコンピュート。

ディフェンシブ・アーキテクチャーから競争優位へ

CNQはGPU獲得の痛みを軽減してくれるというのが正確なところだろう。

しかし、それではインパクトを過小評価している。

CNQが本当に取り除くのは、建築的な重力だ。ストレージはもはや、どこで作業を行うかを決定しない。コンピュートも、昨日の配置決定に囚われることはない。チームは、インフラが許すときではなく、チャンスが訪れたときに動く。

その時点で、Multi-Availability Zoneはもはや障害を乗り切るためのものではなくなった。競合他社よりも速く動き、キャパシティが利用可能になったら即座に作業を開始し、これまでアイドル状態だったGPU時間を実際の成果に変えることなのだ。

それは保険ではない。

それはアドバンテージだ。