ブログ

400ドルでどれだけのAIインフラが手に入るのか？

2024年6月3日

Kevin McDonald

このブログでは、クラウドアーキテクトがAIインフラストラクチャを構築する際に、従来のファイルシステムを使用して構築する必要があったトレードオフについて説明します。また、このブログでは、Azure Native Qumuloがこれらのトレードオフを解決し、パフォーマンスを犠牲にすることなくGPU時間を短縮し、コストを大幅に削減する方法についても説明します。

AIオペレーションを大規模に実行する場合、ファイルストレージサービスはパフォーマンスとコスト効率のトレードオフを最適化することに失敗してきた。AIワークフローをファイル・ストレージ・インフラに直接展開することは、現実的ではなく、面倒で、経済的にも持続不可能であった。

今日、組織はAI駆動型ソリューションを構築するために、データを低コストのオブジェクト・ストレージから高コストのファイル・キャッシュ（ローカル・ディスクまたは中央ファイルシステム）に転送し、そこでAI計算タスクを憧れのGPUから実行することを余儀なくされている。データ収集、事前学習、本番学習、継続的推論のいずれであっても、ストレージ層間のデータ移動は複雑さを増すだけでなく、追加のAPIトランザクション料金も発生する。

ファイル・キャッシュを使用する2階層システムは、オブジェクト・ストレージからファイル・キャッシュにデータをロードするためだけに、GPUが最大40％の時間待たされることも意味します。これは、アイドル状態のGPUにとって多くの無駄な時間です。さらに悪いことに、キャッシュが小さいため、トレーニングデータセットはローカルキャッシュのサイズに制限され、画像や動画のような大きなデータセットを処理するために複数のロードフェーズが必要になります。

Azure Native Qumulo（ANQ）は、オブジェクトストアのインテリジェントなデータアクセラレータとして機能し、Qumuloファイルシステムを介してAzureプリミティブインフラストラクチャからAIトレーニングモデルを実行するGPUに直接提供される並列化されたプリフェッチリードを実行します。ANQはGPU側のパフォーマンスを加速し、オブジェクトレイヤーとファイルシステム間のロード時間をなくします。これにより、クラウドにおけるファイル依存型AIトレーニングのアーキテクチャが変わります（下図）。

その証拠に、私たちの最新作をご覧いただきたい。スペック・ストレージAI_IMAGEの結果 ANQのアーキテクチャは、業界最速かつ最もコスト効率の高いクラウドネイティブ・ストレージ・ソリューションであることを実証しています。

総合レスポンスタイム（ORT）は0.84msで、5時間のバースト期間中の顧客の総コストは定価で400ドルという最高の結果を達成しました。これは、当社のバースト・サイクルが完全にSaaSのPAYGOであり、パフォーマンスが不要になった時点でメータリングを停止したためです。以前提出された0.85msのORTで700ジョブを含むほとんどの他のベンダーは、コストを透過的に伝達しない：

これには、データセットを維持するために、デプロイ後も稼働させ続けなければならないような、大規模で非弾力的なVMのデプロイが含まれる。
彼らは1-3年のソフトウェア・サブスクリプションを要求し、何十万ドルもかかる。

これらの主張は*信じがたい*ように聞こえるので、あなたは尋ねるかもしれない：

このような素晴らしい結果をもたらすANQのアーキテクチャは何が違うのか？
Qumuloはなぜ、フェラーリのようなスピードで、次のようなことができるのか？公示価格信頼できるトヨタ・カローラの？
クラウド上のファイル・ストレージを、オブジェクトへの階層化管理なしで使えるようになるということですか？
曜日や月によって成績が大きく変動するとしたら？

Qumuloは、3つのシンプルなことで、これらすべての疑問にお答えし、初のモダンなクラウドファイルストレージサービスであると自信を持って主張することができます。

真のエラスティック・スケーラビリティ これにより、顧客はクラウドネイティブなストレージ・インフラよりも、他のビジネスやテクノロジーに集中することができる。ストレージ性能は、AIアプリケーション・スタックが必要とするときに拡張できるようになっており、需要がないときにはコストを節約できる。
注：他のクラウド・ファイルシステムは、あらかじめプロビジョニングされた固定容量の「ボリューム」を運用することで、この重要な機能に失敗している。 オンプレミスのストレージと大差はないが、はるかに高価だ！
破壊的な価格設定： Qumuloは、クラウドの経済性を活用し、破壊的な価格設定にイノベーションを起こしました。破壊的な部分とは？利用した分だけ支払う。
価格設定はシンプルで、ストレージの使用量（TB）と必要なパフォーマンス（スループットとIOPs）の2つの要素に基づいています。ANQはパフォーマンスと容量を動的にスケーリングするため、需要を見越してリソースを事前にプロビジョニングする必要はありません。
パフォーマンス は、ワークロードの増加に応じて直線的に増加します。Azure Native Qumuloファイルシステムは、オブジェクト層の上に構築され、すべてのクラスタ（オンプレミスおよびクラウド内）で平均95%以上のキャッシュヒット率を達成しています！このアーキテクチャは、オブジェクトからプリフェッチされ、ファイルシステムからAIアプリケーションを実行するGPUなどのクライアントに直接提供される並列化された読み取りを実行するアクセラレータとして機能します。この管理された「アクセラレーター」は、オブジェクトレイヤーとファイルシステム間のロード時間を待つことなく、GPU側のスケーラビリティとパフォーマンスを保証する。
- 読むキャッシュは、インメモリL1キャッシュと余裕のあるNVMe L2キャッシュから提供される。グローバル・リード・キャッシュは、オンデマンドで弾力的に増加します。これが、Spec AI_IMAGEベンチマークで全体の応答時間がミリ秒以下になった理由です。システムは、パフォーマンス要件を満たすために一時的にキャッシュをスケーリングします！
  リードキャッシュの背後には、Qumuloの高度に調整された機械学習モデルがあり、どのブロックが次に読み込まれる可能性が最も高いかを推測します。1兆回を超えるリクエストから得られた長年のアクセスパターンを使って訓練されたこのモデルは、NVMeまたはL1キャッシュからデータを正確にプリフェッチし、提供します。
- 書くトランザクションは高パフォーマンスのAzure Managedディスクを活用し、このディスクは入力された書き込みの保護されたライトバックキャッシュとして機能し、Azure Blob Storageに継続的にフラッシュします。すべてのトランザクションはジャーナルされ、ANQアーキテクチャにおけるデータ損失の単一点を保証します。このアプローチは、コンピュートノードの障害時に重要であり、コンピュートイベント時にインフライトの書き込みが失われる可能性がある競合他社のアーキテクチャよりも耐久性があります。

信じられない？ぜひご自分の目でお確かめください。Azure Native Qumuloの7日間無料トライアルを開始できます。これ.デフォルトの設定では、機能を見ることができますが、安全なレートリミッターがあります。より高いパフォーマンスが必要な場合は、hpc-trial-request@qumulo.com。

もっと詳しく知りたいですか？ソリューション概要を以下からダウンロードしてください。