あなたは次の AI/ML ソリューションの計画に熱心に取り組んでいます。 ストレージ関連のすべての決定について決心しましたか? オンプレミスとクラウド? オブジェクトとファイル? AI/ML ソリューションをどこで実行しますか?
ところで、始める前に、胸にあるものを整理しておかなければなりません。 私はその用語が嫌いです 人工知能。 真剣に言うと、AI はドアノブよりも知能が低いのです。 これは単なる数学であり、ほんの数十年前に全世界に存在していたよりも多くの処理装置で、時間単位で実行される膨大な量のデータの統計です。
についての素晴らしい記事はこちらです ChatGPTの舞台裏で実際に何が起こっているのか。 私は AI という用語が大嫌いなので、この記事では ML を使用することにします。
オーケー、石鹸箱から出して。 AI、つまり ML にとってストレージがなぜそれほど重要なのかについて話しましょう。
ML はデータがすべてです。 それを見つけるだけでいいのです!
ML ワークロードを強化するデータは次のとおりです。 。 ML ソリューションの必要性も同様です。 いくつかの例 (すべてお客様の実際のワークフローから派生したもの):
- 工場。 あらゆる場所に設置されたカメラは、リアルタイムの自動化された製造作業においてあらゆる種類の情報をキャプチャします。 これらすべてはローカル ストレージ上に継続的に集約されます。
すべての製造ラインからのデータは一元化され (クラウドまたはオンプレミス)、故障検出を自動化するためのトレーニング モデルのソースになります。 各工場での ML ソリューションと、その結果として得られる推論モデルにより、歩留まりが向上します。
ちなみに、まさにこのワークフローで Qumulo を活用しているお客様もいらっしゃいます。
- 自動運転車。 現実世界の高精細マルチスペクトル ビデオは、最初は数百台の試験車両、次に数千台の実験車両、そして最終的には数百万台の通常車両によって継続的にキャプチャされます。
車はこれらのビデオを Wi-Fi 経由で母船に送り返します (テスラ、私はあなたを見ています!)。 上記は、ドライバーを支援し、自動操縦を可能にし、自動運転車を現実にするためにモデルをトレーニングするためのソース データです。
上記から導出された推論モデルは、車両上の推論エンジンによって実行され、リアルタイム データが処理されます。
そして、はい、このワークフローで Qumulo を使用している顧客もいます。
- ML 支援セキュリティ: 何十万ものネットワーク デバイスがアクティビティ ログを生成し、ローカルに統合され、(クラウド、オンプレミス、またはその両方で) 集約されます。 これにより、不正なネットワーク侵入を検出するためのモデルのトレーニング データ セットが形成されます。
最新のネットワーク デバイスは、これらの推論モデルを使用してリアルタイムで観察されたイベントを分析し、不正な侵入を発見しようとしています。
ご想像のとおり、今日はお客様にこれを行っていただいています。
共通点を見つけることができますか? これは、ネットワークのエッジからコア、そしてパブリック クラウドに至るまで、「どこでも」ワークフローです。
選択肢、選択肢、選択肢
ML ソリューションについてはどうですか 貴社 取り組んでいますか? これらの使用例と同様に、モデルをどこでどのように構築するかについて一連の重要な選択を行う必要があります。 説明しましょう…
- エッジ、コア、それともクラウド? データはどこに保存されますか? モデルはどこに住む予定ですか? ソリューションはどこに存在するのでしょうか? クラウド関係者は、クラウドはクラウド内にある (そして今後もクラウド内に存在し続ける) と主張しています。 確かに、それらは偏見を持っていますが、良い点も指摘しています。
結局のところ、ほぼスタック全体が毎週変化しているときに、トレーニング LLM の運用に必要なインフラストラクチャを維持できる組織はどこにあるのでしょうか? 私は、社内のクラウドとオンプレミスの議論に関して、ML が最後の手段だったと言っている多くの組織と話をしてきました。
「ゲームオーバー」と言う前に、興味深い傾向をご紹介します。 私は何億ドルも使う多くの顧客と話しています 四半期ごと クラウド上で定常状態のワークロードをオンプレミスに戻している人。 なぜ? 彼らはそう感じています 成熟した オンプレミスの ML ソリューションは、より安定したコスト最適化されたソリューションを提供します。
言い換えれば、迅速な実験と早期の運用化はクラウド内で行われますが、成熟した ML ソリューションは所有および運用されるデータセンターでより安定し、優れた経済性を享受できます。 でも、それも一つの選択肢に過ぎません…
- オブジェクトとファイル? 答える前に、これについて考えてください。 クラウドはオブジェクト ストレージを非常にうまく処理しますが、ファイル データは消費します。 また、オンプレミスではファイル データは非常にうまく処理されますが、オブジェクトは苦手です。 そして、クラウドとオンプレミスの両方が必要になる可能性が高いことについては先ほど説明しました。 ML にはどちらが適していますか? まあ…それは 複雑な.
一方で、ほとんどの LLM はオープンソースであり、ローカル ストレージ インターフェイスを介してデータにアクセスすることを想定しています。 これはクラウドにとって問題であり、データを大量に消費する GPU にデータを供給する前に、オブジェクトからローカル ディスク (インスタンスに接続された NVMe または EBS / マネージド ディスク) にデータをコピーするオーダーメイドのデータ ローダーを作成する必要があります。 見てください、Google GCP これについてこう言います。
「しかし、AI ワークロードが実際に [AI] データにアクセスする段階になると、必ずしも簡単ではありません。ほとんどの AI ワークロードは、Cloud Storage が提供するオブジェクト セマンティクスではなく、ファイル システム セマンティクスを必要とするからです。」
何をすべきか?
非常に多くの質問! AI / ML ワークロードにはオンプレミスかクラウドか? LLM を動かすデータのリポジトリとしてのファイルまたはオブジェクト? さまざまな場所からデータを集約し、ライフサイクル全体にわたってどのように管理しますか? どのストレージ ソリューションが最適であるかは、Dell、VAST、NetApp などの決定に影響します。
または … 彼らは?
Qumulo の Scale Anywhere™ は、100% ソフトウェア ベースの非構造化データ ストレージおよび管理ソリューションです。 コアとなるデータセンター ソリューションが必要ですか? パブリッククラウド? チェック。 ファイル? チェック。 物体? チェック。 必要に応じて ML に関する意思決定を行ってください – 私たちは単に 気にしない。 Qumulo は必要な場所ならどこでも実行できます。
当社には、オンプレミスと複数のパブリック クラウドにまたがる複数のストレージ サーバー ハードウェア プラットフォームを利用するお客様がいます。 利点は、Qumulo ベースの非構造化データ ワークロードがこれら全体で統合されていることです。
私は常に顧客の前にいますが、これに関して多くの肯定的なフィードバックを受け取ります。 これまで働いてきた他の会社に比べて新しいことですが、すぐに慣れました。
Qumulo の Scale Anywhere™ を使用して、Stride で ML の選択をしましょう。
ML の実装には多くの難しい決断が必要です。 しかし、どのストレージ プラットフォームを使用するかは、その中には含まれません。 Qumulo で Scale Anywhere™ を試してみると、どのような決定を下したかに関係なく、すべての ML ワークロードを管理できます。
- エッジ、コア、またはクラウド
- ファイルまたはオブジェクト
- トレーニングデータの収集、集計、キュレーション用
- または…推論モデルを分散エッジにプッシュできるようにするため
Qumulo は最も簡単な ML の選択肢です。