ブログ

エージェントAIシステムのためのデータプラットフォーム構築の課題

2025年8月18日

Bryan Berezdivin

エージェント型AIは、静的でモデル中心のワークフローから、常に人間が監視することなく計画、行動、適応する継続的な推論システムへのシフトを示す。RAGを持つLLMは、クエリ時に新鮮な情報を取り込むことができるが、エージェントシステムは、推論の途中で、検索と文脈適応が連続的に起こるように、リアルタイムのデータ要件が増加している。このことは、基本的なデータの課題をもたらす。複数のエージェントは、それぞれ独自のタスクを持ち、互いの状態を踏むことなく、同じ進化するコンテキストにアクセスし、共有しなければならない。それなしでは、推論は断片化し、出力はドリフトし、下流のワークフローは失敗する。

エージェントは環境を感知し、関連するコンテキストを思い出し、計画し、行動し、報酬関数を最大化するために反復的に評価する。新しいシグナルが取り込まれ、キュレーションされ、バージョン管理され、（埋め込みを含む）インデックスが作成され、エージェントが考えるたびに不変のスライスとして取り出される。データループは、テキスト、画像、ビデオ、センサーストリームを含む大量の非構造化データによって支えられている。これらのデータセットは、クラウド、データセンター、エッジ環境に地理的に分散されつつある。アクションと結果は、実績とともにチェックポイントされ、キュレーションにフィードバックされるため、次の推論ステップは、一貫性のある監査可能な状態から開始される。シングル・エージェント・フローでは、これは単純な検索とコンテキストのパターンである。マルチ・エージェント・システムでは、永続的なチェックポイント、スナップショット・ピンされた読み取り、同時検索、ポリシーを意識したアクセス、リネージが要求される。この2つのループが緊密に結合していないと、エージェントは古くなったコンテキストで失速し、変化するデータで衝突し、再現性に失敗する。

アンドリュー・ングが言うように、「多くのアプリケーションのボトルネックは、ソフトウェアに供給する適切なデータを得ること」であり、スノーフレークのCEOが適切に言うように、「今日のAIの動力源はモデルではなく、それを供給するデータレイヤー」である。

主な課題

サイロ化されたインフラを横断する非構造化データの管理
エージェント型AIのマルチエージェントモデルは、多様なデータセットへのシームレスなアクセスを要求する。顧客記録、IoT遠隔測定、運用ルールなど、情報がサイロ化されると、パイプラインの複雑さとパフォーマンスのボトルネックが発生します。データアクセスが遅れるとGPUは効率を失い、AIアプリケーションのパフォーマンス低下により計算コストが上昇する。俊敏性を維持するには、最小限のレイテンシーで事前トレーニング、微調整、増強のために関連データセットをオーケストレーションする必要があります。

リーダーの61％がAIエージェントを導入しているが ガートナー 2028年までの自動化率はわずか15%にとどまると予想されており、断片化されたデータサイロがエージェントのROIを損なっていることが浮き彫りになっている。

適応型ワークフローのためのデータのキュレーションと配信
継続的な学習ワークフローには、迅速で的を絞ったデータ配信が必要です。複雑キュレーションはプロジェクト時間の30～50％を占める特にソーシャルメディアのセンチメント・ストリームのような動的なソースの場合。マルチエージェントのCI/CDパイプラインは、多数の学習モデルを同時にフィードする必要があり、些細なデータの遅延でさえ、エージェント全体の処理を停滞させる可能性がある。

フォーブス誌によれば、データ実務者の時間の79％がデータセットの準備に費やされており、自動化されたバージョン管理されたデリバリー・パイプラインが不可欠である理由が明らかになった。

安全性、倫理、コンプライアンスのためのデータ管理
自律型システムは、特に、いくつかの業界の事例で見られるように、データの35％以上が追跡不可能な場合、コンプライアンス・リスクが高まる。データの起源、変換、使用に関する完全な透明性がなければ、組織は法的リスク、評判リスク、業務リスクに直面する。トレーサビリティの欠如は、説明可能性、バイアスの検出、プライバシー保護を弱体化させる。

AIイニシアチブの75%はデータの不整合によって失敗し、69%は本番稼動に至らなかった。 テックレーダー クリーンなデータとトレーサビリティはオプションではなく、エージェント・システムにとってミッション・クリティカルなのだ。

建築要件

チューリング賞を受賞したヤン・ルクンは、「より多くのデータとより多くの計算」が魔法のように賢いAIを生み出すわけではないことを思い出させてくれる。結局のところ、「猫レベル」のインテリジェンスに到達することさえ依然として困難であり、エージェント型AIが単なるスケール以上のものを要求する理由を浮き彫りにしている。

統一されたデータアクセス
ハイブリッド／マルチクラウドのグローバルネームスペース（GNS）は、クラウド、エッジ、オンプレミスのすべてのデータセットを単一の論理ビューに統合します。これにより、手作業によるロケーション管理、データの重複、バージョンの不整合がなくなり、エージェントは完全で一貫性のある情報セットで業務を行うことができます。

クロス・プロトコル・サポート
データループのさまざまなステップでは、コンテナ間で展開されるさまざまなライブラリを活用し、POSIX/オブジェクト・インターフェースの利点が異なる。ETLとトレーニングのワークロードはPOSIXの恩恵を受け、ラベリングはオブジェクト・インターフェースの恩恵を受ける。ファイル(SMB, NFS)、オブジェクト(S3)、API(REST)アクセスをサポートするプラットフォームは、コストのかかる再プラットフォーム化を防ぎ、エージェントはデータ移行の遅延なしに環境間でネイティブに機能します。

最適化されたパフォーマンス
ヒートマップやプリフェッチを使用したインテリジェントなキャッシングにより、単一クラスタまたは地理的に分散したクラスタセットでの低レイテンシーアクセスを実現します。遠隔データがどこにあろうと、柔軟かつ低レイテンシでアクセスできるため、エージェントは自律診断のような領域でリアルタイムの意思決定を行うことができます。

スケーラブル、パフォーマンス、コンカレント
エージェントAIでは、ボトルネックや状態の変化なしに、複数のエージェントにキュレーションされたデータセットを高速で同時に配信する必要があります。ビルトインのバージョニング、不変スナップショット、インデックス作成により、すべてのエージェントが一貫性のあるデータセットから作業することを保証します。CI/CDパイプラインとの統合により、トレーニング、検証、RAG、ファインチューニングにわたる更新、テスト、デプロイメントが自動化されます。これらの機能がなければ、マルチエージェントシステムはデータのドリフト、冗長な処理、連鎖的な速度低下に直面します。

堅牢なガバナンスとプロベナンス・トラッキング
自動化されたデータ・プルーバンスは、あらゆるデータ変換、移動、アクセス・イベントの詳細な時系列記録を取得します。これにより、コンプライアンスレポートの作成、監査のサポート、不正使用の検出、および説明可能性とバイアスの軽減のための意思決定コンテキストの再構築が容易になります。

概要

要するに、エージェント型AIのスケーリングは、以下のように重要なのだ。 データ・アーキテクチャへの挑戦 をAIの課題としている。成功には、安全で効果的な自律システムに不可欠な透明性、セキュリティ、俊敏性を維持しながら、ペタバイト級の分散した非構造化データをオーケストレーションできる、統合された高性能でガバナンス対応のデータプラットフォームが必要です。Qumuloのクラウドデータプラットフォームは、このような課題を解決するために設計されました。詳細はこちらこれ.