In diesem Blog werden die Kompromisse erläutert, die Cloud-Architekten beim Aufbau der KI-Infrastruktur bei der Verwendung herkömmlicher Dateisysteme eingehen mussten. Der Blog erklärt auch, wie Azure Native Qumulo diese Kompromisse löst, indem es die GPU-Zeit verkürzt und die Kosten erheblich senkt, ohne die Leistung zu beeinträchtigen.
Wenn es darum geht, KI-Operationen in großem Maßstab auszuführen, ist es den Dateispeicherdiensten nicht gelungen, den Kompromiss zwischen Leistung und Kosteneffizienz zu optimieren. Die Bereitstellung von KI-Workflows direkt auf der Dateispeicherinfrastruktur war bisher unpraktisch, umständlich und wirtschaftlich nicht nachhaltig.
Heutzutage sind Unternehmen gezwungen, KI-gesteuerte Lösungen zu entwickeln, indem sie Daten von kostengünstigem Objektspeicher in teure Datei-Caches (entweder lokale Festplatten oder zentrale Dateisysteme) übertragen, wo die KI-Rechenaufgaben von begehrten GPUs ausgeführt werden. Unabhängig davon, ob es sich um Datenerfassung, Vorschulung, Produktionsschulung oder kontinuierliche Inferenz handelt, erhöht die Datenverschiebung zwischen Speicherebenen nicht nur die Komplexität, sondern verursacht auch zusätzliche API-Transaktionsgebühren.
Ein zweistufiges System mit Datei-Caches bedeutet auch, dass GPUs bis zu 40 % der Zeit warten müssen, nur um die Daten aus dem Objektspeicher in den Datei-Cache zu laden. Das ist eine Menge Zeitverschwendung für GPUs im Leerlauf. Und noch schlimmer: Bei den kleineren Caches sind die Trainingsdatensätze auf die Größe des lokalen Caches beschränkt, sodass mehrere Ladephasen erforderlich sind, um größere Datensätze wie Bilder und Videos zu verarbeiten.
Azure Native Qumulo (ANQ) fungiert als intelligenter Datenbeschleuniger für den Objektspeicher und führt parallelisierte, vorab abgerufene Lesevorgänge aus, die direkt von der Azure-Grundinfrastruktur über das Qumulo-Dateisystem an GPUs gesendet werden, auf denen KI-Trainingsmodelle ausgeführt werden. ANQ beschleunigt die GPU-seitige Leistung und eliminiert Ladezeiten zwischen der Objektebene und dem Dateisystem. Dies ändert die Architektur des dateiabhängigen KI-Trainings in der Cloud, wie in der folgenden Abbildung dargestellt.
Als Beleg verweisen wir auf unsere neueste Version Spec Storage AI_IMAGE-Ergebnisseund demonstriert die Architektur von ANQ als schnellste und kosteneffektivste Cloud-native-Speicherlösung der Branche.
Wir haben das beste Ergebnis mit einer Gesamtreaktionszeit (ORT) von 0.84 ms und Gesamtkosten für den Kunden von 400 $ zum Listenpreis über einen 5-stündigen Burst-Zeitraum erzielt. Dies ist störend, da unser Burst-Zyklus vollständig SaaS PAYGO war, bei dem die Messung gestoppt wurde, wenn die Leistung nicht benötigt wurde. Die meisten anderen Anbieter, darunter ein früheres Angebot mit 700 Jobs bei 0.85 ms ORT, kommunizieren die Kosten nicht transparent, weil:
- Dazu gehört eine große, nicht elastische Bereitstellung übergroßer VMs, die Sie auch nach der Bereitstellung weiter ausführen müssten, um Ihren Datensatz zu verwalten.
- Sie erfordern ein 1-3-jähriges Softwareabonnement im Wert von Hunderttausenden von Dollar auf der Grundlage einer Softwareberechtigung im Gegensatz zu einem PAYGO-Verbrauchsmodell.
Diese Behauptungen *klingen* schwer zu glauben, also fragen Sie sich vielleicht:
- Was ist an der Architektur von ANQ so anders, die so erstaunliche Ergebnisse liefert?
- Wie kann Qumulo die Geschwindigkeit eines Ferrari erreichen, mit dem? öffentlich ausgeschriebener Preis eines zuverlässigen Toyota Corolla?
- Bedeutet dies, dass ich endlich den Dateispeicher in der Cloud nutzen kann, ohne die Tiering-Struktur für Objekte verwalten zu müssen?
- Was passiert, wenn mein Leistungsbedarf je nach Wochentag oder Woche des Monats stark schwankt?
Drei einfache Dinge ermöglichen es Qumulo, all diese Fragen zu beantworten und selbstbewusst hinter unserem Anspruch als erster moderner Cloud-Dateispeicherdienst zu stehen.
Echte elastische Skalierbarkeit ermöglicht es Kunden, sich auf andere geschäftliche und technologische Belange zu konzentrieren, anstatt sich um die Cloud-native Speicherinfrastruktur zu kümmern. Die Speicherleistung ist skalierbar, wenn der KI-Anwendungsstapel dies erfordert, und spart Kosten, wenn kein Bedarf besteht.
Hinweis: Andere Cloud-Dateisysteme versagen bei dieser kritischen Funktion, indem sie vorab bereitgestellte „Volumes“ mit fester Kapazität betreiben. Eigentlich unterscheidet es sich nicht wirklich von On-Prem-Speicher, ist aber weitaus teurer!
Disruptive Preisgestaltung: Qumulo hat sich durch Innovationen einen Weg in die disruptive Preisgestaltung gebahnt und nutzt dabei die Vorteile der Cloud-Ökonomie. Wir geben die Einsparungen an den Kunden weiter. Und das Disruptive daran? Sie zahlen nur für das, was Sie nutzen.
Die Preisgestaltung ist einfach und basiert auf zwei Faktoren: Speichernutzung (TB) und erforderliche Leistung (Durchsatz und IOPs); ANQ skaliert Leistung und Kapazität dynamisch, sodass keine Ressourcen im Voraus in Erwartung der Nachfrage bereitgestellt werden müssen.
Kennzahlen steigt linear mit zunehmender Arbeitsbelastung. Das Azure Native Qumulo-Dateisystem basiert auf der Objektschicht und erreicht eine durchschnittliche Cache-Trefferquote über alle Cluster (lokal und in der Cloud) von über 95 %! Die Architektur fungiert als Beschleuniger, der parallelisierte Lesevorgänge ausführt, die vorab vom Objekt abgerufen und direkt vom Dateisystem an seine Clients bereitgestellt werden, bei denen es sich um GPUs handeln kann, auf denen KI-Anwendungen ausgeführt werden. Dieser verwaltete „Beschleuniger“ gewährleistet GPU-seitige Skalierbarkeit und Leistung, ohne auf Ladezeiten zwischen der Objektschicht und dem Dateisystem warten zu müssen.
- Lesen Sie mehr Der Cache wird von einem In-Memory-L1-Cache und einem großzügigen NVMe-L2-Cache bedient. Der globale Lesecache wird bei Bedarf elastisch erhöht. Aus diesem Grund hatten wir beim Spec AI_IMAGE-Benchmark eine Gesamtreaktionszeit von unter einer Millisekunde; Das System hat den Cache vorübergehend skaliert, um den Leistungsanforderungen gerecht zu werden!
Hinter dem Lesecache verbirgt sich Qumulos hochentwickeltes maschinelles Lernmodell, das errät, welche Blöcke am wahrscheinlichsten als nächstes gelesen werden. Das Modell wurde mit jahrelangen Zugriffsmustern aus über 1 Billion Anfragen trainiert und ruft Daten präzise vorab aus dem NVMe- oder L1-Cache ab und stellt sie bereit. - Schreiben Transaktionen nutzen leistungsstarke, von Azure verwaltete Datenträger, die als geschützter Rückschreibcache für eingehende Schreibvorgänge fungieren und diese kontinuierlich in Azure Blob Storage übertragen. Jede Transaktion wird protokolliert, um sicherzustellen, dass es in der ANQ-Architektur nicht zu einem einzigen Datenverlust kommt. Dieser Ansatz ist bei Rechenknotenausfällen von entscheidender Bedeutung und langlebiger als die Architekturen einiger unserer Mitbewerber, bei denen während der Verarbeitung ausgeführte Schreibvorgänge bei Rechenereignissen verloren gehen können.
- Lesen Sie mehr Der Cache wird von einem In-Memory-L1-Cache und einem großzügigen NVMe-L2-Cache bedient. Der globale Lesecache wird bei Bedarf elastisch erhöht. Aus diesem Grund hatten wir beim Spec AI_IMAGE-Benchmark eine Gesamtreaktionszeit von unter einer Millisekunde; Das System hat den Cache vorübergehend skaliert, um den Leistungsanforderungen gerecht zu werden!
Undenkbar? Wir laden Sie ein, es selbst zu testen. Sie können Azure Native Qumulo 7 Tage lang kostenlos testen Hier . Die Standardkonfiguration ermöglicht es Ihnen, die Funktionalität zu sehen, verfügt jedoch über einen Sicherheitsratenbegrenzer. Wenn Sie mehr Leistung benötigen, wenden Sie sich einfach an hpc-trial-request@qumulo.com.
Möchten Sie mehr erfahren? Laden Sie unten unsere Lösungsübersicht herunter.