Suchen
Schließen Sie dieses Suchfeld.

Qumulo: Die branchenweit schnellste cloudbasierte Dateilösung für KI-Workloads

Geschrieben von:

Die Welt der künstliche Intelligenz (KI) hat ein exponentielles Wachstum erlebt und hat einen unstillbaren Hunger, Daten zu konsumieren. Von selbstfahrenden Autos bis hin zu Chatbots, die menschliche Gespräche nachahmen – KI revolutioniert Branchen in rasender Geschwindigkeit. Die Leistungsfähigkeit der KI beruht auf ihrem Datenrückgrat. Der Zugriff auf Daten, die Geschwindigkeit ihrer Verarbeitung und die skalierbare Speicherleistung sind entscheidende Faktoren, die die Effizienz einer KI-Pipeline bestimmen. Hier hat sich Qumulo als die beste Datenspeicherlösung der Welt für KI-Workloads erwiesen, als branchenweit leistungsstärkste und kostengünstigste Dateidatenlösung in der Cloud.

Warum Qumulo ideal für dateibasierte KI-Workloads ist

KI-Anwendungen, seien es Deep-Learning-Modelle oder neuronale Netze, erfordern einen einzigartigen Satz an Speichereigenschaften, die alle von Qumulo erfüllt werden:

  1. Skalierbarkeit: KI-Datensätze sind dynamisch. Sie wachsen mit der Zeit, da mehr Daten gesammelt und verarbeitet werden. Die Fähigkeit von Qumulo, mit vorhersehbar hoher Leistung zu skalieren, stellt sicher, dass Qumulo seine Anforderungen bei steigenden KI-Arbeitslasten in jeder Größenordnung erfüllen kann.
  2. Kosteneffektivität: Die Finanzierung von KI-Initiativen kann eine erhebliche Investition sein. Durch die Einsparung von Speicherkosten ohne Einbußen bei der Leistung können Ressourcen für andere kritische Bereiche freigesetzt werden, sei es Forschung, Entwicklung oder Produktionsbereitstellungen.
  3. Fähigkeit, überall zu skalierenTM: Infrastruktureigentümer und Datenwissenschaftler profitieren von der Flexibilität, Schulungen an einem Ort durchzuführen, die Bereitstellung jedoch an einem anderen Ort mit hochsicherer Infrastruktur durchzuführen. Das softwaredefinierte Speichersystem von Qumulo kann überall bereitgestellt und ausgeführt werden. Dies macht es einfach, ein KI-Modell im Kernrechenzentrum zu trainieren, es aber überall in die Produktion zu übertragen.
  4. Eigenschaften: KI-Modelle, insbesondere solche, die in Szenarien wie autonomen Fahrzeugen oder Finanztransaktionen verwendet werden, benötigen Echtzeit-Datenzugriff für das Modelltraining vor und nach dem Training. Der Hochgeschwindigkeits-Datenabruf von Qumulo stellt sicher, dass Daten verfügbar sind in dem Moment, in dem es erforderlich ist.

Schauen wir uns Punkt 4 genauer an und unterstreichen die Bedeutung eines nahtlosen und blitzschnellen Abrufs von Daten/Metadaten. Dies ist von entscheidender Bedeutung für KI-Anwendungen, die eine skalierbare Dateispeicherung erfordern – vor Ort oder in der Cloud.

Beim Testen synthetischer KI-Workloads haben wir herausgefunden, dass wir tatsächlich die schnellste dateibasierte Cloud-Lösung auf dem Markt für KI sind, bei der Datenwissenschaftler Qumulo für die Datenerfassung, Vorschulung, Produktionsschulung und fortlaufende Inferenz nutzen können – unabhängig von der Größenordnung .

Weiter lesen.

Weit verbreiteter KI-Benchmark

Um die Leistungsfähigkeit von Qumulo ins rechte Licht zu rücken, werfen wir einen Blick auf das neueste Ergebnis, das mit dem Betrieb von Qumulo in der Cloud auf der AWS-Infrastruktur erzielt wurde. Wir haben SPECstorage verwendet, um die KI-Leistung auf Qumulo zu charakterisieren. Dieser Benchmark (treffend AI_Image genannt) nutzt Dateigrößen und I/O-Muster, die gängige KI-Arbeitslasten synthetisch und genau ausführen:

  • Basierend auf Tensorflow Best Practices – das weltweit am weitesten verbreitete KI/ML-Framework
  • Verfolgt von 3 verschiedenen Modellen: Resnet, VGG (Visual Geometry Group) und SSD (Single Shot Detector)
  • Verwendung von Open-Source-Datensätzen von CityScape, ImageNet und COCO

Aufgrund der Allgegenwärtigkeit von Tensorflow im KI-Bereich gilt der Benchmark für eine breite Palette von KI-Modell-Workloads, die KI-Ergebnisse für Folgendes liefern:

  1. Bildklassifizierung und Objekterkennung
  2. Natürliche Sprachverarbeitung (NLP)
  3. Spracherkennung
  4. Empfehlungssysteme
  5. Generative Modelle
  6. Gesundheitswesen und Biowissenschaften

…und viele mehr

Benchmark-Beschreibung und erzielte Ergebnisse

Das Ziel des Benchmarks besteht darin, Daten schnell vom Qumulo-Speicher an die Anwendungsschicht (unter Verwendung von GPUs) bereitzustellen, auf der die KI-Jobs ausgeführt werden. Der Benchmark testet die Speicherleistung und Latenz anhand eines realistischen Satzes von E/A-Mustern einer Reihe von Clients. Die Kunden erhöhen schrittweise ihre Anzahl an KI-Jobs, bis sie das Ziel erreichen, das im Fall dieses Tests insgesamt 480 Jobs beträgt. Der Benchmark umfasst vier Hauptoperationen mit vier unabhängigen gleichzeitigen Unter-Workloads:

  • AI_SF – Liest kleine Bilddateien
  • AI_TF – Schreibt größere Dateien (idealerweise 100 MB+ Dateien)
  • AI_TR – Liest große TFRecords ein
  • AI_CP – Führt gelegentliche Checkpointing durch

Ergebnisse

Abb. 1 unten zeigt die folgenden Ergebnisse:

  • Die X-Achse zeigt die Anzahl der Jobs, die den KI-Benchmark im Zeitverlauf ausführen
  • Die Y-Achse zeigt die Gesamtlatenz während der Testdauer
  • Die Latenz zeigt die Speicherleistung schnell und vorhersehbar an, wenn die Anzahl der KI-Jobs zunimmt!

Abb.. 1

Qumulo ist der schnellere Speicher für KI in der Cloud

** Vergleich basierend auf den leistungsstärksten Systemen in öffentlichen Clouds, veröffentlicht auf www.spec.org, Stand Oktober 2023. SPEC® und der Benchmark-Name SPECgeneric® sind eingetragene Marken der Standard Performance Evaluation Corporation. Weitere Informationen zu SPECstorage2020 finden Sie unter https://www.spec.org/storage2020/.

Anwendbarkeit vor Ort

Während bei den SPECstorage-Benchmark-Tests eine Cloud-basierte Umgebung zum Einsatz kam, können diese Ergebnisse leicht extrapoliert werden, um die Ergebnisse mit ähnlicher Hardware vor Ort abzuschätzen. Wenn Qumulo diesen Benchmark auf der SPEC-Website veröffentlicht (ETA Dezember/2023), sind die Details und Kosten der Umgebung zu finden, unter Angabe der verwendeten EC2-Instance-Typen (Anzahl der Kerne, verfügbarer Speicher usw.) und der im Netzwerk verfügbaren Bandbreite Umfeld. In der Zwischenzeit stellen wir die ergänzenden Details für neugierige Leser im Anhang dieses Blogs bereit.

Datenwissenschaftler und Dateningenieure, Siehe. Versuch es selber!

In der sich schnell weiterentwickelnden Welt der KI ist eine robuste, schnelle und skalierbare Speicherlösung kein Luxus, sondern eine Notwendigkeit. Qumulo zeichnet sich durch seine branchenführende Leistung und Kosteneffizienz als die cloudbasierte Dateilösung der Wahl für KI-Workloads aus. Der Benchmark unterstreicht nicht nur die Leistungsfähigkeit von Qumulo, sondern festigt auch seine Position als schnellste und am weitesten verbreitete Speicherlösung für KI.

See vollständige Ergebnisse veröffentlicht auf Spec.org




Anhang


Performance

Gesamtreaktionszeit = 1.22 ms

Geschäft
Metrisch
(AI_Jobs)
Durchschnittlich
Latency
(ms)
AI_Jobs
Ops/Sek
AI_Jobs
MB/Sek
16 1.360 6960 1565
32 1.281 13921 3127
48 1.313 20882 4691
64 1.213 27843 6255
80 1.201 34804 7822
96 1.147 41765 9385
112 1.158 48726 10950
128 1.123 55687 12514
144 1.122 62648 14082
160 1.109 69609 15644
176 1.144 76570 17208
192 1.117 83530 18774
208 1.112 90491 20340
224 1.112 97452 21899
240 1.121 104413 23470
256 1.271 111374 25037
272 1.143 118335 26598
288 1.155 125296 28161
304 1.197 132257 29729
320 1.205 139218 31289
336 1.257 146178 32859
352 1.323 153139 34418
368 1.430 160100 35984
384 1.503 167061 37552
400 1.632 174022 39112

Produkt- und Testinformationen

Qumulo – Referenz zur öffentlichen Cloud
Von unabhängigen Qumulo, Inc.
Hardware verfügbar November 2023
Software verfügbar November 2023
Datum der Prüfung November 2023
Lizenznummer 6738
Standorte der Lizenznehmer Seattle, WA USA

Qumulo ist eine Hybrid-Cloud-Dateispeicherlösung, die sich durch Skalierbarkeit von über Exabyte in einem einzigen Namensraum, identische Funktionen vor Ort oder in der Cloud sowie vollständige Unterstützung mehrerer Protokolle auszeichnet und so Flexibilität und Kompatibilität über verschiedene Anwendungen hinweg gewährleistet. Durch die nahtlose Integration in die öffentliche Cloud-Infrastruktur bietet Qumulo unstrukturierten Datenspeicher in jeder Größenordnung mit Echtzeit-Einblick in die Speicherleistung und Datennutzung.

Das cloudnative Dateisystem von Qumulo ermöglicht es Unternehmen, dateibasierte Anwendungen und Arbeitslasten nahtlos in die öffentliche Cloud-Umgebung zu migrieren. Mit Qumulo können Unternehmen Exabytes an Daten effizient verwalten, egal ob vor Ort oder in der Cloud. Die folgenden Ergebnisse zeigen deutlich, dass das Qumulo-Dateisystem bei der Bereitstellung auf AWS eine herausragende Leistung liefert.

Stückliste der getesteten Lösung

Artikelnummer Menge Typ Verkäufer Modellname Beschreibung
1 16 AWS EC2-Instanzen AWS c5n.18xlarge Qumulo-Knoten – Amazon c5n EC2-Instanzen (c5n.18xlarge-Instanzen haben 72 vCPU, 192 GB Speicher, 100 Gbit/s Netzwerk)
2 16 AWS EC2-Instanzen AWS c5n.18xlarge Ubuntu-Clients – Qumulo-Cluster – Amazon c5n EC2-Instanzen (c5n.18xlarge-Instanzen haben 72 vCPU, 192 GB Arbeitsspeicher, 100 Gbit/s Netzwerk)

Konfigurationsdiagramme

Qumulo in AWS

Qumulo in AWS

Komponentensoftware

Artikelnummer Komponente Typ Name und Version Beschreibung
1 Qumulo Core Dateisystem 6.2.2 Das cloudnative Dateisystem von Qumulo ermöglicht es Unternehmen, dateibasierte Anwendungen und Workloads mühelos in die öffentliche Cloud zu verschieben.
2 Ubuntu Betriebssystem 22.04 Das Ubuntu-Betriebssystem wird auf den sechzehn c5n.18xlarge-Rechenknoten bereitgestellt. Sie werden als Clients verwendet, auf denen die SPEC Storage 2020-Benchmarks ausgeführt werden.

Hardwarekonfiguration und -optimierung – physisch

Komponentenname
Parametername Wert Beschreibung
SR-IOV Aktiviert Aktiviert die CPU-Virtualisierungstechnologie
Port-Geschwindigkeit 100 GbE Jeder Knoten verfügt über 100-GbE-Konnektivität

Hinweise zur Hardwarekonfiguration und -optimierung

Keine

Softwarekonfiguration und -optimierung – virtuell

Networking mit anderen Teilnehmern
Parametername Wert Beschreibung
Jumbo-Rahmen 9001 Ermöglicht Ethernet-Jumbo-Frames mit bis zu 9001 Byte
NFS-Mount-Parameter für Ubuntu-Clients
Parametername Wert Beschreibung
zu 3 Verwenden Sie NFSv3
nverbinden 16 Erhöhen Sie die Anzahl der NFS-Client-Verbindungen auf 16
TCP TCP-Netzwerktransportprotokoll zur Kommunikation mit dem Qumulo-Cluster
local_lock alle Der Client geht davon aus, dass sowohl Flock- als auch POSIX-Sperren lokal sind
EBS-Volumenparameter
Parametername Wert Beschreibung
IOPS 16000 Maximale IOPS für EBS-Volume
Durchsatz 1000 Maximaler Durchsatz für EBS-Volume

Hinweise zur Softwarekonfiguration und -optimierung

Keine

Service-SLA-Hinweise

AWS unternimmt wirtschaftlich vertretbare Anstrengungen, um die enthaltenen Produkte und Dienste jeweils während eines monatlichen Abrechnungszeitraums mit einem monatlichen Verfügbarkeitsprozentsatz von mindestens 99.99 % verfügbar zu machen. Der Prozentsatz der monatlichen Betriebszeit wird berechnet, indem von 100 % der Prozentsatz der Minuten während des Monats abgezogen wird, in dem sich eines der enthaltenen Produkte und Dienste (sofern zutreffend) im Status „Region nicht verfügbar“ befand.

Speicher- und Dateisysteme

Artikelnummer Beschreibung Datenschutz Stabile Lagerung Menge
1 Elastic Block Storage-Volume, Kapazität von 1 TB gp3. Jeder Qumulo-Knoten verfügt über 6 EBS-Volumen. Schutz für 2 Laufwerke oder 1 Knoten mit Erasure Coding AWS EBS 96
Anzahl der Dateisysteme 1
Gesamtkapazität 78.54 TB
Dateisystemtyp Qumulo

Hinweise zur Dateisystemerstellung

Das Qumulo Core-Dateisystem wird auf AWS entweder über eine Cloud-Formationsvorlage oder Terraform bereitgestellt. Das Qumulo Core AMI wird bereitgestellt und das Dateisystem wird entweder als Teil des automatisierten Cloud-Bildungsprozesses oder über Terraform konfiguriert. Es sind keine zusätzlichen Schritte zur Dateisystemerstellung erforderlich.

Hinweise zu Speicher und Dateisystem

Keine

Transportkonfiguration – virtuell

Artikelnummer Transportart Anzahl der verwendeten Ports Notizen
1 Virtuelle 100-Gbit/s-Ethernet-NIC 16 Wird von Client-Computern verwendet
2 Virtuelle 100-Gbit/s-Ethernet-NIC 16 Wird von Qumulo Core für die Kommunikation zwischen Knoten sowie für die Kommunikation mit beliebigen Clients verwendet.

Hinweise zur Transportkonfiguration

Keine

Schalter – virtuell

Artikelnummer Schaltername Schaltertyp Gesamtzahl der Ports Anzahl der verwendeten Ports Notizen
1 AWS 100-Gbit/s-Ethernet mit erweiterter Netzwerkfähigkeit 16 16 Wird von Client-Computern verwendet
2 AWS 100-Gbit/s-Ethernet mit erweiterter Netzwerkfähigkeit 16 16 Wird von Qumulo Core-Knoten verwendet

Verarbeitungselemente – virtuell

Artikelnummer Menge Typ Ort Beschreibung Verarbeitungsfunktion
1 1152 vCPU c5n.18xlarge Qumulo Core 3.5 GHz Intel Xeon Platinum Prozessoren Qumulo Core, Netzwerkkommunikation, Speicherfunktionen
2 1152 vCPU c5n.18xlarge Qumulo Core 3.5 GHz Intel Xeon Platinum Prozessoren Spec Storage Client Benchmark-Prozessoren

Verarbeiten von Elementnotizen

Keine

Erinnerung – virtuell

Beschreibung Größe in GiB Anzahl der Instanzen Nicht flüchtig Gesamt-GiB
AWS EC2 c5n.18xlarge-Instanzspeicher 192 16 V 3072
AWS EC2 c5n.18xlarge-Instanzspeicher 192 16 V 3072
Gesamtspeicher-Gibibyte 6144

Erinnerungsnotizen

Keine

Stabile Lagerung

Qumulo Core nutzt Elastic Block Storage (EBS)-Geräte; die für eine stabile Lagerung sorgen.

Lösung unter Testkonfigurationshinweise

Bei der getesteten Lösung handelte es sich um einen standardmäßigen verteilten Cluster, der mit Qumulo Core erstellt wurde. Qumulo Core-Cluster können große und kleine Datei-I/O sowie metadatenintensive Anwendungen verarbeiten. Für unterschiedliche oder gemischt genutzte Workloads ist keine spezielle Optimierung erforderlich.

Verwandte Artikel

Nach oben scrollen