Die Welt der künstliche Intelligenz (KI) hat ein exponentielles Wachstum erlebt und hat einen unstillbaren Hunger, Daten zu konsumieren. Von selbstfahrenden Autos bis hin zu Chatbots, die menschliche Gespräche nachahmen – KI revolutioniert Branchen in rasender Geschwindigkeit. Die Leistungsfähigkeit der KI beruht auf ihrem Datenrückgrat. Der Zugriff auf Daten, die Geschwindigkeit ihrer Verarbeitung und die skalierbare Speicherleistung sind entscheidende Faktoren, die die Effizienz einer KI-Pipeline bestimmen. Hier hat sich Qumulo als die beste Datenspeicherlösung der Welt für KI-Workloads erwiesen, als branchenweit leistungsstärkste und kostengünstigste Dateidatenlösung in der Cloud.
Warum Qumulo ideal für dateibasierte KI-Workloads ist
KI-Anwendungen, seien es Deep-Learning-Modelle oder neuronale Netze, erfordern einen einzigartigen Satz an Speichereigenschaften, die alle von Qumulo erfüllt werden:
- Skalierbarkeit: KI-Datensätze sind dynamisch. Sie wachsen mit der Zeit, da mehr Daten gesammelt und verarbeitet werden. Die Fähigkeit von Qumulo, mit vorhersehbar hoher Leistung zu skalieren, stellt sicher, dass Qumulo seine Anforderungen bei steigenden KI-Arbeitslasten in jeder Größenordnung erfüllen kann.
- Kosteneffektivität: Die Finanzierung von KI-Initiativen kann eine erhebliche Investition sein. Durch die Einsparung von Speicherkosten ohne Einbußen bei der Leistung können Ressourcen für andere kritische Bereiche freigesetzt werden, sei es Forschung, Entwicklung oder Produktionsbereitstellungen.
- Fähigkeit, überall zu skalierenTM: Infrastruktureigentümer und Datenwissenschaftler profitieren von der Flexibilität, Schulungen an einem Ort durchzuführen, die Bereitstellung jedoch an einem anderen Ort mit hochsicherer Infrastruktur durchzuführen. Das softwaredefinierte Speichersystem von Qumulo kann überall bereitgestellt und ausgeführt werden. Dies macht es einfach, ein KI-Modell im Kernrechenzentrum zu trainieren, es aber überall in die Produktion zu übertragen.
- Eigenschaften: KI-Modelle, insbesondere solche, die in Szenarien wie autonomen Fahrzeugen oder Finanztransaktionen verwendet werden, benötigen Echtzeit-Datenzugriff für das Modelltraining vor und nach dem Training. Der Hochgeschwindigkeits-Datenabruf von Qumulo stellt sicher, dass Daten verfügbar sind in dem Moment, in dem es erforderlich ist.
Schauen wir uns Punkt 4 genauer an und unterstreichen die Bedeutung eines nahtlosen und blitzschnellen Abrufs von Daten/Metadaten. Dies ist von entscheidender Bedeutung für KI-Anwendungen, die eine skalierbare Dateispeicherung erfordern – vor Ort oder in der Cloud.
Beim Testen synthetischer KI-Workloads haben wir herausgefunden, dass wir tatsächlich die schnellste dateibasierte Cloud-Lösung auf dem Markt für KI sind, bei der Datenwissenschaftler Qumulo für die Datenerfassung, Vorschulung, Produktionsschulung und fortlaufende Inferenz nutzen können – unabhängig von der Größenordnung .
Weiter lesen.
Weit verbreiteter KI-Benchmark
Um die Leistungsfähigkeit von Qumulo ins rechte Licht zu rücken, werfen wir einen Blick auf das neueste Ergebnis, das mit dem Betrieb von Qumulo in der Cloud auf der AWS-Infrastruktur erzielt wurde. Wir haben SPECstorage verwendet, um die KI-Leistung auf Qumulo zu charakterisieren. Dieser Benchmark (treffend AI_Image genannt) nutzt Dateigrößen und I/O-Muster, die gängige KI-Arbeitslasten synthetisch und genau ausführen:
- Basierend auf Tensorflow Best Practices – das weltweit am weitesten verbreitete KI/ML-Framework
- Verfolgt von 3 verschiedenen Modellen: Resnet, VGG (Visual Geometry Group) und SSD (Single Shot Detector)
- Verwendung von Open-Source-Datensätzen von CityScape, ImageNet und COCO
Aufgrund der Allgegenwärtigkeit von Tensorflow im KI-Bereich gilt der Benchmark für eine breite Palette von KI-Modell-Workloads, die KI-Ergebnisse für Folgendes liefern:
- Bildklassifizierung und Objekterkennung
- Natürliche Sprachverarbeitung (NLP)
- Spracherkennung
- Empfehlungssysteme
- Generative Modelle
- Gesundheitswesen und Biowissenschaften
…und viele mehr
Benchmark-Beschreibung und erzielte Ergebnisse
Das Ziel des Benchmarks besteht darin, Daten schnell vom Qumulo-Speicher an die Anwendungsschicht (unter Verwendung von GPUs) bereitzustellen, auf der die KI-Jobs ausgeführt werden. Der Benchmark testet die Speicherleistung und Latenz anhand eines realistischen Satzes von E/A-Mustern einer Reihe von Clients. Die Kunden erhöhen schrittweise ihre Anzahl an KI-Jobs, bis sie das Ziel erreichen, das im Fall dieses Tests insgesamt 480 Jobs beträgt. Der Benchmark umfasst vier Hauptoperationen mit vier unabhängigen gleichzeitigen Unter-Workloads:
- AI_SF – Liest kleine Bilddateien
- AI_TF – Schreibt größere Dateien (idealerweise 100 MB+ Dateien)
- AI_TR – Liest große TFRecords ein
- AI_CP – Führt gelegentliche Checkpointing durch
Ergebnisse
Abb. 1 unten zeigt die folgenden Ergebnisse:
- Die X-Achse zeigt die Anzahl der Jobs, die den KI-Benchmark im Zeitverlauf ausführen
- Die Y-Achse zeigt die Gesamtlatenz während der Testdauer
- Die Latenz zeigt die Speicherleistung schnell und vorhersehbar an, wenn die Anzahl der KI-Jobs zunimmt!
Abb.. 1
** Vergleich basierend auf den leistungsstärksten Systemen in öffentlichen Clouds, veröffentlicht auf www.spec.org, Stand Oktober 2023. SPEC® und der Benchmark-Name SPECgeneric® sind eingetragene Marken der Standard Performance Evaluation Corporation. Weitere Informationen zu SPECstorage2020 finden Sie unter https://www.spec.org/storage2020/.
Anwendbarkeit vor Ort
Während bei den SPECstorage-Benchmark-Tests eine Cloud-basierte Umgebung zum Einsatz kam, können diese Ergebnisse leicht extrapoliert werden, um die Ergebnisse mit ähnlicher Hardware vor Ort abzuschätzen. Wenn Qumulo diesen Benchmark auf der SPEC-Website veröffentlicht (ETA Dezember/2023), sind die Details und Kosten der Umgebung zu finden, unter Angabe der verwendeten EC2-Instance-Typen (Anzahl der Kerne, verfügbarer Speicher usw.) und der im Netzwerk verfügbaren Bandbreite Umfeld. In der Zwischenzeit stellen wir die ergänzenden Details für neugierige Leser im Anhang dieses Blogs bereit.
Datenwissenschaftler und Dateningenieure, Siehe. Versuch es selber!
In der sich schnell weiterentwickelnden Welt der KI ist eine robuste, schnelle und skalierbare Speicherlösung kein Luxus, sondern eine Notwendigkeit. Qumulo zeichnet sich durch seine branchenführende Leistung und Kosteneffizienz als die cloudbasierte Dateilösung der Wahl für KI-Workloads aus. Der Benchmark unterstreicht nicht nur die Leistungsfähigkeit von Qumulo, sondern festigt auch seine Position als schnellste und am weitesten verbreitete Speicherlösung für KI.
Weitere Informationen finden Sie auch in den vollständige Ergebnisse veröffentlicht auf Spec.org
Anhang
Kennzahlen
Gesamtreaktionszeit = 1.22 ms
|
Produkt- und Testinformationen
Qumulo – Referenz zur öffentlichen Cloud | |
---|---|
Von unabhängigen | Qumulo, Inc. |
Hardware verfügbar | November 2023 |
Software verfügbar | November 2023 |
Datum der Prüfung | November 2023 |
Lizenznummer | 6738 |
Standorte der Lizenznehmer | Seattle, WA USA |
Qumulo ist eine Hybrid-Cloud-Dateispeicherlösung, die sich durch Skalierbarkeit von über Exabyte in einem einzigen Namensraum, identische Funktionen vor Ort oder in der Cloud sowie vollständige Unterstützung mehrerer Protokolle auszeichnet und so Flexibilität und Kompatibilität über verschiedene Anwendungen hinweg gewährleistet. Durch die nahtlose Integration in die öffentliche Cloud-Infrastruktur bietet Qumulo unstrukturierten Datenspeicher in jeder Größenordnung mit Echtzeit-Einblick in die Speicherleistung und Datennutzung.
Das cloudnative Dateisystem von Qumulo ermöglicht es Unternehmen, dateibasierte Anwendungen und Arbeitslasten nahtlos in die öffentliche Cloud-Umgebung zu migrieren. Mit Qumulo können Unternehmen Exabytes an Daten effizient verwalten, egal ob vor Ort oder in der Cloud. Die folgenden Ergebnisse zeigen deutlich, dass das Qumulo-Dateisystem bei der Bereitstellung auf AWS eine herausragende Leistung liefert.
Stückliste der getesteten Lösung
Artikelnummer | Menge | Typ | Verkäufer | Modellname | Beschreibung |
---|---|---|---|---|---|
1 | 16 | AWS EC2-Instanzen | AWS | c5n.18xlarge | Qumulo-Knoten – Amazon c5n EC2-Instanzen (c5n.18xlarge-Instanzen haben 72 vCPU, 192 GB Speicher, 100 Gbit/s Netzwerk) |
2 | 16 | AWS EC2-Instanzen | AWS | c5n.18xlarge | Ubuntu-Clients – Qumulo-Cluster – Amazon c5n EC2-Instanzen (c5n.18xlarge-Instanzen haben 72 vCPU, 192 GB Arbeitsspeicher, 100 Gbit/s Netzwerk) |
Konfigurationsdiagramme
Qumulo in AWS
Komponentensoftware
Artikelnummer | Komponente | Typ | Name und Version | Beschreibung |
---|---|---|---|---|
1 | Qumulo Core | Dateisystem | 6.2.2 | Das cloudnative Dateisystem von Qumulo ermöglicht es Unternehmen, dateibasierte Anwendungen und Workloads mühelos in die öffentliche Cloud zu verschieben. |
2 | Ubuntu | Betriebssystem | 22.04 | Das Ubuntu-Betriebssystem wird auf den sechzehn c5n.18xlarge-Rechenknoten bereitgestellt. Sie werden als Clients verwendet, auf denen die SPEC Storage 2020-Benchmarks ausgeführt werden. |
Hardwarekonfiguration und -optimierung – physisch
Komponentenname | ||
---|---|---|
Parametername | Wert | Beschreibung |
SR-IOV | Aktiviert | Aktiviert die CPU-Virtualisierungstechnologie |
Port-Geschwindigkeit | 100 GbE | Jeder Knoten verfügt über 100-GbE-Konnektivität |
Hinweise zur Hardwarekonfiguration und -optimierung
Keine
Softwarekonfiguration und -optimierung – virtuell
Networking mit anderen Teilnehmern | ||
---|---|---|
Parametername | Wert | Beschreibung |
Jumbo-Rahmen | 9001 | Ermöglicht Ethernet-Jumbo-Frames mit bis zu 9001 Byte |
NFS-Mount-Parameter für Ubuntu-Clients | ||
Parametername | Wert | Beschreibung |
zu | 3 | Verwenden Sie NFSv3 |
nverbinden | 16 | Erhöhen Sie die Anzahl der NFS-Client-Verbindungen auf 16 |
TCP | TCP-Netzwerktransportprotokoll zur Kommunikation mit dem Qumulo-Cluster | |
local_lock | alle | Der Client geht davon aus, dass sowohl Flock- als auch POSIX-Sperren lokal sind |
EBS-Volumenparameter | ||
Parametername | Wert | Beschreibung |
IOPS | 16000 | Maximale IOPS für EBS-Volume |
Durchsatz | 1000 | Maximaler Durchsatz für EBS-Volume |
Hinweise zur Softwarekonfiguration und -optimierung
Keine
Service-SLA-Hinweise
AWS unternimmt wirtschaftlich vertretbare Anstrengungen, um die enthaltenen Produkte und Dienste jeweils während eines monatlichen Abrechnungszeitraums mit einem monatlichen Verfügbarkeitsprozentsatz von mindestens 99.99 % verfügbar zu machen. Der Prozentsatz der monatlichen Betriebszeit wird berechnet, indem von 100 % der Prozentsatz der Minuten während des Monats abgezogen wird, in dem sich eines der enthaltenen Produkte und Dienste (sofern zutreffend) im Status „Region nicht verfügbar“ befand.
Speicher- und Dateisysteme
Artikelnummer | Beschreibung | Datenschutz | Stabile Lagerung | Menge |
---|---|---|---|---|
1 | Elastic Block Storage-Volume, Kapazität von 1 TB gp3. Jeder Qumulo-Knoten verfügt über 6 EBS-Volumen. | Schutz für 2 Laufwerke oder 1 Knoten mit Erasure Coding | AWS EBS | 96 |
Anzahl der Dateisysteme | 1 |
---|---|
Gesamtkapazität | 78.54 TB |
Dateisystemtyp | Qumulo |
Hinweise zur Dateisystemerstellung
Das Qumulo Core-Dateisystem wird auf AWS entweder über eine Cloud-Formationsvorlage oder Terraform bereitgestellt. Das Qumulo Core AMI wird bereitgestellt und das Dateisystem wird entweder als Teil des automatisierten Cloud-Bildungsprozesses oder über Terraform konfiguriert. Es sind keine zusätzlichen Schritte zur Dateisystemerstellung erforderlich.
Hinweise zu Speicher und Dateisystem
Keine
Transportkonfiguration – virtuell
Artikelnummer | Transportart | Anzahl der verwendeten Ports | Notizen |
---|---|---|---|
1 | Virtuelle 100-Gbit/s-Ethernet-NIC | 16 | Wird von Client-Computern verwendet |
2 | Virtuelle 100-Gbit/s-Ethernet-NIC | 16 | Wird von Qumulo Core für die Kommunikation zwischen Knoten sowie für die Kommunikation mit beliebigen Clients verwendet. |
Hinweise zur Transportkonfiguration
Keine
Schalter – virtuell
Artikelnummer | Schaltername | Schaltertyp | Gesamtzahl der Ports | Anzahl der verwendeten Ports | Notizen |
---|---|---|---|---|---|
1 | AWS | 100-Gbit/s-Ethernet mit erweiterter Netzwerkfähigkeit | 16 | 16 | Wird von Client-Computern verwendet |
2 | AWS | 100-Gbit/s-Ethernet mit erweiterter Netzwerkfähigkeit | 16 | 16 | Wird von Qumulo Core-Knoten verwendet |
Verarbeitungselemente – virtuell
Artikelnummer | Menge | Typ | Standort | Beschreibung | Verarbeitungsfunktion |
---|---|---|---|---|---|
1 | 1152 | vCPU | c5n.18xlarge Qumulo Core | 3.5 GHz Intel Xeon Platinum Prozessoren | Qumulo Core, Netzwerkkommunikation, Speicherfunktionen |
2 | 1152 | vCPU | c5n.18xlarge Qumulo Core | 3.5 GHz Intel Xeon Platinum Prozessoren | Spec Storage Client Benchmark-Prozessoren |
Verarbeiten von Elementnotizen
Keine
Erinnerung – virtuell
Beschreibung | Größe in GiB | Anzahl der Instanzen | Nicht flüchtig | Gesamt-GiB |
---|---|---|---|---|
AWS EC2 c5n.18xlarge-Instanzspeicher | 192 | 16 | V | 3072 |
AWS EC2 c5n.18xlarge-Instanzspeicher | 192 | 16 | V | 3072 |
Gesamtspeicher-Gibibyte | 6144 |
Erinnerungsnotizen
Keine
Stabile Lagerung
Qumulo Core nutzt Elastic Block Storage (EBS)-Geräte; die für eine stabile Lagerung sorgen.
Lösung unter Testkonfigurationshinweise
Bei der getesteten Lösung handelte es sich um einen standardmäßigen verteilten Cluster, der mit Qumulo Core erstellt wurde. Qumulo Core-Cluster können große und kleine Datei-I/O sowie metadatenintensive Anwendungen verarbeiten. Für unterschiedliche oder gemischt genutzte Workloads ist keine spezielle Optimierung erforderlich.