Was macht das Scale-Out-Dateisystem von Qumulo auf AWS einzigartig? (Teil 1)

16. Februar 2022

Geschrieben von:

Qumulo-Team

In dieser zweiteiligen Serie erfahren Sie, was das hochleistungsfähige, skalierbare Qumulo Cloud Q-Dateisystem auf AWS einzigartig macht.

Diese zweiteilige Serie untersucht, was das verteilte Scale-out-Dateisystem von Qumulo einzigartig macht AWS. In Teil 1 unten erfahren Sie, wie die Qumulo-Wolke Q Die Softwarearchitektur ist auf Leistung und dynamische Skalierbarkeit ausgelegt und unterstützt den Multiprotokoll-Dateizugriff für Hochleistungs-Workloads, die in der Cloud oder in hybriden Cloud-Umgebungen ausgeführt werden. In Teil 2 konzentrieren wir uns auf wie Objekte zwischen S3-Buckets und -Clustern kopiert werden.

Warum Enterprise File Services in der Cloud benötigt werden

Angesichts des schnellen Wachstums unstrukturierter Daten, ständig steigender Speicherkapazitätsanforderungen und strenger Budgets stoßen IT-Abteilungen auf ein Rechenzentrumsproblem – Investitionsausgaben und mangelnde Skalierbarkeit sind ein Hindernis für Innovationen und werden immer schwieriger zu rechtfertigen. Die Cloud-Migration ist die offensichtliche Lösung für unbegrenzte Leistung und Speicherskalierbarkeit und zu Kostenkontrolle für eine leistungsstarke Datenstrategie.

Lift-and-Shift-Cloud-Migration

Unternehmen auf der ganzen Welt entscheiden sich dafür, ihre Daten und Anwendungen in die Cloud zu verlagern, aber für viele stellt sich die Frage, wie sie das schnell und mit minimalem Risiko erreichen können. Einer der schnellsten Cloud-Migration Methode ist „Lift and Shift“, was bedeutet, dass vorhandene Anwendungen ohne größere Neugestaltungen auf die Workloads verschoben werden. Und da die meisten On-Premises-Anwendungen mit Dateisystemen für Unix/Linux und/oder Windows arbeiten, werden Dateisysteme der Enterprise-Klasse in der Cloud benötigt.

Die Herausforderungen bei der Migration von Unternehmensdaten in die Cloud

Wenn Organisationen migrieren Petabyte-Maßstab, hohe Rechenleistung Workloads in die Cloud, stehen sie vor einzigartigen Herausforderungen, einschließlich der Wahl eines skalierbaren Systems Datenspeicherlösung für Unternehmen in der Lage, High-Performance Computing (HPC)-Workflows und -Anwendungen mit Daten in ihrer nativen Form zu speichern, zu verwalten und zu erstellen.

Bei der Migration von dateisystemabhängigen Workloads in die Cloud benötigen CIOs und Systemadministratoren eine Lösung, die die folgenden Migrationsherausforderungen angeht:

Der Zugriff auf die Daten soll von jedem Protokoll gleichzeitig möglich sein
Berechtigungen und ACLs sollten transparent zwischen POSIX und Windows und möglicherweise anderen Protokollen wie FTP oder HTTP „übersetzt“ werden
Die Lösung sollte über Unternehmensfunktionen verfügen, die Speicheradministratoren lokal verwenden, wie z. B. Snapshots, Kontingente, Kerberos-Integration und UID/SID-Zuordnung
Gleichzeitig sollte die Lösung softwaredefiniert mit Cloud-nativer Integration sein; zum Beispiel automatisierte Umsetzung durch Cloud Formation Templates oder Terraform sowie die Integration mit Amazon CloudWatch
Die Lösung sollte sein skalierbaren und ermöglichen eine Kapazitäts- und Leistungserweiterung in Echtzeit ohne Dienstunterbrechung
Das System sollte damit umgehen können Milliarden von Dateien ohne dass Baumwanderungen für bestimmte Vorgänge wie Backups, Analysen oder die Erstellung von Usability-Statistiken durchgeführt werden müssen
Die Lösung sollte SMB, NFS und manchmal FTP unterstützen
Unternehmen mit einer Multi-Cloud-Strategie möchten eine ähnliche Dateilösung für alle Clouds mit denselben APIs, Verwaltung, Cloud-Integration, Leistungsstufen, Backup-Methoden, Zugriffsprotokolle usw.
Im Idealfall ermöglicht die Lösung das Verschieben von Daten zwischen dem Dateisystem und Amazon Simple Storage Service (S3), da sich ihr zentrales Datenrepository in vielen Fällen in S3 befindet
Alternativ können sie Daten im Dateisystem haben, die sie mit einem nativen Amazon-Service verarbeiten möchten, der mit Dateidaten in S3 arbeitet
Das Dateisystem sollte eine Hybrid-Cloud-Umgebung unterstützen, um Daten einfach lokal in die Cloud zu verschieben
Idealerweise beinhaltet die Lösung Leistungs- und Kapazitätsanalysen in Echtzeit um Einblicke in Nutzungsmuster, Auslastung und Kostenoptimierung zu erhalten

Qumulo erkannte, dass ältere Scale-out- und Scale-up-Lösungen nicht darauf ausgelegt waren, die heutigen Datenmengen, Dateitypen, Anwendungen und Workloads zu bewältigen. Herkömmliche Datenspeichersysteme können einfach keinen Weg in die Cloud bieten – also haben wir einen besseren entwickelt.

Im Folgenden beschreiben wir, wie die Qumulo Core Software adressiert diese Anforderungen lokal und in der Cloud. Wir untersuchen im Detail, wie unser einzigartiger Hybrid-Cloud-Ansatz Migrationen von unstrukturierten Daten zu AWS und verwandten Anwendungen erheblich vereinfacht, sodass Sie Daten nahtlos zwischen Ihrem Rechenzentrum und Cloud-Umgebungen verwalten können.

Eine Cloud-native Dateispeicherlösung, die auf EC2, EBS und S3 basiert

Qumulo Cloud Q für AWS ist eine Cloud-native Dateispeicherlösung, die auf Amazon Elastic Compute Cloud (EC2), Amazon Elastic Block Store (EBS)-Volumes und Amazon Simple Storage Service (S3) aufbaut. Es bietet viele interessante Funktionen, die über andere Datenspeicherlösungen für Unternehmen hinausgehen, darunter:

AWS-Außenposten Support
Erhältlich in AWS GovCloud (USA)
Scale-out-Architektur: Skalierung auf 100 Instanzen, derzeit etwa 30+ PB in einem einzigen Namespace
Ultrahoher aggregierter Durchsatz mit niedrigen Latenzen von durchschnittlich etwa 1 ms
Multiprotokoll: Auf Dateien kann gleichzeitig über NFS/SMB/FTP/HTTP zugegriffen werden
Natives und verzeichnisbasiertes Kopieren von Dateidaten in einen S3-Bucket und zurück
Vollständig programmierbare API
Erweitertes CFT für automatisierte Bereitstellungen
Kerberos/Active Directory-Integration
Snapshot-Integration
Echtzeitkontingente
Multi-Cloud-Replikation und On-Premises-zu-AWS-Replikation

Wie ist das Qumulo Core-Dateisystem aufgebaut?

Der Qumulo-Kern hybrides Cloud-Dateisystem ist als User Space-Anwendung aufgebaut, die auf einer abgespeckten Ubuntu LTS-Version läuft, die häufig aktualisiert wird. Es ist ein geclustertes System, das mit 4 Knoten beginnt und bis heute auf 100 Knoten skaliert. Der kleinste Cluster kann nur 1 TB groß sein, während die größte Bereitstellung derzeit 30.5 PB an Daten hosten kann. Die Bereitstellung erfolgt über bereitgestellt AWS CloudFormation-Vorlagen und dem AWS-Schnellstart für Qumulo Cloud Q.

Das folgende Bild zeigt einen minimalen Stack, der über eine CFT bereitgestellt wird, die den Prinzipien des AWS Well Architected Framework entspricht.

Lass es uns aufteilen: Als Best Practice wird ein Qumulo-Cluster in einem privaten Subnetz bereitgestellt. Unterstützte Instanztypen von m5 und c5n werden derzeit unterstützt und der Instanztyp bestimmt in hohem Maße die Leistung (mehr zur Leistung später). Der Speicherplatz besteht aus EBS-Volumes. Je nach Knotentyp sind Volumes entweder GP2-Volumes (All-Flash-Knoten) oder eine Mischung aus GP2 und SC1 oder ST1 (Hybrid-Knoten). Jeder Knoten erhält eine statische interne IP-Adresse und normalerweise 3 Floating-IP-Adressen, die auf die verbleibenden Knoten umschalten, wenn ein Knoten ausfallen sollte. Optional kann der Cluster auch mit einer elastischen IP pro Knoten konfiguriert werden, wenn öffentliche IP-Adressen benötigt werden.

Eine Lambda-Funktion wird bereitgestellt, um alle EBS-Volumes zu überprüfen und automatisch zu ersetzen, wenn ein oder mehrere EBS-Volumes ausfallen. Eine weitere Lambda-Funktion sammelt detaillierte Metadatenmetriken aus dem Cluster und speichert sie in Amazon CloudWatch-Protokollen.

Ein Dateisystem für AWS, das auf Leistung und Skalierbarkeit ausgelegt ist

Single-Stream-Durchsatz, Lesen oder Schreiben, ist auf 600 MB/s oder weniger begrenzt, wenn ein Instance-Typ und eine EBS-Konfiguration diese Obergrenze nicht unterstützen. Diese Zahl entspricht dem AWS-5-Gbit/s-Einzel-TCP-Flussratenlimit, das außerhalb einer EC2-Platzierungsgruppe erzwungen wird. Dieser Wert könnte nur überschritten werden, wenn Cluster-Knoten und Rechenknoten in derselben Platzierungsgruppe bereitgestellt werden (standardmäßig wird Qumulo in einer Cluster-Platzierungsgruppe bereitgestellt, um die Latenz zwischen den Cluster-Knoten zu minimieren).

Multi-Stream-Leistung variiert je nach EBS-Volume-Konfiguration und EC2-Instance-Typ. Kleinere Instance-Typen haben weniger Netzwerkbandbreite und weniger EBS-Bandbreite, wodurch sie Burst-Gutschriften unterliegen. Kleinere EBS-Konfigurationen unterliegen ebenfalls Burst-Gutschriften. Für garantierte Leistung entsprechend der Baseline IOPS, wählen Sie mindestens einen c5n.4xlarge-Instance-Typ aus. Passen Sie dann den Instance-Typ an, um den Durchsatz zu erhöhen. All-Flash-Architekturen sollten für Workloads mit hohem Durchsatz gewählt werden, insbesondere in Clustern mit kleinerer nutzbarer Kapazität, oder für hoch zufällige Workloads. IOPS ist ein weiterer Faktor, der für Workloads mit kleinen Dateien oder Cluster mit kleiner nutzbarer Kapazität zu berücksichtigen ist.

Erfahren Sie mehr auf GitHub: Qumulo Cloud Q QuickStart – Dimensionierung und Leistung auf AWS (PDF)

Das folgende Diagramm zeigt die Multi-Stream-Leistung für eine All-Flash-Konfiguration, bei der jeder Knoten 8 TiB Daten hostet (bitte beachten Sie, dass die y-Achse den Durchsatz in MB/s auf einer logarithmischen Skala anzeigt):

Die folgenden Statistiken zeigen die aggregierte Leselatenz über die globale Installationsbasis von Qumulo. Diese globale Installationsbasis umfasst etwa 70 % Hybridknoten (HDD und SSDs) von Clustern in der Cloud und lokal. Selbst bei der Mehrheit der Knoten, die Daten auf Festplatten hosten, werden 90 % aller Leseanforderungen mit Latenzen von weniger als 1 ms bedient. Dies ist ein Ergebnis des intelligenten prädiktiven Caching-Algorithmus von Qumulo. Es ermöglicht schnelle Lesevorgänge, identifiziert E/A-Muster und ruft nachfolgende verwandte Daten von der Festplatte in SSDs oder Speicher vorab ab.

Multiprotokoll-Dateizugriff

Qumulo Protokollübergreifende Berechtigungen (XPP) verwaltet automatisch Dateizugriffsberechtigungen über Protokolle hinweg. XPP ermöglicht gemischte SMB- und NFS-Protokoll-Workflows, indem es SMB-Zugriffssteuerungslisten (ACLs) beibehält, die Vererbung von Berechtigungen aufrechterhält und die Anwendungsinkompatibilität in Bezug auf Berechtigungseinstellungen reduziert.

XPP wurde entwickelt, um als solches zu funktionieren:

Wo es keine protokollübergreifende Interaktion gibt, arbeitet Qumulo genau nach Protokollspezifikationen.
Wenn Konflikte zwischen Protokollen auftreten, arbeitet XPP daran, die Wahrscheinlichkeit von Anwendungsinkompatibilitäten zu minimieren.
Durch das Aktivieren von XPP werden die Rechte an vorhandenen Dateien in einem Dateisystem nicht geändert. Änderungen können nur auftreten, wenn Dateien geändert werden, während der Modus aktiviert ist.

Qumulo XPP verwaltet einen internen Satz von ACLS für jede Datei und jedes Verzeichnis, das viele Zugriffskontrolleinträge (ACES) enthalten kann, und baut somit eine komplexe Rechtestruktur auf, genau wie Windows oder NFSv4.1. (Diese internen ACLS werden als QACLS bezeichnet.) Sobald eine Datei Zugriff über SMB oder NFS erhält, werden die Berechtigungen in Echtzeit in die entsprechenden Protokollberechtigungen übersetzt oder erzwungen.

Weitere Informationen finden Sie in unserem Artikel in der Qumulo-Wissensdatenbank wie man Cross-Protocol Permissions (XPP) in Qumulo Core nutzt.

Qumulo bietet eine Reihe von Tools, die zusammenarbeiten, um die interne QACL-Struktur abzufragen. Beispielsweise liefert der CLI-Befehl qq fs_get_acl eine Liste der tatsächlichen QACLs einer bestimmten Datei oder eines bestimmten Verzeichnisses:

# qq fs_get_acl --path / Control: Present Posix Special Permissions: None</var/www/wordpress>

Permissions: Position Trustee Type Flags Rights ======== =========== ======= ===== ================================================ 1 local:admin Allowed Delete child, Execute/Traverse, Read, Write file 2 local:Users Allowed Delete child, Execute/Traverse, Read, Write file 3 Everyone Allowed Delete child, Execute/Traverse, Read, Write file</var/www/wordpress>

Ein weiterer interessanter Befehl ist:

#qq fs_acl_explain_posix_mode --path /</var/www/wordpress>

Die Ausgabe erklärt im Detail, wie Qumulo den angezeigten POSIX-Modus aus der ACL einer Datei erzeugt hat. Bitte beziehen Sie sich auf Cross-Protocol (XPP) Erläutern Sie Berechtigungstools um ein Ausgabebeispiel zu studieren.

Als nächstes: Die Bedeutung der Datenmobilität zwischen Clustern und Amazon S3

Jetzt haben wir Ihnen gezeigt, was es ausmacht Qumulo-Wolke Q Ein einzigartiges Dateisystem auf AWS und wie es einige der häufigsten Herausforderungen bei der Migration von Unternehmensdaten in die Cloud löst, erfahren Sie in Teil 2 wie Objekte zwischen S3-Buckets und -Clustern kopiert werden mit Qumulo Shift. Wir werfen einen Blick auf hohes Niveau die Bedeutung der Replikation und Datenbewegung zwischen Rechenzentrumsclustern und Amazon S3; Außerdem stellen wir drei Optionen zur Bereitstellungsautomatisierung vor, mit denen Sie die Cloud-Migration vereinfachen können.

Geschrieben von Dr. Stefan Radtke, CTO, Qumulo, und Jason Westra, Solution Architect, AWS.

Die drei wichtigsten Vorteile der Skalierung von Azure Virtual Desktops mit Azure Native Qumulo Storage

Die Kosten für Azure Virtual Desktop sind zu hoch, wenn Sie mit Azure Files starten.

Produkte

Anwendungsbeispiele

Industriesektoren

Partner

Loslegen

Folgen Sie uns

Unternehmen

Qumulo-Vertrauen

Unsere größte Veröffentlichung