Erasure Coding (EC) ist eine der bekanntesten Methoden zur Datensicherung, auch aufgrund ihrer Effizienz, da im Vergleich zu RAID- und Spiegelungsstrategien mehr Speicherplatz für Daten zur Verfügung steht.
Was ist Erasure Coding und wie ist es im Vergleich zu RAID- und Mirroring-Datensicherungsschemata? Was sind die Vor- und Nachteile von Erasure Coding im Vergleich zu anderen Methoden zur Datensicherung, wie RAID-Striping und Mirroring? Dieser Blogbeitrag beantwortet diese Fragen und erklärt, wie Qumulo Erasure Coding in seinen lokalen Speicherinstanzen nutzt, um Leistung und Effizienz zu maximieren und gleichzeitig vor Hardwareausfällen zu schützen.
Was ist Löschcodierung?
Erasure Coding ist eine Methode zum Schutz von Speicherdaten, die fortgeschrittene Mathematik nutzt, um einem Speichersystem die Wiederherstellung verlorener Datenblöcke zu ermöglichen, indem die überlebenden Datenblöcke mit den zugehörigen Paritätsblöcken verglichen werden. n.
Erasure Coding vs. RAID: Vor- und Nachteile
Um zu erklären, warum Erasure Coding anderen Methoden des Datenschutzes überlegen ist, hilft es, die verschiedenen Formen des Datenschutzes sowie deren Vor- und Nachteile zu verstehen.
Redundantes Array kostengünstiger Festplatten (RAID)
RAID gibt es schon seit langem. Die einfachste Datenschutzkonfiguration ist RAID1, auch Mirroring genannt. Wie der Name schon sagt, werden beim Mirroring alle Daten gleichzeitig auf zwei (oder mehr) Laufwerke geschrieben, wodurch zwei identische Kopien erstellt werden.
Sollte eine der Festplatten in einer RAID1-Spiegelungskonfiguration ausfallen, können die verlorenen Daten aus dem „Spiegelbild“ wiederhergestellt werden, da jede Kopie auf einer eigenen, unabhängigen Festplatte gespeichert ist. Die Spiegelung ist einfach zu implementieren, hat aber einige Nachteile. Da die Spiegelung mindestens eine redundante Kopie des gesamten Datensatzes erfordert, ist sie im Hinblick auf den für den Datenschutz erforderlichen Speicherplatz verschwenderisch. Außerdem kann die Spiegelung nur einen einzelnen Laufwerksausfall gleichzeitig verarbeiten, was im Allgemeinen keinen ausreichenden Schutz für die meisten Ausfallszenarien bietet, insbesondere bei zunehmenden Clustergrößen.
Neben der Spiegelungsoption von RAID1 bietet der RAID-Standard auch andere Konfigurationen zur Optimierung von Leistung, Schutz oder beidem. Zu den Optionen gehört RAID5, bei dem eine Gruppe von Festplatten (normalerweise 5-10) in einem einzigen Array zusammengebunden ist, wobei eine Festplatte im Set für Paritätsdaten verwendet wird. Ein anderer Ansatz, RAID6 genannt, verwendet denselben grundlegenden Ansatz, reserviert jedoch zwei separate Festplatten im Set für die Speicherung von Paritätsdaten. Eine weitere Konfiguration, RAID10, spiegelt den gesamten Festplattensatz auf einen identischen Festplattensatz.
Jede dieser Optionen bringt ihre eigenen Nachteile mit sich. RAID5 und RAID6 bieten beide eine ausgezeichnete Leseleistung, die Schreibleistung ist jedoch langsamer, da für jeden Schreibvorgang ein oder zwei Paritätsblöcke berechnet werden müssen. Darüber hinaus können diese fortgeschritteneren RAID-Konfigurationen extrem komplex und schwierig zu verwalten und zu warten werden. Und im Falle eines Komponentenausfalls können die Wiederherstellungszeiten bei RAID inakzeptabel lang sein, was die Leistung für Benutzer erheblich beeinträchtigt.
Löschcodierung
Der On-Premises-Speicherstapel von Qumulo umfasst den Qumulo Skalierbarer Blockspeicher (SBS), die Grundschicht, die einen effizienten blockbasierten Datenschutz mit Erasure Coding statt RAID ermöglicht.
Im Gegensatz zu RAID-Striping oder -Mirroring bietet Erasure Coding skalierbaren Schutz für die Speicherung großer Datenmengen. Erasure Coding bietet bessere Leistung, mehr Flexibilität und höhere Effizienz und ermöglicht unbegrenztes Wachstum bei gleichzeitiger Aufrechterhaltung des vollständigen Datenschutzes und der Reaktionsfähigkeit in einem lokalen Qumulo-Cluster.
Der Erasure-Coding-Algorithmus von Qumulo basiert auf Reed-Solomon Fehlerkorrekturprinzipien, Maximierung von Leistung und Effizienz durch etablierte Best Practices. Darüber hinaus bietet Qumulo Adaptiver Datenschutz Support bedeutet, dass das Erasure-Coding-Framework Ihres Qumulo-Clusters für mehr Effizienz angepasst werden kann, wenn Ihr Cluster wächst.
Erasure Coding erklärt (Beispiele)
Erasure Coding lässt sich am einfachsten anhand von Beispielen verstehen. Hier ist ein Beispiel unseres 3,2-Kodierungsalgorithmus:
Bei einer 3,2-Kodierung werden drei Blöcke (m = 3) auf drei verschiedene physische Geräte verteilt. Die Blöcke 1 und 2 enthalten die Benutzerdaten, die wir schützen möchten (n = 2), und der dritte Block enthält Paritätsdaten. Der Inhalt des Paritätsblocks wird mithilfe des Erasure-Coding-Algorithmus berechnet.
Da jeder Block auf ein separates Laufwerk geschrieben wird, kann jedes der drei Laufwerke ausfallen und die in den Blöcken 1 und 2 gespeicherten Informationen sind weiterhin sicher, da sie aus dem Paritätsblock wiederhergestellt werden können.
So funktioniert Erasure Coding
Und so funktioniert es: Wenn Datenblock 1 vorhanden ist, liest das System ihn einfach. Dasselbe gilt für Datenblock 2. Wenn Datenblock 1 jedoch fehlt, liest das Erasure-Coding-System Datenblock 2 plus den Paritätsblock und rekonstruiert den Wert von Datenblock 1.
Wenn sich Datenblock 2 auf der ausgefallenen Platte befindet, liest das System ähnlich den Datenblock 1 und den Paritätsblock. SBS stellt immer sicher, dass sich die Blöcke auf verschiedenen Spindeln befinden, damit das System gleichzeitig von Blöcken lesen kann.
Eine 3,2-Kodierung hat eine Effizienz von 2 / 3 (n/m) oder 67 %. Obwohl es besser ist als die 50%ige Effizienz der Spiegelung, kann die 3,2-Codierung immer noch nur vor einem einzelnen Festplattenausfall schützen.
Erasure Coding bietet konfigurierbaren Datenschutz
Erasure Coding kann so konfiguriert werden, dass die Leistung optimiert, die Wiederherstellungszeit bei ausgefallenen Medien optimiert oder für mehr Ausfallsicherheit optimiert wird – bis zu vier ausgefallene Festplatten oder vier ausgefallene Knoten gleichzeitig. Im Allgemeinen geht ein erhöhter Schutz auf Kosten der nutzbaren Kapazität.
Qumulo verwendet mindestens eine 6,4-Kodierung, die ein Drittel mehr Benutzerdaten auf dem gleichen Speicherplatz wie die Spiegelung speichert und die Fähigkeit hat, zwei Festplattenfehler zu tolerieren, anstatt nur einen wie bei Spiegelung oder 3,2. In einer 6,4-Konfiguration muss das System, selbst wenn zwei Blöcke mit Benutzerdaten nicht verfügbar sind, nur die zwei verbleibenden Datenblöcke und die beiden Paritätsblöcke lesen, um die fehlenden Daten wiederherzustellen.
Also, was bedeutet das alles?
Qumulos einzigartige Erasure Coding-Technologie arbeitet auf Blockebene und nicht auf Dateiebene wie andere Dateiplattformen. Sie ermöglicht nicht nur einen effektiven Schutz der Daten, ohne dass eine 1:1-Kopie des gesamten Datenvolumens erstellt werden muss, sondern bedeutet auch, dass die Größe der Dateien keinen Einfluss auf die Kodierungs- und Wiederherstellungszeiten hat. Egal, ob die Dateien riesig oder winzig sind, die Kodierungs- und Wiederherstellungsleistung ist nicht nur schnell, sondern auch zuverlässig.
Bei anderen Systemen kann die Wiederherstellung nach einem Ereignis Stunden bis Tage oder länger dauern, abhängig von der Mischung der im Cluster gespeicherten Dateigrößen. Qumulo stellt unabhängig von der Mischung der gespeicherten Dateidaten schnell und zuverlässig wieder her, ohne die Leistung zu beeinträchtigen. Dadurch können Qumulo-Kunden auch die größten und wirtschaftlichsten Laufwerke auf dem Markt ohne Risiko nutzen.
Datenschutz auf den Cloud-nativen Instanzen von Qumulo!
Der Scalable Block Store verwaltet Erasure Coding nur auf physischen (lokalen) Qumulo-Clustern. Cloud-native Qumulo-Instanzen wie Azurblaues natives Qumulo (ANQ) basieren auf den persistenten Datendiensten des Cloud-Anbieters, beispielsweise Azure Blob Storage.
Anmerkung des Herausgebers: Dieser Blogbeitrag wurde ursprünglich am 3. November 2021 veröffentlicht und seitdem hinsichtlich seiner Genauigkeit und Vollständigkeit aktualisiert.