Azure Native Qumulo jetzt in der EU, im Vereinigten Königreich und in Kanada verfügbar – Erfahren Sie mehr

Qumulos Vision für den Cloud Data Lake

Geschrieben von:
Die Public Cloud hat die Wirtschaftlichkeit und Wettbewerbsdynamik nahezu jeder Branche grundlegend verändert. CIOs und CEOs, von den kleinsten Start-ups bis zu den größten multinationalen Konzernen, ringen mit den Auswirkungen der unbegrenzten Infrastruktur und Dienste, die ihnen und ihren Konkurrenten mit nur wenigen Befehlen und einer Kreditkarte zur Verfügung stehen.

Die Weichen stellen: Die Entstehung des Cloud Data Lake

Das Öffentliche wolke hat die Wirtschafts- und Wettbewerbsdynamik nahezu jeder Branche grundlegend verändert. CIOs und CEOs, von den kleinsten Startups bis zu den größten multinationalen Unternehmen, ringen mit den Auswirkungen der unbegrenzten Infrastruktur und Dienste, die ihnen und ihren Konkurrenten mit nur wenigen Befehlen und einer Kreditkarte zur Verfügung stehen. Barrieren für den Eintritt in neue Märkte fallen und die Markteinführungszeit für neue Produkte wird immer kürzer, was Führungskräfte sowohl aufgeregt als auch verängstigt macht.

Unstrukturierte Daten stehen im Mittelpunkt dieser grundlegenden Veränderungen. Bilder, Videos, Protokolldateien, Genome, Karten und Textdateien sind die Rohstoffe, die von diesen Unternehmen verwendet werden, um neue Innovationen zu schaffen. Denken Sie an ein Forschungsrechenzentrum an einer der größten Universitäten der Welt. Diese Gruppe dient Wissenschaftlern aus der ganzen Welt, die versuchen, die Ursprünge unserer Sonne und die Mutationen eines Gens zu verstehen. Für dieses Forschungszentrum definiert sich der Erfolg dadurch, dass es die talentiertesten Wissenschaftler anzieht, um die größten Probleme anzugehen. Die Elastizität der öffentlichen Cloud macht dies möglich, indem sie es dem Zentrum ermöglicht, mit wenigen Codezeilen neue Rechen- und Speicherressourcen für ihre besten Forscher zu erstellen und ihre Endergebnisse weltweit zu teilen.

Aber damit diese Elastizität funktioniert, benötigt das Forschungszentrum eine zugängliche Datenschicht, die offen genug ist, um die Zusammenarbeit zu fördern, aber kontrolliert genug, um geistiges Eigentum zu schützen. Die Public Clouds haben dieses Problem mit einer bekannten Architektur namens „Data Lake“ gelöst. Diese großen unstrukturierten Datenspeicher kombinieren mehrere Datenquellen in einem Pool, der von gemeinsam genutzten Verwaltungssystemen überwacht und gesteuert wird. Mit den richtigen Berechtigungen kann jeder Forscher von überall aus auf diese Daten zugreifen, um seine Experimente durchzuführen. 

Die Herausforderung: Dateibasierte Daten

Der Cloud Data Lake funktioniert gut für viele Arten von Daten. Wenn die Daten größtenteils fertig sind (dh sie werden sich nicht sehr stark ändern), anwendungsunabhängig sind und ein seltenes oder nur Streaming-IO-Muster aufweisen, funktioniert der Cloud Data Lake gut. Allerdings passen nicht alle unstrukturierten Daten in dieses Schema. Einige Daten werden von einer dateibasierten Anwendung erstellt und verarbeitet, ändern sich während der Verarbeitung häufig und weisen ein E/A-Muster für „kleine Aktualisierungen“ auf (wobei die Datei im Laufe eines Workflows wiederholt geändert wird). Diese Datentypen werden vom Legacy-Cloud-Data Lake fehlgeschlagen.

Nehmen Sie zum Beispiel die Videos und Bilder, die moderne Studios verwenden, um einen Film zu erstellen. Ähnlich wie bei dem zuvor besprochenen Beispiel des Forschungszentrums konkurriert das moderne Studio um die talentiertesten Künstler und nutzt die Elastizität der Cloud, um diese professionellen Magier zu jeder Tageszeit und ohne Verzögerung produktiv zu machen. Die Anwendungen, die Rohbilder und Videos bearbeiten und in einen Film umwandeln, sind jedoch dateibasiert, und der Arbeitsablauf des Künstlers besteht aus vielen Änderungen an vielen Dateien, während sich der Film durch die digitale Produktionslinie bewegt. Ein Legacy-Cloud-Data-Lake, der beispielsweise ausschließlich auf Amazon S3 aufgebaut ist, wird diese Workload nicht gut erfüllen.

Die Aufschlüsselung ist sowohl technisch als auch wirtschaftlich. Die technische Herausforderung liegt im Herzen des aktuellen Ansatzes für Data Lakes. Die meisten Cloud-Anbieter bauen ihre Data Lakes um Objektsysteme (z Amazon S3). Obwohl sie stark skalierbar und hochgradig anpassbar sind, gehen diese Systeme grundsätzlich davon aus, dass einzelne Objekte „unveränderlich“ sind. Diese Annahme liegt im Herzen aller Objektsysteme. Wenn Änderungen an einem Objekt vorgenommen werden, aktualisieren sie das Objekt nicht, sie zerstören das Objekt und erstellen es neu. Für einen dateibasierten Workflow ist dies ein echtes Problem, da dateibasierte Anwendungen davon ausgehen, dass die zugrunde liegenden Daten wiederholt geändert werden. Ohne diese Annahme treffen zu können, müssen unser Forschungszentrum und unser Filmstudio ihre Anwendungen überarbeiten oder ihre Endbenutzer bitten, ihre Arbeitsabläufe zu ändern. Beides erschwert es diesen Organisationen, die besten Talente in ihren Branchen anzuziehen.

Der wirtschaftliche Zusammenbruch hat mit den Preismodellen der Cloud zu tun Objektspeicher Dienstleistungen. Die großen Object-Storage-Dienste berechnen den Kunden einzelne Vorgänge für ihre Daten. Nehmen Sie als Beispiel einen relativ kleinen Objektdatensatz von 20 TB. In Amazon S3 betragen die Kosten für die Speicherung dieser Daten nur ~420 $/Monat, und wenn auf die Daten nur selten zugegriffen wird, ist dies die einzige Rechnung, die das Forschungs- oder Filmstudio sehen wird. Sobald jedoch kleine zufällige IO gegen die Daten ausgeführt werden, kann diese Rechnung auf über 100,000 $/Monat explodieren. Der Grund ist einfach: Änderungen pro IO. Solange der Datensatz das Herzstück einer IOPS-intensiven Arbeitslast ist, bricht das wirtschaftliche Modell des heutigen Cloud Data Lake zusammen.

Ein Weg nach vorn: Der Cloud File Lake

Dateibasierte Anwendungen werden am besten durch dateibasierte Speicherung bedient. Diese Anwendungen sind unternehmenskritische Wegbereiter für Innovation und erfordern eine Infrastruktur, die für ihren Erfolg ausgelegt ist. Aus diesem Grund existieren Dateisysteme seit Jahrzehnten und werden ständig neue Dateisysteme (und Dateidienste) entwickelt. Wir glauben, dass der moderne Data Lake ein skalierbares, performantes und Cloud-natives Dateisystem als Teil seiner grundlegenden Architektur enthalten sollte.

Diese „Cloud File Lakes“ würden Kunden die Möglichkeit bieten, Dateidaten so zu speichern, wie sie gespeichert werden sollten: als Dateien. Dieser neue Ansatz für den Data Lake erstellt einen einzigen skalierbaren Dateinamensraum in einer öffentlichen Cloud mit den Funktionen und Fähigkeiten eines modernen Dateisystems wie z Qumulo Core. Dadurch können Kunden:

  • Verwenden Sie die Anwendungen, die ihre talentierten Endbenutzer erwarten (und kennen) und bauen Sie ihre Anwendungen nicht für Objekte neu auf
  • Schützen Sie geistiges Eigentum mit Standardmethoden für den Identitätszugriff, die sich in jedem modernen Unternehmen bewährt haben (z. B. Active Directory).
  • Teilen Sie Daten über Organisationsgrenzen hinweg mithilfe der Reichweite der Cloud, während Sie die Organisationsstruktur ihrer Dateisysteme beibehalten

Schließlich, und vielleicht am wichtigsten, bietet ein „Cloud File Lake“ kostenlosen Zugriff. IO zu einer bestimmten Datei in einem Cloud File Lake ist in den Kosten des Namespace enthalten. Dadurch ist es möglich, hohe IO-Workloads in der Public Cloud zu vernünftigen Kosten auszuführen, ohne befürchten zu müssen, dass ein aktiver Benutzer oder eine aktive Anwendung eine budgetbrechende Rechnung verursacht.

Die Anforderungen: Worauf in einem File Lake zu achten ist

Ein echter Cloud File Lake muss im Kern ein skalierbares Dateisystem sein. Um große Datei-Workloads zu bedienen, muss der Cloud File Lake in Kapazität und Leistung wachsen können, um die Anforderungen des Workflows zu erfüllen. Gleichzeitig muss es die Kernfunktionen eines bieten Datenspeicherlösung für Unternehmen erforderlich, um mehrere Workloads zu bedienen. Einige Schlüsselfunktionen sind unserer Meinung nach für jeden Cloud File Lake von zentraler Bedeutung:

  • Skalierung auf Petabyte, Hunderte von GB/s und Hunderttausende von IOPS in einem einzigen Namespace
  • Bedienen Sie Windows-, Linux- und Mac-Clients (und -Anwendungen) ohne Anpassungen und aus demselben Namespace
  • Bieten Sie standardmäßige Dateiverwaltungstools für Unternehmen wie Kontingente und Snapshots an, damit Administratoren Daten schützen und Kostenüberschreitungen vermeiden können
  • Integrieren Sie Active Directory und LDAP und bieten Sie eine granulare Berechtigungskontrolle (für Windows/Mac/Linux) an, um das Risiko geistigen Eigentums zu kontrollieren
  • Vollständig über eine API oder eine Befehlszeile verwaltbar sein, sodass der File Lake von standardmäßigen Orchestrierungstools wie CFTs erstellt, gemeldet und verwaltet werden kann

Schließlich sollte ein Wolkendateisee nicht auf einer Insel leben. Ob durch native Features oder einfache Integration mit Lambda-Funktionen, ein Cloud File Lake sollte Kunden dazu befähigen Importieren Sie Daten aus S3 oder anderen Cloud-Objektspeichern zur Verarbeitung und zum Exportieren von Daten in Objektdatenseen, wenn die dateibasierte Arbeit erledigt ist.

Qumulo: Der erste Cloud-File-Lake

Qumulo hat die letzten Jahre damit verbracht, ein skalierbares Cloud-natives Dateisystem aufzubauen. Unser Produkt kombiniert die umfassenden Unternehmenssteuerungen eines modernen Dateiprodukts mit der Skalierbarkeit einer verteilten Shared-Nothing-Architektur in einem Cloud-nativen Paket. Unsere Kunden verwenden unser Produkt, um Filme zu erstellen, Genome zu sequenzieren und Unterwasserböden zu kartieren.

Qumulo bietet ein einzelnes Dateisystem mit folgenden Vorteilen:

Das ist natürlich erst der Anfang; wir sind noch nicht fertig. Wir arbeiten hart daran, weitere Funktionen zu entwickeln, die den File Lake noch leistungsfähiger machen und die Leistung Ihrer Cloud-Datei-Workloads entfesseln. Als Qumulo-Cloud-Abonnent erhalten Sie natürlich kostenlosen Zugriff auf all diese Funktionen, indem Sie sich einfach anmelden. 

Zusammenfassung

Innovationsorientierte Organisationen auf der ganzen Welt wenden sich der Public Cloud zu, um neue Produkte zu entwickeln, neue Entdeckungen zu machen und ihre Missionen zu erfüllen. Im Mittelpunkt dieser Arbeit stehen dateibasierte Daten. Wir bei Qumulo glauben, dass diese Workloads am besten von einem Data Lake bedient werden, der auf einer Technologie basiert, die das Potenzial dieser Dateidaten freisetzt.

Verwandte Artikel

Nach oben scrollen