Einleitung
Im Zeitalter künstlicher Intelligenz (KI) und maschinellen Lernens (ML) ist die effiziente Verarbeitung riesiger Mengen unstrukturierter Daten ein Muss. Unternehmen und Behörden nutzen KI zunehmend, um Erkenntnisse zu gewinnen, Abläufe zu verbessern und Innovationen voranzutreiben. Herausforderungen beim Datenmanagement können KI-Initiativen jedoch behindern, insbesondere in Hybrid- und Multi-Cloud-Umgebungen. Die Qumulo Cloud Data Platform begegnet diesen Herausforderungen, indem sie eine nahtlose, leistungsstarke Lösung für die KI-Datenbeschleunigung in der öffentlichen Cloud bietet.
Übersicht zur Qumulo Cloud Data Platform
Die Qumulo Cloud Data Platform ist eine umfassende Lösung, die die Datenspeicherung und -verwaltung in lokalen und öffentlichen, privaten und hybriden Cloud-Umgebungen vereinheitlicht. Sie besteht aus drei Kernkomponenten:
- Vor-Ort-Qumulo-Cluster: Diese werden in Rechenzentren, Forschungscampus, Krankenhäusern und anderen großen Standorten eingesetzt und hosten Exabyte an unstrukturierten Datei- und Objektdaten. Sie bieten Hochleistungsspeicher, der für große Arbeitslasten in allen Preis-Leistungs-Verhältnissen optimiert ist.
- Cloud-native Qumulo-Instanzen: Diese Instanzen werden bei großen Cloud-Anbietern wie AWS, Azure, Google Cloud Platform (GCP) und Oracle Cloud Infrastructure (OCI) eingesetzt und erweitern die Funktionen von Qumulo auf die Cloud. Sie ermöglichen skalierbare und flexible Datenspeicherlösungen mit einer Leistung, die mit parallelen Dateisystemen vergleichbar ist, aber einer Wirtschaftlichkeit, die mit lokalen Speicherangeboten vergleichbar ist.
- Globales Datengewebe: Dies ist das Daten-Backbone, das die lokalen und Multi-Cloud-Instanzen in ein zusammenhängendes System integriert. Dies ermöglicht die Einführung jedes KI-Modells und/oder -Dienstes, um gleichzeitig auf dieselben Daten zuzugreifen, unabhängig davon, ob sich die GPUs vor Ort oder in der Cloud befinden, je nach Verfügbarkeit und Preis. Es bietet:
- Streng konsistenter globaler Namespace (GNS): Stellt die Datenkonsistenz über alle Standorte hinweg sicher.
- Edge-Lese-/Schreib-GNS-Caching: Bietet latenzarmen Zugriff auf häufig verwendete Daten am Edge und über geografisch verteilte Rechenzentren, Clouds oder eine Kombination aus beidem hinweg.
- Geclustertes Lesen/Schreiben, persistentes Datenspeicher-Caching: Verbessert die Leistung durch Zwischenspeichern von Daten näher an den Rechenressourcen und reduziert die Transaktionskosten der S3/Blob/GCS-API.
- Netzwerkbewusste Dienstqualität und effiziente Netzwerknutzung: Diese Technologie optimiert den Datentransfer über Weitverkehrsnetze (WANs) basierend auf den Netzwerkbedingungen.
Beschleunigung von KI-Workloads
Intelligente Datenverschiebung
Die Qumulo Cloud Data Platform ermöglicht eine intelligente und effiziente Datenbewegung über das Global Data Fabric. Daten können auf Blockebene von jedem beliebigen Standort aus bei Bedarf gestreamt und über das WAN an Cloud-basierte Lese-/Schreibcluster übermittelt werden. Diese Cluster verwenden kostengünstigen, langlebigen S3-Speicher als Persistenzschicht und intelligentes Caching auf einer an eine NVMe-Instanz angeschlossenen Festplatte in EC2. Auf diese Weise sind Daten sofort verfügbar, um GPU-Instanzen mit Geschwindigkeiten zu versorgen, die herkömmliche Cloud-basierte Dateispeicherangebote nicht erreichen.
Leistungsverbesserungen
- Reduzierte GPU-Ausführungszeit: Qumulo verbessert die GPU-Ausführungszeit um bis zu 40 %, indem es den Datentransfer vom Cloud Native Qumulo-basierten Dateispeicher zum in der Cloud gehosteten GPU-System beschleunigt und so die Phase des Datenkopierens von S3 auf GPU vermeidet. Diese Optimierung behebt den Engpass und die Kosten, die häufig durch das Laden von Daten aus Objekt- oder Dateispeichern in den lokalen NVMe-Speicher auf GPU-Instanzen vor Beginn der Trainingsausführung entstehen.
- Kosteneinsparungen bei S3-API-Aufrufen: Die Cloud Data Platform verwendet intelligente, auf maschinellem Lernen basierende prädiktive, intelligente Lese-Caching- und Komprimierungsfunktionen, während sie den Schreib-Cache komprimiert, wodurch S3-API-Aufrufe kombiniert werden. Dieser Ansatz reduziert die S3-API-Gebühren um bis zu 90 %, was zu erheblichen Kosteneinsparungen führt.
- Optimierte GPU-Instanzen: Durch diese Funktion ist für GPU EC2-Instanzen kein lokaler NVMe-Speicher mehr erforderlich. Dies ermöglicht kostengünstigere GPU-Instanzen ohne Leistungseinbußen.
Cloudbasierte KI für Unternehmen
Viele Unternehmen und Behörden benötigen keine Vollzeit-GPU-Cluster für Trainings-Workloads. Qumulo vertritt die Position, dass Generative KI (GenAI) Workloads – Training, Tuning und Inferenz – werden bei den meisten Organisationen hauptsächlich cloudbasiert sein. Die Vorteile sind:
- Gepflegte Daten-Governance ermöglicht die Einhaltung bestehender Anforderungen an Datenherkunft und -verwaltung und gewährleistet Compliance und Datensicherheit bei reduziertem Risiko.
- Reduzierter Kapitalaufwand macht erhebliche Investitionen in die Anschaffung einer GPU überflüssig und reduziert die Laufzeitverarbeitungskosten.
- Elastischer Ressourcenverbrauch bietet die Flexibilität, Ressourcen je nach Arbeitslastbedarf nach oben oder unten zu skalieren und so die Betriebskosten zu optimieren. Dies ist von entscheidender Bedeutung, da 80 % der KI-Entwicklung darin besteht, Daten zu bearbeiten und Modelle zu verfeinern, bevor der Trainingsjob ausgeführt wird.
- Beschleunigte Verarbeitungszeit beschleunigt KI-Workflows um bis zu 40 %, wodurch die Agilität verbessert und die Zeit bis zur Erkenntnisgewinnung verkürzt wird.
Nutzung öffentlicher und kommerzieller GenAI-Modelle
Qumulo ist sich bewusst, dass die meisten Unternehmen öffentliche oder kommerzielle GenAI-Modelle nutzen werden, anstatt eigene zu entwickeln. Um dies zu unterstützen, hat Qumulo Folgendes entwickelt:
- Robuste API-Integration: Die Qumulo Cloud Data Platform bietet robuste APIs, die mit Cloud-basierten KI-Diensten interagieren können, darunter Large Language Models (LLMs) und KI/ML-Entwicklungstools, die heute bei großen Cloud-Anbietern wie Microsoft und AWS verfügbar sind.
- Sichere Datenverarbeitung: Durch den Einsatz von Techniken wie Retrieval-Augmented Generation (RAG) und geeigneten Datenverwaltungsrichtlinien können Unternehmen öffentliche oder offene LLMs nutzen und gleichzeitig sicherstellen, dass ihre Daten nicht in zukünftigen Trainingsdatensätzen verwendet werden. Auf diese Weise werden der Datenschutz und der Schutz des geistigen Eigentums gewahrt.
Fazit
Die Qumulo Cloud Data Platform bietet eine robuste Lösung zur Beschleunigung von KI-Daten-Workflows in der öffentlichen Cloud. Durch die Vereinheitlichung von lokalen und Cloud-Umgebungen über seine Global Data Fabric bewältigt Qumulo die Herausforderungen der Datenverwaltung und -bewegung im großen Maßstab. Unternehmen können erhebliche Leistungssteigerungen und Kostensenkungen erzielen und die Einhaltung von Datenverwaltungsstandards aufrechterhalten. Darüber hinaus ermöglicht Qumulo Unternehmen durch die Erleichterung der Integration mit öffentlichen GenAI-Modellen bei gleichzeitiger Sicherung der Daten, KI-Technologien effektiv zu nutzen, ohne die Sicherheit zu gefährden oder unnötige Kosten zu verursachen.
Wesentliche Vorteile
- Flexibel: Es berücksichtigt die Leistungs-, Kapazitäts- und Sicherheitsanforderungen des gesamten KI-Datenlebenszyklus – Datenaufnahme, Datentransformation und Datenladen – und ermöglicht eine nahtlose End-to-End-Datenpipeline.
- Eigenschaften: Schnellere Datenladezeiten verbessern die GPU-Ausführungszeit und Wirtschaftlichkeit.
- Grenzenlos: Ermöglicht einen nahtlosen, sicheren Datenzugriff zwischen öffentlichen und privaten Clouds und zwischen Organisationen, um bahnbrechende Geschäfts- und Forschungsmöglichkeiten zu schaffen.
- Kosteneffizienz: Bis zu 90 % Reduzierung der S3-API-Gebühren; ermöglicht die Nutzung kostengünstigerer GPU-Instanzen ohne lokales NVMe.
- Skalierbarkeit: Elastischer Verbrauch von GPU-Ressourcen
- Datenamt: Behält die bestehende Datenherkunft und die Compliance-Anforderungen bei.
- Datenhaltbarkeit: Multi-AZ-Unterstützung und paralleles S3-Erasure-Coding verbessern die legendäre Haltbarkeit von AWS S3 noch weiter.
- Sicherheit: Verhindert durch sichere API-Integrationen die Verwendung von Unternehmensdaten im externen Modelltraining.
Durch die Einführung der Qumulo Cloud Data Platform erhalten Unternehmen die Tools, um die Anforderungen moderner KI-Workloads effizient und sicher zu bewältigen. So können sie sich an die Spitze der KI-Innovation setzen, Wettbewerbsvorteile erzielen und transformative Geschäftsmöglichkeiten schaffen.