Mitverfasst von: Bryan Berezdivin & Marcos Seoane
Unternehmen aller Branchen wetteifern darum, die generative KI und Foundation Models (FMs). Trotz massiver Investitionen in beschleunigte Infrastruktur bleibt eine anhaltende Herausforderung bestehen: Daten und Rechenleistung befinden sich selten am selben Ort. Moderne Foundation Models erfordern einen beispiellosen Umfang. Das Training eines FM kann Tausende von GPU-beschleunigten Instanzen erfordern, die tagelang bis wochenlang laufen und Datensätze verbrauchen, die von Hunderten von Terabyte für Sprachmodelle bis zu Dutzenden von Petabyte für multimodale Systeme reichen, die Text, Bilder und Videos kombinieren. Diese Datensätze sind nicht statisch, sondern entwickeln sich kontinuierlich weiter, da Organisationen Modelle neu trainieren und feinabstimmen, um neue Grenzfälle, Nutzerfeedback oder domänenspezifische Daten zu erfassen.
Die Realität für die meisten großen Unternehmen sieht so aus, dass ihre Daten in eigenen Rechenzentren und über mehrere Clouds verteilt sind. Diese Diskrepanz zwischen Datenlokalität und beschleunigter Rechenleistung stellt eine der größten Hürden für die Skalierung künstlicher Intelligenz (KI) dar. Die Verschiebung von Petabyte-großen Datensätzen über Regionen oder Clouds hinweg verursacht zusätzlichen operativen Aufwand, Kosten, Latenz und Komplexität in der Datenverwaltung und wirkt sich direkt auf die Trainingszeit und den Return on Investment (ROI) aus. Eine einheitliche, standortbezogene Dateninfrastruktur schließt diese Lücke. Die einheitliche Datenplattform von Qumulo gewährleistet globale Konsistenz, universellen Zugriff und Zugriff mit geringer Latenz über Multi-Region- oder Hybrid-Topologien hinweg und ermöglicht so ein neues Datenarchitekturparadigma, das sich an modernen KI-Fabriken orientiert.
In diesem Beitrag skizzieren wir die architektonischen Elemente einer solchen einheitlichen Datenplattform, die in der Lage ist, umfangreiche KI-Workloads wie das Training von Basismodellen zu unterstützen. Wir zeigen auch, wie Amazon SageMaker HyperPod, gepaart mit Cloud Native Qumulo (CNQ)SageMaker HyperPod bietet eine durchgängige Umgebung für verteiltes KI/ML-Training. Es ermöglicht die zuverlässige Orchestrierung und Skalierung von GPU-Clustern, während CNQ mit Cloud Data Fabric (CDF) den Datenzugriff mit geringer Latenz über Regionen und Standorte hinweg gewährleistet. Wir zeigen verifizierte Referenzarchitekturen, die SageMaker HyperPod und CNQ in einer Einzelregion (siehe Abbildung 1) und einer Multi-Region-Bereitstellung (siehe Abbildung 2) kombinieren, sowie Integrationsdetails für Qumulo und SageMaker HyperPod.
Durch die Kombination von Qumulo mit SageMaker HyperPod (und anderen Cloud- oder On-Premises-KI-Tools) können Unternehmen Folgendes erreichen:
- Die Zeit bis zum Erreichen von Ergebnissen vor und nach dem Training wird um mehr als 25 % verkürzt.
- Setzen Sie KI-Workloads über Ihre geografisch verteilten Daten ein und überwinden Sie die zunehmende Knappheit an Rechenkapazität.
- Reduzieren Sie den operativen Aufwand für den KI-Datenkreislauf ohne Orchestrierung.
- Vereinheitlichung der Datenverwaltungs- und Sicherheitsrichtlinien über alle Umgebungen hinweg.
Eine einheitliche Datenplattform für das Training von Grundlagenmodellen
Nachfolgend sind die Schlüsselelemente für das Training des unterstützenden Grundlagenmodells aufgeführt, das auf lokalen oder geografisch verteilten Daten basiert:
- Zugriff mit hohem Durchsatz und geringer Latenz zu Daten für eine nachhaltige GPU-Auslastung lokal und remote.
- Elastische Skalierbarkeit zur Verarbeitung von Multi-Petabyte-Datensätzen und dynamisch dimensionierten Rechenclustern.
- Multiprotokoll-Unterstützung um optimale dateibasierte Bibliotheken wie PyTorch bereitzustellen
- Globale Sichtbarkeit und Governance um die Anforderungen an Datenresidenz und Compliance zu erfüllen.
Qumulo stellt all diese Funktionen mit seiner einzigartigen, ortsunabhängigen Architektur bereit, die es ermöglicht, die besonderen Merkmale in jeder beliebigen Kombination aus Rechenleistung, Arbeitsspeicher und Speicher zu realisieren. Dadurch konnte die Datenplattform sowohl in der Cloud (AWS, Azure, GCP und OCI) als auch auf beliebiger Serverhardware vor Ort, einschließlich Anbietern wie HPE, Cisco, Penguin und anderen, mit erstklassigen Kosten und Leistungen betrieben werden. Dies bildet die Grundlage einer einheitlichen Plattform. Ebenso wichtig ist jedoch die Multiprotokoll-Unterstützung von Qumulo, die es Anwendungen ermöglicht, auf die Daten an diesen Standorten zuzugreifen und sie zu verwalten. Dies ermöglicht eine einfache Integration in ein Unternehmensanwendungs-Ökosystem, einschließlich verschiedener KI-Entwicklungstools wie PyTorch, TensorFlow und JAX. Auch die einfache Integration mit Amazon SageMaker Hyperpod ist dadurch gewährleistet.
Die Gewährleistung hoher Leistungsfähigkeit ist bei teuren Trainingsläufen von entscheidender Bedeutung, wo Qumulo NeuralCache Die Funktionalität gewährleistet optimale Leistung in lokalen und geografisch verteilten Datenarchitekturen. Beispielsweise lagen die durchschnittlichen Latenzzeiten beim Training von llama-3.1-8B mit mehreren AWS P5e EC2-Instanzen (jeweils mit 8 Nvidia H200 Tensor Core GPUs) im Submillisekundenbereich. Weitere Leistungsdaten für Bereitstellungen in einer und mehreren Regionen werden separat veröffentlicht.
Für KI-Teams erfordert die Modellentwicklung mehrere Trainingsläufe, die häufig Daten außerhalb des Standorts mit beschleunigten Rechenressourcen nutzen. Ein Beispiel hierfür ist die Notwendigkeit, einen Trainingslauf in Region 1 durchzuführen, der sich jedoch aufgrund von GPU-Engpässen um Tage oder sogar Wochen verzögert. Der Do-it-yourself-Ansatz (DIY) führt zu Hunderten von Pipelines, um jeden vorselektierten Datensatz für Trainings- und Validierungsläufe an einem Standort mit beschleunigten Rechenressourcen bereitzustellen. Dies führt zu längeren Trainingszeiten, unkontrollierter Datenflut, mangelnder Konsistenz der Datensätze und Problemen mit der Datenverwaltung. Ein alternativer Ansatz ist eine einheitliche Datenplattform, die die Daten bedarfsgerecht in Ihrem Namen verschiebt, um Leistung, Kosteneffizienz und Konsistenz zwischen den Standorten zu gewährleisten. Cloud Data Fabric (CDF)Qumulo bietet eine datenlokalitätsbasierte Plattform. CDF erweitert ein Verzeichnis/Präfix effektiv von einem „Hub“ auf einen oder mehrere „Spokes“. Die Spokes sind vollständig kohärent und nutzen die Lokalitätserkennung und das Modellensemble von Neural Cache, um zu entscheiden, welche Daten für jede Arbeitslast vorab abgerufen werden sollen. Dadurch ermöglichen die Spokes Anwendungen eine lokale Performance. In den Abbildungen 1 und 2 veranschaulichen wir eine verifizierte Architektur mit SageMaker HyperPod und Qumulo.
Dies stellt im Grunde ein neues Datenparadigma für KI-Teams dar, das die Entwicklungszeit verkürzt und die Leistung neuer Modelle durch einen optimierten, orchestrierungsfreien Datenkreislauf steigert. Kostenmodellierungen zeigen, dass sich die Gesamtbetriebskosten (TCO) durch diesen Ansatz um mehr als 30 % senken lassen. Um diese Ziele zu erreichen, werden im Folgenden die wichtigsten Funktionen einer einheitlichen Datenplattform mit Qumulo erläutert.
Elastischer, leistungsstarker Datenzugriff für beschleunigte Berechnungen
- Skalieren von 1 GB/s bis 1 TB/s Durchsatz mit Latenz im Submillisekundenbereich, wie gezeigt in KI-Bild-Benchmarks.
- Sorgen Sie für eine optimale Auslastung der GPUs, indem Sie E/A-Verzögerungen beim Laden von Daten, Sharding, Checkpointing oder Feinabstimmung vermeiden.
- Automatische Anpassung an jede Trainingslast durch NeuralCache™ KI-gesteuertes Caching und Prefetching lokal und remote.
Einheitliche Dateninfrastruktur für Workload-Mobilität
- Optimierte Latenzen auf den Spoke-Clustern durch nahtloses Caching und Prefetching mittels NeuralCache™ KI-gesteuerter Datenverwaltung von den Hub-Qumulo-Clustern zu/von mehreren Spoke-Qumulo-Clustern.
- Durch Komprimierung, Deduplizierung und WAN-Optimierung der Datenübertragungen lässt sich das übertragene Datenvolumen im Vergleich zu manuellen Kopien um mehr als 30 % reduzieren.
- Verwenden Sie in allen Umgebungen einheitliche Daten mit gemeinsamen Metadaten, wie z. B. Versionsinformationen.
Multiprotokoll-Flexibilität
- Native Unterstützung für S3, NFS, SMB, REST und SFTP Dadurch werden Refactoring, Umstrukturierungen und redundante Kopien vermieden.
- Datenwissenschaftler, Ingenieure und Simulationsteams können mit ihren bevorzugten Werkzeugen auf dieselben Datensätze zugreifen.
- Reduziert den Aufwand für die Datenorchestrierung um bis zu 4× im Vergleich zu herkömmlichen isolierten Speichersystemen.
SageMaker HyperPod mit Qumulo
Um dies zu demonstrieren, verifizierte Qumulo einen gängigen Workflow für ein Foundation-Modell mithilfe von SageMaker HyperPod Die Bereitstellung erfolgt sowohl in derselben Region wie die Trainingsdaten als auch in einer separaten Region. Das Ergebnis ist ein globales Modelltraining ohne Datenredundanz oder Orchestrierung, bei gleichzeitiger Wahrung der Konsistenz und Reduzierung der Gesamtbetriebskosten. Ein wichtiger Aspekt ist, dass bei den meisten KI-Modellentwicklungen nur 30 % der gelabelten Daten pro Trainingslauf verwendet werden und es zu signifikanten Überschneidungen zwischen dem ersten und den nachfolgenden Durchläufen kommt. Dies führt zu einem höheren ROI im Vergleich zur Datenreplikation pro Durchlauf, einem gängigen Szenario für die Orchestrierungsbemühungen vieler Teams. Noch wichtiger für die ROI-Steigerung ist, dass viele Teams komplexe Datenkataloge zur Vermeidung von Redundanzen erstellt haben. Mit Qumulo CDF entfällt deren Erstellung, Pflege und Weiterentwicklung.
SageMaker HyperPod mit Qumulo – Einzelregionen-Datensatz
Bei dieser Bereitstellung wurde CNQ zusammen mit den Trainingsdaten in derselben Region wie SageMaker HyperPod installiert. CNQ wurde in einer einzigen Verfügbarkeitszone bereitgestellt und nicht auf demselben Server wie die P5e EC2-Knoten installiert. Die Architektur ist in Abbildung 1 dargestellt.
SageMaker HyperPod mit Qumulo – Multi-Region-Datensatz
Bei dieser Implementierung wurde CNQ in Region 2 als Hub und in Region 1 als Spoke eingesetzt. CDF verteilt die Daten optimalerweise zwischen dem CNQ-Spoke-Ordner und dem Spoke-Ordner. Dadurch werden nur die für das Training benötigten Daten an die Spoke-Server verteilt.
SageMaker HyperPod mit Qumulo – Hybrid- oder Multi-Cloud-Option
Viele Unternehmen betreiben bereits GPU-Cluster in einer Umgebung, während ihre Datensätze in einer anderen verbleiben. Qumulos Cloud Data Fabric ermöglicht nahtlose Hybrid- oder Multi-Cloud-Topologien ohne erforderlichen Orchestrierungsaufwand:
- On-Premise zu Cloud: Das Training erfolgt auf SageMaker HyperPod oder Azure AI Foundry unter Verwendung lokaler Qumulo-Cluster als maßgebliche Datenquelle. Dies wird in Abbildung 2 veranschaulicht.
- Multicloud: Nutzen Sie Qumulo-Instanzen über AWS, Azure und GCP hinweg mit einheitlichen Namespace- und Richtlinienkontrollen.
- Vom Rand zum Kern: Sammeln, kuratieren und trainieren Sie mit Edge-generierten Daten – ohne komplexe Replikationsprozesse.
Integration von Qumulo mit SageMaker HyperPod
Nachfolgend stellen wir ein verifiziertes Rezept für die Bereitstellung in einer einzelnen Region bereit. Cloud Native Qumulo (CNQ) auf dem AWS Marketplace zur Integration mit SageMaker Hyperpod. In diesem Beispiel unterstützt CNQ die Trainingsdaten und Checkpoints und verwendet den NFS CSI-Treiber, um dynamische Container-Bereitstellungen auf SageMaker Hyperpod zu ermöglichen.
Um eine validierte Konfiguration zu reproduzieren, gehen wir wie folgt vor:
Schritt 1: Bereitstellung des Amazon EKS- und HyperPod-Clusters
Wir folgten dem EKS- und HyperPod-Einrichtungsleitfaden einen EKS-Cluster bereitstellen und SageMaker HyperPod integrieren.
# Create EKS Cluster with managed node groups
eksctl create cluster \
--name hyperpod-eks \
--version 1.29 \
--region us-west-2 \
--nodegroup-name workers \
--node-type P5.4xlarge \
--nodes 2 \
--nodes-min 2 \
--nodes-max 8
# Confirm nodes are ready
kubectl get nodes
Schritt 2: Qumulo-Cluster über Terraform bereitstellen
Die Bereitstellung von Cloud Native Qumulo (CNQ) auf AWS mit Terraform umfasst die Einrichtung einer vollständig elastischen Dateidatenplattform, die AWS S3 für persistenten Speicher und EC2-Instanzen für Rechen- und Cache-Ressourcen nutzt. Der Bereitstellungsprozess folgt dem AWS Well-Architected Framework und gewährleistet so Skalierbarkeit, Sicherheit und Betriebseffizienz. Vor Beginn müssen verschiedene Voraussetzungen erfüllt sein, darunter die korrekten IAM-Berechtigungen, eine ausgehende Internetverbindung zu den Qumulo-Endpunkten und gegebenenfalls die Einrichtung eines S3-VPC-Gateways. Das Terraform-Bereitstellungspaket bietet modulare Vorlagen, die die Bereitstellung aller benötigten AWS-Ressourcen automatisieren.
Die Bereitstellung erfolgt in zwei Hauptphasen. Zunächst wird der persistente Speicher eingerichtet, indem mithilfe von Terraform-Konfigurationen die S3-Buckets erstellt werden, die die Qumulo-Daten aufnehmen. Sobald der Speicher eingerichtet ist, werden in der zweiten Phase die EC2-Instanzen bereitgestellt, auf denen Qumulo Core läuft. Terraform kümmert sich automatisch um Konfigurationskonsistenz, Namenskonventionen und Abhängigkeitsmanagement und versieht alle Ressourcen mit einer eindeutigen Bereitstellungs-ID, um Konflikte zwischen mehreren Clustern zu vermeiden.
Nach der Bereitstellung umfassen die Aufgaben die Validierung der Clusterkonfiguration, die Bestätigung der erfolgreichen Bereitstellung über AWS Systems Manager und optional die Einrichtung der DNS-Auflösung mit Qumulo Authoritative DNS. Das Ergebnis ist ein voll funktionsfähiger, Cloud-nativer Qumulo-Cluster, der Daten im Petabyte-Bereich mit der Elastizität verwalten kann, Multi-Protokoll-Zugriff für S3-, NFS-, SMB-, FTP- und RestAPI-Zugriff und die Integrationsvorteile von AWS.
Befolgen Sie die Anleitung zur Bereitstellung von CNQ auf AWS mit Terraform für detaillierte Schritte.
Schritt 3: Qumulo-Benutzer erstellen & NFS-Export
Verwendung der Qumulo GUI-Tool (zugänglich über einen HTTP-Browser):
- Ein neuer Benutzer und entsprechende Berechtigungen wurden hinzugefügt.
- Erstellen Sie einen NFS-Exportpfad /ai-factory-data.
Referenz: So erstellen Sie einen NFS-Export.
Schritt 4: CSI-Treiber installieren und PVCs konfigurieren
Um Kubernetes-Workloads mit Qumulo zu verbinden, haben wir den CSI-Treiber installiert und PVCs definiert.
# Install Qumulo CSI Driver
helm repo add csi-driver-nfs https://raw.githubusercontent.com/kubernetes-csi/csi-driver-nfs/master/charts
helm install csi-driver-nfs csi-driver-nfs/csi-driver-nfs --namespace kube-system --version 4.12.0
# Example PV configuration
apiVersion: v1
kind: PersistentVolume
metadata:
name: pv-qumulo-static
spec:
capacity:
storage: 50Ti
accessModes:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retain
storageClassName: ""
mountOptions:
- vers=3
- proto=tcp
- nolock
csi:
driver: nfs.csi.k8s.io
# Unique ID for this directory/volume; use a stable path-based handle volumeHandle: qumulo-nfs-root
volumeAttributes:
server: qumulo.qumulo-hub.com
share: "/csi"
# Example PVC configuration
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: pvc-qumulo-static
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 50Ti
storageClassName: ""
volumeName: pv-qumulo-static
Referenz: Verbindung von Kubernetes mit dem CSI-Treiber.
Schritt 5: Führen Sie die Arbeitslast aus
Wir haben ein Modell Lama 2 mit automatisierten PyTorch FSDP auf Kubernetes.
# Launch distributed Llama 2 job with FSDP
kubectl create -f llama2-fsdp-job.yaml
Die Konfiguration erfolgte nach dem AWS-Beispiel: Llama 2 FSDP Beispiel.
Dieses Setup ist produktionsreif, wurde sowohl für den Betrieb in einer einzelnen Region als auch in mehreren Regionen validiert und bildet die Blaupause für hybride und Multi-Cloud-KI-Fabriken.
Fazit
Mit zunehmender Größe der KI-Strategien von Unternehmen verbessert die Möglichkeit, Modelle dort zu trainieren, wo Rechenleistung verfügbar ist, ohne die Daten dorthin verschieben zu müssen, wo sie gespeichert sind, die betriebliche Effizienz und beschleunigt die Entwicklung von Ergebnissen für die einzelnen Geschäftsbereiche. Qumulo ermöglicht dies – lokal, in der Cloud und am Edge – auf kostenoptimierte Weise und bietet gleichzeitig die für die Entwicklung von Basismodellen erforderliche Leistung und Einfachheit. Durch die Kombination von Qumulo mit SageMaker HyperPod (und anderen Cloud- oder On-Premise-KI-Entwicklungsframeworks) können Unternehmen:
- Die Zeit bis zum Erreichen von Ergebnissen vor und nach dem Training wird um mehr als 25 % verkürzt.
- Setzen Sie KI-Workloads über Ihre geografisch verteilten Daten ein und überwinden Sie die zunehmende Knappheit an Rechenkapazität.
- Reduzieren Sie den operativen Aufwand für den KI-Datenkreislauf ohne Orchestrierung.
- Vereinheitlichung der Datenverwaltungs- und Sicherheitsrichtlinien über alle Umgebungen hinweg.
Unabhängig davon, ob Ihre GPUs in AWS, Azure, GCP oder lokal betrieben werden, ermöglicht Qumulo eine KI-Strategie, die Training und Verwaltung überall ermöglicht.
Erfahren Sie mehr unter qumulo.com/ai


