Coautores: Bryan Berezdivin & Marcos Seoane
Empresas de todos los sectores se apresuran a adoptar iA generativa y modelos de cimentación (FM). Incluso con inversiones masivas en infraestructura acelerada, sigue existiendo un reto persistente: los datos y la informática rara vez se encuentran en el mismo lugar. Los modelos de cimentación modernos exigen una escala sin precedentes. El entrenamiento de un FM puede requerir miles de instancias aceleradas en la GPU que funcionen durante días o semanas, consumiendo conjuntos de datos que van desde cientos de terabytes para modelos lingüísticos hasta decenas de petabytes para sistemas multimodales que combinan texto, imágenes y vídeo. Estos conjuntos de datos no son estáticos y evolucionan continuamente a medida que las organizaciones vuelven a entrenar y afinar los modelos para captar nuevos casos extremos, comentarios de los usuarios o datos específicos del dominio.
La realidad para la mayoría de las grandes empresas es que sus datos viven en centros de datos locales y en múltiples nubes. Esta desconexión entre la localización de los datos y la disponibilidad de computación acelerada se ha convertido en uno de los mayores obstáculos para escalar la inteligencia artificial (IA). Mover conjuntos de datos a escala de petabytes entre regiones o nubes añade sobrecarga operativa, costes, latencia y complejidad de gobernanza, lo que afecta directamente al tiempo de formación y al retorno de la inversión (ROI). Una estructura de datos unificada y con conciencia local cierra esta brecha. La plataforma de datos unificada de Qumulo garantiza la coherencia global, el acceso universal y el acceso de baja latencia a través de topologías multirregión o híbridas, lo que permite un nuevo paradigma de arquitectura de datos que se alinea con las modernas fábricas de IA.
En este artículo, esbozamos los elementos arquitectónicos de una plataforma de datos unificada de este tipo, capaz de soportar cargas de trabajo de IA a gran escala, como el entrenamiento de modelos de cimentación. También mostramos cómo Amazon SageMaker HyperPod, emparejado con Nube nativa Qumulo (CNQ) proporciona un entorno integral para la formación distribuida de IA/ML. SageMaker HyperPod ofrece una orquestación y escalado resistentes de clústeres de GPU, mientras que CNQ con Cloud Data Fabric (CDF) garantiza el acceso a los datos, con baja latencia, en todas las regiones o ubicaciones. Ilustramos arquitecturas de referencia verificadas que combinan SageMaker HyperPod con CNQ en un despliegue de región única (véase la Figura 1) y multirregión (véase la Figura 2), junto con detalles de integración para Qumulo y SageMaker HyperPod.
Al emparejar Qumulo con SageMaker HyperPod (y otras herramientas de IA en la nube o en las instalaciones), las organizaciones pueden:
Acelerar el tiempo de obtención de resultados de la formación previa y posterior en >25%.
Despliegue cargas de trabajo de IA en sus datos geodistribuidos y supere la escasez acelerada de computación.
Reducir la sobrecarga operativa del bucle de datos de IA con orquestación cero
Unificar la gobernanza de los datos y las políticas de seguridad en todos los entornos.
Figura 1: Amazon Sagemaker Hyperpod en arquitectura Qumulo (conjunto de datos de una sola región)
Una plataforma de datos unificada para la formación de modelos de cimentación
A continuación se presentan los elementos clave para la formación del modelo de base de apoyo utilizando datos locales o datos distribuidos geográficamente:
Acceso de alto rendimiento y baja latencia a los datos para una utilización sostenida de la GPU de forma local y remota.
Escalabilidad elástica para manejar conjuntos de datos de varios petabytes y clusters informáticos de tamaño dinámico.
Soporte multiprotocolo para proporcionar bibliotecas óptimas basadas en archivos como PyTorch
Visibilidad mundial y gobernanza para cumplir los requisitos de residencia y conformidad de los datos.
Qumulo ofrece cada una de estas funciones con su arquitectura única de ejecución en cualquier lugar que permite que las características únicas se manifiesten a través de cualquier combinación de computación, memoria y almacenamiento. Esto permite que la plataforma de datos funcione con los mejores costes y rendimiento de su clase en la nube (AWS, Azure, GCP y OCI), así como en cualquier hardware de servidor local, incluidos HPE, Cisco, Penguin y otros. Esta es la base de una plataforma unificada, pero igual de importante es el soporte multiprotocolo de Qumulo para que las aplicaciones accedan y gobiernen los datos a través de estas ubicaciones. Esto facilita la integración en un ecosistema de aplicaciones empresariales, incluidas varias cadenas de herramientas de desarrollo de IA como PyTorch, TensorFlow y JAX. Esto también es clave para facilitar la integración con Amazon SageMaker Hyperpod.
Garantizar un alto rendimiento es clave en las carreras de formación costosas, donde Qumulo NeuralCache ofrece un rendimiento óptimo en arquitecturas de datos locales y geodistribuidas. Por ejemplo, las latencias medias fueron inferiores al milisegundo para el entrenamiento de llama-3.1-8B utilizando varias instancias EC2 P5e de AWS (cada una con 8 GPU Nvidia H200 Tensor Core). Recopilamos más datos de rendimiento que se publicarán por separado para implementaciones de una sola región y de varias regiones.
Para los equipos de IA, el desarrollo de modelos requiere múltiples ejecuciones de entrenamiento, que suelen utilizar datos fuera del sitio con recursos informáticos acelerados. Un ejemplo de ello es la necesidad de realizar una ejecución de entrenamiento en la región 1, pero con un retraso de días o incluso semanas debido a problemas de escasez de GPU. El enfoque "hágalo usted mismo" (DIY) da lugar a cientos de pipelines para preparar cada conjunto de datos preseleccionado para las ejecuciones de entrenamiento y validación en un centro de cálculo acelerado. Esto provoca retrasos en el tiempo de entrenamiento, dispersión de datos, falta de coherencia de los conjuntos de datos y problemas de gobernanza. Un enfoque alternativo es que una plataforma de datos unificada mueva los datos bajo demanda en su nombre para garantizar el rendimiento, la rentabilidad y la coherencia entre los sitios. Con Tejido de datos en la nube (CDF) qumulo ofrece una plataforma de datos con conciencia local. CDF amplía de forma efectiva un directorio/prefijo de un "centro" a uno o varios "radios". Los radios son totalmente coherentes y utilizan el conocimiento de la localidad y el conjunto de modelos de Neural Cache para decidir qué datos precargar para cada carga de trabajo. Como resultado, CDF permite a los radios ofrecer a las aplicaciones un rendimiento local. En las figuras 1 y 2 ilustramos una arquitectura verificada con SageMaker HyperPod y Qumulo.
Se trata de un nuevo paradigma de datos para los equipos de IA que reducirá el tiempo que tardan los ingenieros en obtener resultados y aumentará el rendimiento de los nuevos modelos gracias a un bucle de datos optimizado de orquestación cero. Los modelos de costes muestran que este enfoque puede reducir el coste total de propiedad en más de un 30%. Para lograr estos objetivos, a continuación se describen las características clave de una plataforma de datos unificada con Qumulo;
Acceso elástico y de alto rendimiento a los datos para un cálculo acelerado
Escala de de 1 GB/s a 1 TB/s con una latencia inferior al milisegundo, como se muestra en Puntos de referencia AI-Image.
Mantenga las GPUs totalmente utilizadas eliminando las paradas de E/S durante la carga de datos, la fragmentación, el checkpointing o el ajuste fino.
Adáptese automáticamente a cada carga de trabajo de formación mediante NeuralCache™, la caché basada en IA y la precarga local y remota.
Tejido de datos unificado para la movilidad de la carga de trabajo
Latencias optimizadas en los radios mediante el almacenamiento en caché NeuralCache™ basado en IA y la precarga sin problemas desde los clústeres centrales de Qumulo a/desde múltiples clústeres de radios de Qumulo.
Comprima, deduplique y optimice las transferencias de datos WAN para reducir los datos transferidos en más de un 30% en comparación con las copias manuales.
Aplique datos coherentes en todos los entornos con metadatos compartidos, como información sobre versiones.
Flexibilidad multiprotocolo
Compatibilidad nativa con S3, NFS, SMB, REST y SFTP elimina la refactorización, la rearquitectura o las copias redundantes..
Los científicos de datos, ingenieros y equipos de simulación pueden acceder a los mismos conjuntos de datos con sus herramientas preferidas.
Reduce la sobrecarga de la orquestación de datos hasta 4 veces en comparación con el almacenamiento tradicional en silos.
SageMaker HyperPod con Qumulo
Para demostrarlo, Qumulo verificó un flujo de trabajo base-modelo común utilizando SageMaker HyperPod desplegados en la misma región que los datos de entrenamiento, así como desplegados en una región separada del conjunto de datos de entrenamiento. El resultado es un entrenamiento global del modelo sin duplicación de datos ni orquestación, pero preservando la coherencia y reduciendo el coste total de propiedad. Un detalle clave es que, en la mayoría de los esfuerzos de desarrollo de modelos de IA, vemos que sólo se utiliza el 30% de los datos etiquetados por cada ejecución de entrenamiento, y que se produce un solapamiento significativo entre la primera ejecución y las siguientes. Esto conduce a un mayor ROI en comparación con la replicación de su conjunto de datos por ejecución, que es un escenario común para la mayoría de los equipos en sus esfuerzos de orquestación. Aún más impactante para mejorar el ROI es que muchos equipos han construido catálogos de datos complejos para evitar redundancias para este propósito, que ya no es necesario construir, mantener y evolucionar cuando se aprovecha Qumulo CDF.
SageMaker HyperPod con Qumulo - Conjunto de datos de una sola región
En este despliegue, desplegamos CNQ con los datos de entrenamiento en la misma región con SageMaker HyperPod. CNQ se desplegó en un enfoque de zona de disponibilidad única que no estaba colocada con los nodos EC2 P5e. La arquitectura se muestra en la Figura 1.
SageMaker HyperPod con Qumulo - DataSet Multi-Región
En este despliegue, desplegamos CNQ en la región 2 como hub y en la región 1 como spoke. CDF distribuiría los datos de forma óptima a/desde la carpeta CNQ Spoke. Esto permite que sólo los datos necesarios para la formación se distribuyan al radio.
Figura 2: Arquitectura de Amazon Sagemaker Hyperpod en Qumulo para un conjunto de datos multirregión
SageMaker HyperPod con Qumulo - Opción híbrida o multi-nube
Muchas empresas ya operan clústeres de GPU en un entorno mientras sus conjuntos de datos permanecen en otro. Cloud Data Fabric de Qumulo permite topologías híbridas o multicloud sin necesidad de orquestación:
De On-Prem a la Nube: Entrenar en SageMaker HyperPod o Azure AI Foundry utilizando clústeres Qumulo on-prem como fuente de datos autorizada. Lo ilustramos en la Figura 2.
Multicloud: Utilice instancias de Qumulo en AWS, Azure y GCP con un espacio de nombres unificado y controles de políticas.
Edge to Core: Recopile, procese y entrene a partir de datos generados en los bordes, sin complejas tareas de replicación.
Figura 3: Amazon Sagemaker Hyperpod en arquitectura Qumulo para conjunto de datos híbridos
Integración de Qumulo con SageMaker HyperPod
A continuación ofrecemos una receta verificada para el despliegue en una única región utilizando Qumulo nativo en la nube (CNQ) en el mercado de AWS para integrarse con SageMaker Hyperpod. En esta receta CNQ es compatible con los datos de entrenamiento y puntos de control, así como utilizar el controlador NFS CSI para permitir despliegues de contenedores dinámicos en SageMaker Hyperpod.
Para reproducir una configuración validada, describimos los siguientes pasos;
Paso 1: Aprovisionar Amazon EKS y el clúster HyperPod
Seguimos el Guía de instalación de EKS e HyperPod para desplegar un cluster EKS e integrar SageMaker HyperPod.
# Crear Cluster EKS con grupos de nodos gestionados
eksctl create cluster \
--name hyperpod-eks \
--version 1.29 \
--region us-west-2 \
--nodegroup-name workers \
--node-type P5.4xlarge \
--nodos 2
--nodos-min 2 \
--nodos-max 8
# Confirmar que los nodos están listos
kubectl get nodes
Paso 2: Despliegue del clúster Qumulo mediante Terraform
La implementación de Cloud Native Qumulo (CNQ) en AWS con Terraform implica la configuración de una plataforma de datos de archivos totalmente elástica que aprovecha AWS S3 para el almacenamiento persistente y las instancias EC2 para los recursos informáticos y de caché. El proceso de implementación sigue el marco bien diseñado de AWS, lo que garantiza la escalabilidad, la seguridad y la eficacia operativa. Antes de comenzar, el entorno debe cumplir varios requisitos previos, incluidos los permisos de IAM adecuados, la conectividad a Internet saliente a los puntos finales de Qumulo y la configuración de una puerta de enlace de VPC de S3 si se utiliza. El paquete de implementación Terraform proporciona plantillas modulares que automatizan el aprovisionamiento de todos los recursos de AWS necesarios.
El despliegue se produce en dos fases principales. En primer lugar, se establece el almacenamiento persistente mediante la creación de los buckets S3 que contendrán los datos de Qumulo utilizando configuraciones Terraform. Una vez creado el almacenamiento, la segunda fase despliega las instancias EC2 que alojan Qumulo Core. Terraform gestiona automáticamente la coherencia de la configuración, las convenciones de nomenclatura y la gestión de dependencias, etiquetando todos los recursos con un identificador de despliegue único para evitar conflictos entre varios clústeres.
Tras la implementación, las tareas posteriores incluyen la validación de la configuración del clúster, la confirmación del aprovisionamiento correcto a través de AWS Systems Manager y, opcionalmente, la configuración de la resolución DNS mediante Qumulo Authoritative DNS. El resultado es un clúster Qumulo nativo en la nube totalmente operativo capaz de gestionar datos a escala de petabytes con la elasticidad, acceso multiprotocolo para Acceso S3, NFS, SMB, FTP y RestAPI e integración de AWS.
Sigue el Guía para implementar CNQ en AWS mediante Terraform para ver los pasos detallados.
Paso 3: Crear usuario Qumulo y exportación NFS
Utilización de la Herramienta GUI Qumulo (accesible a través del navegador http):
Añadido un nuevo usuario y permisos.
Crear una ruta de exportación NFS /ai-factory-data.
Referencia: Cómo crear una exportación NFS.
Paso 4: Instalar el controlador CSI y configurar los PVC
Para conectar las cargas de trabajo de Kubernetes a Qumulo, instalamos el controlador CSI y definimos los PVC.
# Instalar Qumulo CSI Driver
helm repo add csi-driver-nfs https://raw.githubusercontent.com/kubernetes-csi/csi-driver-nfs/master/charts
helm install csi-driver-nfs csi-driver-nfs/csi-driver-nfs --namespace kube-system --version 4.12.0
# Ejemplo de configuración PV
apiVersion: v1
tipo: PersistentVolume
metadatos:
name: pv-qumulo-static
especificación:
capacidad:
almacenamiento: 50Ti
modos de acceso:
- ReadWriteMany
persistentVolumeReclaimPolicy: Retener
storageClassName: ""
mountOptions:
- vers=3
- proto=tcp
- nolock
csi
driver: nfs.csi.k8s.io
# ID único para este directorio/volumen; utilice un manejador estable basado en la ruta volumeHandle: qumulo-nfs-root
atributos del volumen:
servidor: qumulo.qumulo-hub.com
compartir: "/csi"
# Ejemplo de configuración de PVC
apiVersion: v1
tipo: PersistentVolumeClaim
metadatos:
name: pvc-qumulo-static
spec:
accessModes:
- ReadWriteMany
recursos:
peticiones:
almacenamiento: 50Ti
storageClassName: ""
volumeName: pv-qumulo-estático
Referencia: Conexión de Kubernetes con el controlador CSI.
Paso 5: Ejecutar la carga de trabajo
Hemos desplegado un Modelo Llama 2 utilizando PyTorch FSDP en Kubernetes.
# Lanzamiento distribuido Llama 2 trabajo con FSDP
kubectl create -f llama2-fsdp-job.yaml
La configuración siguió el ejemplo de AWS: Llama 2 FSDP Ejemplo.
Esta configuración está lista para la producción, validada tanto para operaciones en una sola región como en varias, y constituye el modelo para las fábricas de IA híbridas y multicloud.
Conclusión
A medida que las empresas amplían sus ambiciones de IA, la capacidad de entrenar donde hay computación disponible sin tener que trasladarse a donde viven los datos mejora la eficiencia operativa y el tiempo general de obtención de resultados para las líneas de negocio. Qumulo on-premises, en la nube y en el borde es un habilitador para lograr esto de la manera más rentable con el rendimiento y la simplicidad necesarios para el desarrollo de modelos básicos. Al combinar Qumulo con SageMaker HyperPod (y otros marcos de desarrollo de IA en la nube u on-prem), las organizaciones pueden:
Acelerar el tiempo de obtención de resultados de la formación previa y posterior en >25%.
Despliegue cargas de trabajo de IA en sus datos geodistribuidos y supere la escasez acelerada de computación.
Reducir la sobrecarga operativa del bucle de datos de IA con orquestación cero
Unificar la gobernanza de los datos y las políticas de seguridad en todos los entornos.
Ya sea que sus GPU se ejecuten en AWS, Azure, GCP o en las instalaciones, Qumulo permite una estrategia de IA de capacitación en cualquier lugar y administración en cualquier lugar.
Más información en qumulo.com/ai