Blog

¿Cuánta infraestructura de IA se puede conseguir por 400 dólares?

3 de junio de 2024

Kevin McDonald

Qumulo: Velocidad digital de datos de archivos de alta densidad

En este blog se explican las ventajas y desventajas que los arquitectos de la nube tenían que asumir al utilizar sistemas de archivos tradicionales cuando construían una infraestructura de IA. El blog también explica cómo Azure Native Qumulo resuelve esas desventajas, disminuyendo el tiempo de GPU y reduciendo significativamente los costes sin sacrificar el rendimiento.

Cuando se trata de ejecutar operaciones de IA a escala, los servicios de almacenamiento de archivos no han conseguido optimizar el equilibrio entre rendimiento y rentabilidad. La implementación de flujos de trabajo de IA directamente en la infraestructura de almacenamiento de archivos ha sido poco práctica, engorrosa y económicamente insostenible.

Hoy en día, las organizaciones se ven obligadas a construir soluciones basadas en IA transfiriendo datos desde un almacenamiento de objetos de bajo coste a cachés de archivos de alto coste (ya sea disco local o sistemas de archivos centrales), donde las tareas computacionales de IA se ejecutan desde las codiciadas GPU. Ya se trate de recopilación de datos, preentrenamiento, entrenamiento de producción o inferencia continua, el movimiento de datos entre niveles de almacenamiento no solo añade complejidad, sino que también incurre en gastos adicionales por transacciones API.

Un sistema de dos niveles que utiliza cachés de archivos también implica que las GPU se mantienen esperando hasta un 40% del tiempo sólo para cargar los datos del almacenamiento de objetos en la caché de archivos. Eso es mucho tiempo perdido para las GPU inactivas. Y lo que es peor, con las cachés más pequeñas, los conjuntos de datos de entrenamiento están limitados al tamaño de esa caché local, lo que requiere múltiples fases de carga para obtener conjuntos de datos más grandes, como imágenes y vídeo.

Azure Native Qumulo (ANQ) actúa como un acelerador de datos inteligente para el almacén de objetos, ejecutando lecturas paralelizadas y prefijadas servidas directamente desde la infraestructura primitiva de Azure a través del sistema de archivos Qumulo a las GPU que ejecutan modelos de entrenamiento de IA. ANQ acelera el rendimiento del lado de la GPU, eliminando los tiempos de carga entre la capa de objetos y el sistema de archivos. Esto cambia la arquitectura de la formación de IA dependiente de archivos en la nube, como se muestra en la imagen siguiente.

Como prueba, nos remitimos a nuestro último Espec Almacenamiento AI_IMAGE resultados que demuestra que la arquitectura de ANQ es la solución de almacenamiento nativo en la nube más rápida y rentable del sector.

Obtuvimos el mejor resultado con un tiempo de respuesta global (ORT) de 0,84 ms y un coste total para el cliente de 400 dólares a precio de catálogo durante un periodo de ráfaga de 5 horas. Esto es perturbador porque nuestro ciclo de ráfaga fue totalmente SaaS PAYGO, donde la medición se detuvo cuando el rendimiento no era necesario. La mayoría de los demás proveedores, incluido un envío anterior de 700 trabajos a 0,85 ms ORT, no comunican los costes de forma transparente porque:

Incluyen un gran despliegue no elástico de máquinas virtuales sobredimensionadas que tendría que seguir ejecutando, incluso después del despliegue, para mantener su conjunto de datos.
Requieren una suscripción de software de 1 a 3 años, que cuesta cientos de miles de dólares, sobre un derecho de software frente a tener un modelo de consumo de PAGO.

Estas afirmaciones *suenan* difíciles de creer, por lo que cabe preguntarse:

¿Qué tiene de diferente la arquitectura de ANQ para ofrecer resultados tan sorprendentes?
¿Cómo puede Qumulo alcanzar la velocidad de un Ferrari, con la precio anunciado públicamente de un Toyota Corolla fiable?
¿Significa esto que por fin podré utilizar el almacenamiento de archivos en la nube sin tener que gestionar niveles de objetos?
¿Y si mi necesidad de rendimiento fluctúa mucho según el día de la semana o la semana del mes?

Tres cosas sencillas permiten a Qumulo responder a todas estas preguntas y respaldar con confianza nuestra afirmación de ser el primer servicio moderno de almacenamiento de archivos en la nube.

Escalabilidad elástica real permite a los clientes centrarse en otras preocupaciones empresariales y tecnológicas en lugar de en la infraestructura de almacenamiento nativa de la nube. El rendimiento del almacenamiento está listo para escalar cuando la pila de aplicaciones de IA lo exige, ahorrando costes cuando no hay demanda.
Nota: Otros sistemas de archivos en nube fallan en esta capacidad crítica al operar con "volúmenes" preaprovisionados de capacidad fija. No es muy diferente del almacenamiento local, pero es mucho más caro
Precios disruptivos: Qumulo ha innovado hasta conseguir precios disruptivos, aprovechando la economía de la nube; trasladamos el ahorro al cliente. ¿La parte disruptiva? Sólo pagas por lo que usas.
El precio es sencillo y se basa en dos factores: el uso de almacenamiento (TB) y el rendimiento necesario (rendimiento y IOP); ANQ escala el rendimiento y la capacidad de forma dinámica, de modo que no es necesario preaprovisionar recursos en previsión de la demanda.
Rendimiento aumenta linealmente a medida que lo hace la carga de trabajo. El sistema de archivos nativo de Azure Qumulo está construido sobre el nivel de objetos, logrando un ratio medio de caché en todos los clústeres (locales y en la nube) superior al 95% La arquitectura actúa como un acelerador que ejecuta lecturas paralelas que se preconfiguran desde el objeto y se sirven directamente desde el sistema de archivos a sus clientes, que pueden ser GPU que ejecutan aplicaciones de IA. Este "acelerador" gestionado garantiza la escalabilidad y el rendimiento del lado de la GPU sin tener que esperar tiempos de carga entre la capa de objetos y el sistema de archivos.
- Leer se gestiona desde una caché L1 en memoria y una generosa caché L2 NVMe. La caché de lectura global se incrementa bajo demanda, de forma elástica. Esta es la razón por la que obtuvimos un tiempo de respuesta global inferior a un milisegundo en la prueba comparativa Spec AI_IMAGE; ¡el sistema escaló la caché temporalmente para cumplir los requisitos de rendimiento!
  Detrás de la caché de lectura se encuentra el modelo de aprendizaje automático de Qumulo, altamente ajustado, que adivina qué bloques tienen más probabilidades de ser leídos a continuación. Entrenado con años de patrones de acceso de más de un billón de peticiones, el modelo precarga y sirve con precisión los datos de la caché NVMe o L1.
- Escriba a aprovechan los discos Azure Managed de alto rendimiento, que actúan como una caché de escritura protegida para las escrituras entrantes, descargándolas continuamente en Azure Blob Storage. Cada transacción se registra en un diario, lo que garantiza que no haya un único punto de pérdida de datos en la arquitectura ANQ. Este enfoque es fundamental durante los fallos de los nodos de computación y es más duradero que la arquitectura de algunos de nuestros competidores, en la que las escrituras en vuelo pueden perderse durante los eventos de computación.

¿Inconcebible? Le invitamos a que lo compruebe usted mismo. Puede activar una prueba gratuita de 7 días de Azure Native Qumulo aquí. La configuración por defecto le permitirá ver la funcionalidad, pero tiene un limitador de velocidad de seguridad. Si necesitas más rendimiento, ponte en contacto con hpc-trial-request@qumulo.com.

¿Quiere saber más? Descargue nuestro resumen de soluciones.