"El sistema de archivos NAS de escala horizontal distribuida de Qumulo cumplió con nuestros requisitos de capacidad, rendimiento, integridad de datos y escalabilidad horizontal a un precio aceptable para nuestro cliente".

Brian Balderston, Director de Infraestructura

QUIÉNES SOMOS

El Centro de Supercomputadoras de San Diego, o SDSC, es un MSP líder para la comunidad científica en el gobierno, la academia y los negocios. Como unidad de investigación en la Universidad de California, San Diego, SDSC utiliza sus supercomputadoras locales para ejecutar computación avanzada y todos los aspectos del almacenamiento y análisis de big data, incluida la integración de datos, el modelado de rendimiento, la minería de datos y el análisis predictivo.

CASO DE USO
  • Almacene y administre eficazmente grandes almacenes de archivos no estructurados
  • Apoye grandes y crecientes cargas de trabajo de investigación científica
  • Proporcione datos de alto rendimiento y acceso a múltiples clientes globales
REQUISITOS
  • Alto rendimiento
  • Alta disponibilidad y durabilidad.
  • Facilidad de implementación, gestión y acceso.
  • Escale fácilmente de TB a PB
  • Económico

El Centro de Supercomputadoras de San Diego amplía el almacenamiento avanzado con Qumulo

La comunidad global de investigación científica abarca industrias, individuos y especialidades. Sin embargo, tiene una cosa en común: la necesidad de recursos informáticos masivos y de almacenamiento de datos.

Solo unas pocas organizaciones de investigación pueden permitirse su propia supercomputadora y sistemas de almacenamiento avanzados. Muchos recurren a proveedores de servicios gestionados (MSP) especializados para ofrecer capacidad de almacenamiento y computación remota a clientes de investigación intensivos en datos.

Imagen de enseñar y estudiantes

El Centro de Supercomputadoras de San Diego lleva la carga

El Centro de Supercomputadoras de San Diego, o SDSC, es un MSP líder para la comunidad científica en el gobierno, la academia y los negocios.

SDSC es miembro de XSEDE (eXtreme Science and Engineering Discovery Environment), un único sistema virtual que permite a los investigadores compartir interactivamente recursos informáticos, colecciones de datos y herramientas de investigación avanzadas.

Como unidad de investigación en la Universidad de California, San Diego, SDSC utiliza sus supercomputadoras locales para ejecutar computación avanzada y todos los aspectos del almacenamiento y análisis de big data, incluida la integración de datos, el modelado de rendimiento, la minería de datos y el análisis predictivo.

SDSC trabaja con sus clientes para personalizar los recursos de la supercomputadora y el sistema de almacenamiento para proyectos de datos extremos, incluida la visualización astrofísica para el Museo Americano de Historia Natural, simulaciones a gran escala de The Big One en el sur de California y modelos sofisticados de la temporada de gripe para los Centros para Enfermedades Controlar.

Dos de los proyectos importantes de SDSC sirven a la comunidad de investigación en neurociencia de rápido crecimiento: The Center's Neuroscience Gateway (NSG), financiado por la National Science Foundation (NSF) y el National Institute of Health (NIH), que es una colaboración entre el Centro y la Universidad de Yale. y University College London. NSGportal permite a los investigadores de neurociencia acceder a la computación a gran escala para el modelado y procesamiento de datos, lo que requiere la gestión de grandes datos de neurociencia almacenados en sus sistemas de almacenamiento de datos intensivos.

Otra oferta de neurociencia en desarrollo es la puerta de enlace NEMAR (archivo de datos de NeuroElectroMagnetic humano y recursos de herramientas) financiados por NIH. El portal está desarrollando el acceso abierto a los datos archivados de EEG (electroencefalografía) y MEG (magnetoencefalografía) para neurocientíficos y el almacenamiento y la gestión de datos a gran escala son partes clave del proyecto.

“Con Qumulo, nos dimos cuenta de gastos operativos mucho más bajos que los que habíamos experimentado con otras soluciones de almacenamiento. Además, hemos duplicado el tamaño de nuestro clúster y probablemente lo volveremos a duplicar pronto ".


Brian Balderston, Director de Infraestructura

Las demandas de los clientes podrían superar a los súper recursos

SDSC enfrentó un desafío con respecto a su infraestructura de almacenamiento. Estas puertas de enlace con uso intensivo de datos y pilas de tecnología de cliente deben admitir el almacenamiento de datos de alto rendimiento y alta capacidad para cantidades masivas de big data, muchos de ellos sin estructura. Aunque las supercomputadoras del Centro manejan fácilmente las tareas informáticas, los sistemas de almacenamiento de neurociencia carecían de una capacidad de escalamiento horizontal masiva y las características de almacenamiento necesarias para admitir big data, acceso rápido y análisis avanzado.

“Nuestros requisitos de almacenamiento para los proyectos de datos NSG y EEG / MEG están creciendo de decenas de terabytes a cientos de terabytes”, dijo Amit Majumdar, Ph.D., Director de Computación Científica Habilitada para Datos en SDSC. “Gran transferencia y almacenamiento de datos, acceso de alta velocidad, uso compartido, funcionalidades de búsqueda, todo esto se está volviendo cada vez más importante para nuestros proyectos”.

Para cumplir con éxito los requisitos de sus clientes, SDSC necesitaba una solución de almacenamiento que proporcionara un equilibrio óptimo de rendimiento, capacidad, escalabilidad, durabilidad y funcionalidad avanzada, todo a un costo razonable.

“En SDSC, entregar análisis y resultados críticos es primordial, sin embargo, las cargas de trabajo de computación de alto rendimiento dependen increíblemente de su sistema de almacenamiento. Como organización, estamos avanzando hacia la integración de la nube tanto para la computación como para el almacenamiento, como parte de nuestras puertas de enlace científicas. Como resultado, es importante para nosotros hacer que las tecnologías líderes en la nube estén disponibles a través de nuestra división de Servicios de datos de investigación ”, agregó Majumdar.

“Gran transferencia y almacenamiento de datos, acceso de alta velocidad, uso compartido, funcionalidades de búsqueda, todo esto se está volviendo cada vez más importante para nuestros proyectos”.


Amit Majumdar, Ph.D., Director de Informática Científica Habilitada por Datos

Asociarse con Qumulo

El ímpetu del deseo del Centro de un nuevo tipo de proveedor de almacenamiento fue un conjunto de nuevos clientes que necesitaban más de 1 PB en capacidad de almacenamiento. SDSC estaba preocupado por el rendimiento, la confiabilidad y la administración de sus soluciones de almacenamiento existentes a esa escala.

Brian Balderston, Director de Infraestructura de SDSC, decidió que debe haber una mejor manera. Probó varios sistemas de almacenamiento de alto rendimiento y decidió el almacenamiento híbrido de archivos en la nube de Qumulo como pionero en infraestructura informática y de almacenamiento de datos intensivos para la comunidad nacional de investigación.

“Creía que podíamos construir un mejor sistema de almacenamiento para nuestro cliente que no necesitara tanta atención operativa y alimentación. Entonces, me comuniqué con el equipo de Qumulo con nuestros requisitos ”, dijo Balderston. "Su sistema de archivos NAS de escalabilidad horizontal distribuida cumplió con nuestros requisitos de capacidad, rendimiento, integridad de datos y escalabilidad horizontal a un precio aceptable para nuestro cliente".

El almacenamiento de archivos de Qumulo difería de la infraestructura existente en SDSC y de la utilizada por sus organizaciones clientes. La mayoría de los clientes académicos del Centro estaban acostumbrados a sistemas de archivos paralelos de código abierto para cargas de trabajo de datos de investigación. La pila de software patentado de Qumulo y el sistema de archivos distribuidos eran un nuevo tipo de almacenamiento y rápidamente demostraron ser más avanzados y capaces de gestionar cargas de trabajo de investigación científica masivas, ahora y en el futuro.

Qumulo escala los datos no estructurados de manera más eficiente que los sistemas de archivos paralelos, lo que lo hace ideal para entornos con recuentos masivos de archivos, estructuras de directorios y miles de millones de archivos pequeños. El sistema de archivos NAS escalable admite la ingesta y el acceso rápidos y es altamente investigable. La alta disponibilidad y los tiempos mínimos de reconstrucción mantienen los datos seguros y siempre disponibles, sin pérdida de datos.

Los costos de capital de SDSC para Qumulo estaban en línea con su presupuesto y sus costos operativos resultaron más bajos de lo esperado. "Con Qumulo, nos dimos cuenta de gastos operativos mucho más bajos que los que habíamos experimentado con otras soluciones de almacenamiento", señaló Balderston. "Además, hemos duplicado el tamaño de nuestro clúster y probablemente lo volveremos a duplicar pronto". SDSC transfirió los ahorros a sus clientes MSP, lo que hace que su plataforma de alojamiento sea aún más atractiva.

"Qumulo ha sido increíblemente fácil de administrar para SDSC".


Brian Balderston, Director de Infraestructura

Escalado masivo, alto rendimiento

Hoy en día, Qumulo proporciona SDSC y sus clientes almacenamiento persistente para cargas de trabajo de alta capacidad / alto rendimiento. Los componentes clave de la infraestructura incluyen máquinas virtuales (VM), almacenamiento Qumulo montado en una supercomputadora y redes de gran ancho de banda. SDSC se está moviendo hacia la integración del almacenamiento local y en la nube para servir a sus pasarelas científicas. Dado que el almacenamiento de archivos de Qumulo es nativo de la nube, admite sin problemas la integración local y en la nube.

Qumulo optimiza su software único para lecturas y escrituras rápidas. La arquitectura acelerada ofrece una latencia extremadamente baja y un alto rendimiento de IOPS y rendimiento. El almacenamiento en caché predictivo y la captación previa identifican de forma proactiva los patrones de E / S y mueven los datos de manera eficiente a los medios más rápidos.

Qumulo también es fácil de implementar, administrar y acceder a componentes críticos tanto para SDSC como para sus clientes. “Qumulo ha sido increíblemente fácil de administrar para SDSC”, dijo Balderston.

“En lugar de enfocar nuestro personal y recursos en administrar una serie de sistemas de almacenamiento ineficientes, usamos nuestro tiempo de ingeniería para trabajar en subvenciones de gran impacto y bien financiadas de la National Science Foundation, el National Institute of Health y otras agencias de financiamiento. Esa es una gran victoria para todos nosotros ".

Qumulo demostró que es un tipo diferente de empresa de almacenamiento, una empresa que construyó su almacenamiento para la era moderna. Algunos sistemas de almacenamiento heredados aún funcionan para datos estructurados en entornos de almacenamiento tradicionales bien definidos. Pero estos productos nunca fueron diseñados para el crecimiento masivo de datos, tipos de datos no estructurados, cargas de trabajo científicas intensivas y aplicaciones complejas.

Para cumplir y superar estos nuevos requisitos de almacenamiento, Qumulo diseñó su software utilizando los principios detrás de bases de datos distribuidas modernas a gran escala. El resultado es un sistema de archivos único con un rendimiento y escalabilidad inigualables.

La adopción del cliente demuestra el punto en SDSC. “Probablemente mi mayor logro sea poner en funcionamiento este sistema de almacenamiento y luego obtener una adopción masiva”, dijo Balderston. “Desde la prueba de concepto inicial, SDSC ha llegado a un nuevo grupo de clientes, incluidos más de dos docenas de laboratorios y departamentos de investigación de la Universidad de California. No puedo pensar en ningún otro servicio que haya sido adoptado tan rápido ".

¿Quieres aprender más?

Danos 10 minutos de tu tiempo y te mostraremos cómo reconsiderar los datos de almacenamiento.