Blog

Superar la gravedad de los datos en crio-EM: cómo la arquitectura híbrida inteligente de datos está acelerando el futuro del descubrimiento de fármacos

2 de junio de 2026

Marcos Seoane

La crioEM está ayudando a redefinir el futuro de la biología estructural, el desarrollo de vacunas y la innovación farmacéutica al permitir la visualización 3D a nivel atómico de proteínas, virus y complejos moleculares. Estas capacidades permiten el estudio detallado de estructuras celulares finas y estructuras biológicas intrincadas a escalas subcelular y molecular.

Mientras que los avances científicos suelen acaparar los titulares, rara vez se habla de los retos infraestructurales que los sustentan.

La realidad es que los flujos de trabajo de crio-EM se encuentran entre los más intensivos en datos de las ciencias de la vida modernas.

Cada proyecto puede generar entre 10 TB y más de 200 TB de datos de microscopía de alta resolución, a menudo compuestos por decenas de miles de pequeños archivos de imágenes y secuencias de vídeo. Estos datos suelen generarse en el laboratorio húmedo, donde los microscopios capturan muestras biológicas, pero la gran carga computacional -como la corrección de movimiento, la estimación de CTF, la selección de partículas, la clasificación 2D y el refinamiento 3D- requiere una gran capacidad de cálculo en la GPU, que en su mayoría solo se encuentra en centros de datos masivos o en plataformas de nube pública.

Para muchas organizaciones, esto supone un problema caro y complejo desde el punto de vista operativo.

Los datos deben copiarse de los entornos de laboratorio a la infraestructura HPC o de nube, lo que significa que hay que disponer de mucho más de todo para cada proyecto. Es necesario disponer de almacenamiento adicional para albergar los conjuntos de datos replicados: hasta 200 TB de capacidad por proyecto y centro. Las canalizaciones de replicación deben implementarse y mantenerse para cada proyecto y cada punto final, y se consume un valioso tiempo del personal validando la creación de canalizaciones de datos, supervisando las tareas de replicación activas y verificando la integridad de los datos después de cada transferencia importante.

La duplicación de datos y la complejidad del entorno no sólo encarecen los proyectos, sino que también pueden alargar sus plazos. A menudo, los científicos tienen que esperar horas, o incluso días, antes de poder empezar a procesar los datos, mientras que los resultados finales suelen tener que volver a transferirse para su validación, visualización y colaboración más amplia.

Existen aún más costes ocultos que van mucho más allá de la capacidad de almacenamiento. La replicación amplía la huella de la infraestructura, aumenta las demandas de red, añade complejidad a los scripts operativos, requiere una mayor supervisión de TI y crea una dependencia humana significativa en múltiples equipos. Los especialistas en microscopía, los administradores de TI, los arquitectos de la nube, los equipos bioinformáticos, los ingenieros de almacenamiento y los investigadores se convierten en eslabones de una frágil cadena operativa, todos ellos trabajando horas extras para garantizar que los datos lleguen a donde tienen que llegar, de forma coherente y puntual.

Imagínese un planteamiento más sencillo: un sistema de archivos que tocara simultáneamente todos los puntos de la organización; en el que los datos creados en un lugar fueran accesibles al instante desde cualquier otro.

Pensemos en una empresa farmacéutica que ejecuta tres programas simultáneos de descubrimiento de fármacos en sus sedes de Palo Alto, Boston y una CRO asociada en el Reino Unido. Con un modelo de replicación tradicional, cada centro mantiene su propia copia de cada conjunto de datos: capacidad de almacenamiento multiplicada por tres, canalizaciones de replicación mantenidas en cada punto final y una ventana de preparación de 12 a 24 horas antes de que cualquier clúster de GPU en la nube pueda empezar a procesar. Con una estructura de datos unificada, esa misma organización opera a partir de una única copia de cada conjunto de datos: los datos de instrumentos escritos en Palo Alto son inmediatamente visibles para los clústeres de GPU en AWS, los conductos de análisis que se ejecutan en Boston y el equipo de CRO en el Reino Unido, de forma simultánea, sin que se ejecute un solo trabajo de replicación. La complejidad de TI se desploma, la sobrecarga de almacenamiento disminuye proporcionalmente y el tiempo entre la adquisición de datos y los resultados procesables se reduce de días a horas.

La arquitectura de datos híbrida de Qumulo cambia radicalmente esta ecuación.

El sistema de archivos de Qumulo expone los datos en todos los puntos finales a través de protocolos estándar del sector (NFS v3/v4.1, SMB 3.0 y API de objetos compatible con S3), lo que significa que los canales bioinformáticos existentes, los programadores de trabajos HPC y las herramientas nativas de la nube montan o acceden al espacio de nombres sin modificaciones. El espacio de nombres global mantiene un plano de metadatos único y coherente en los nodos locales y las instancias en la nube simultáneamente: los listados de directorios, los atributos de archivos y el estado de los inodos son coherentes independientemente del punto final que emita la solicitud, lo que elimina las condiciones de cerebro dividido y los fallos de caché estancada comunes en las arquitecturas de replicación tradicionales. Los aceleradores en la nube se presentan como puntos de montaje NFS estándar en las instancias de computación en la nube, lo que permite que las cargas de trabajo de la GPU comiencen a procesarse en cuanto los primeros archivos son visibles en el espacio de nombres (con lectura anticipada inteligente y precarga para gestionar la latencia entre la ubicación física de los datos y el punto final en la nube), mientras que los dispositivos Edge Accelerator en los centros de instrumentos absorben flujos de escritura de gran ancho de banda de los detectores y escáneres directamente en la estructura sin almacenamiento intermedio.

Al eliminar la replicación innecesaria y permitir el acceso global unificado a los conjuntos de datos, Qumulo permite a las organizaciones transformar la crio-EM de un reto logístico fragmentado a un flujo de trabajo científico racionalizado. En lugar de obligar a los datos a pasar por ciclos repetidos de copia, validación, transferencia y reagrupación, la plataforma de datos en la nube permite la disponibilidad global inmediata, lo que permite que el procesamiento se realice allí donde los recursos informáticos sean más eficaces, al tiempo que garantiza que los resultados sean accesibles al instante en cualquier lugar donde se necesiten.

Al conectar los laboratorios húmedos, los entornos HPC en la nube y los equipos de investigación en tiempo real a través de un espacio de nombres global unificado, Qumulo permite que exista una única copia de los datos en una ubicación física y que, al mismo tiempo, se pueda acceder a ellos al instante en todos los sitios, plataformas y nubes. No hay necesidad de duplicar conjuntos de datos, no hay dependencia de scripts de transferencia frágiles, no hay ciclos de validación repetidos, y no hay arrastre operativo causado por los métodos tradicionales de replicación.

Todo esto se lleva a cabo sin replicar un solo conjunto de datos, lo que significa que sólo hay una copia de los datos que almacenar y gestionar, por lo que los equipos de TI de la organización reducen drásticamente la sobrecarga de almacenamiento, la complejidad de la gestión y el tiempo de obtención de valor.

Construida emparejando el sistema de archivos escalable y de alto rendimiento de Qumulo -disponible en el Marketplace de los principales hiperescaladores como AWS, Azure y GCP, o desplegado en las instalaciones utilizando hardware de su OEM preferido- con las capacidades del sistema de archivos ampliado de Qumulo Cloud Data Fabric, Qumulo Cloud Data Platform crea un verdadero entorno híbrido para las ciencias de la vida, que conecta la generación de datos, la aceleración de GPU y la colaboración global en tiempo real. Los dispositivos opcionales Edge Accelerator conectan los centros remotos y los laboratorios húmedos al tejido, mientras que los Cloud Accelerators abren portales efímeros que proyectan los datos desde donde viven a la nube, lo que permite que las cargas de trabajo exploten la capacidad disponible de la GPU en la nube y escalen el cálculo bajo demanda cuando los recursos locales son limitados, todo ello sin tener que mover ningún dato.

Para las organizaciones farmacéuticas y biotecnológicas, esto significa acelerar las iniciativas de modelado molecular, acortar los plazos de descubrimiento terapéutico de semanas a días, permitir un desarrollo de vacunas más ágil, maximizar la utilización de los costosos recursos de la GPU y, en última instancia, reducir el coste y la complejidad de la propia I+D.

A medida que la IA, la HPC y las imágenes biológicas avanzadas sigan convergiendo, las organizaciones que obtengan ventajas estratégicas no serán simplemente las que cuenten con los mejores microscopios o los mayores clusters de GPU, sino las que construyan infraestructuras capaces de eliminar por completo la gravedad de los datos....

La próxima frontera de las ciencias de la vida no es sólo la informática.

Se trata de una arquitectura de datos inteligente, y soluciones como Qumulo Cloud Data Fabric están ayudando a hacer posible ese futuro.