일부 인프라 다이어그램은 단순한 기술적 도식 이상의 의미를 지닙니다. 최첨단 컴퓨팅 성능이 정말 중요한 임무를 충족할 때 무엇이 가능한지에 대한 스토리를 알려줍니다.
이 프로젝트는 암 진단 및 치료의 미래를 바꾸기 위해 노력하는 세계적인 의학 연구 및 치료 기관에서 진행되었습니다. 솔직히 말해서, 그들은 제가 지금까지 본 것 중 가장 인상적인 구축 사례 중 하나를 사용하고 있습니다. 바로 생명을 구하는 통찰력을 가속화하는 단 하나의 목적을 위해 설계된 랙 스케일 AI 슈퍼컴퓨터입니다.
시스템의 핵심은 64개의 NVIDIA HGX B200 GPU를 구동하는 수랭식 Supermicro 플랫폼입니다. 이는 단일 AI 시스템에 1만 개가 넘는 CUDA 코어와 11테라바이트가 넘는 고대역폭 메모리를 탑재한 것을 의미합니다. 테라비트급 멀티 100Gbps 네트워크를 통해 Qumulo 데이터 플랫폼을 구동하는 50대의 Supermicro 기반 올플래시 서버에 연결된 이 구성은 42억~25억 개의 파일로 구성된 네임스페이스에서 초당 30GB 이상의 읽기와 초당 XNUMXGB의 쓰기를 밀리초 미만의 지연 시간으로 처리하며, 모든 파일은 클러스터 전체에서 안정적으로 기록되고 보호됩니다.
가라 앉 히자
초당 50기가바이트, 수백억 개의 데이터 포인트가 암 전이의 초기 신호를 포착하도록 설계된 고급 AI 모델에 데이터를 제공하는 데 사용됩니다. 이는 조기 진단, 더욱 정확한 치료 계획, 향상된 삶의 질, 그리고 수백만 명에게 희망을 의미합니다.
이 클러스터는 1.25페타바이트의 사용 가능한 TLC 기반 NVMe 스토리지로 시작하지만, 랙 내부에서 3배까지 확장할 수 있으며, 이후 하이브리드 TLC/QLC 기반 플래시 계층으로 원활하게 계층화하여 높은 성능과 비용 효율성을 유지합니다. GPU 밀도, 대역폭, 확장성, 파일 시스템 처리량 등 이 아키텍처의 모든 요소는 이 워크로드를 위해 특별히 설계되었습니다.
하지만 가장 인상적인 부분은 기술이 아닙니다.
사양보다 중요한 것은 목적입니다. 그리고 이 인프라에는 목적이 있습니다. 바로 의학을 위한 새로운 차원의 인지 AI를 구현하는 것입니다. 인간이 결코 볼 수 없었던 패턴을 포착하는 AI. 임상의에게 데이터 기반의 확신을 주어 더 빨리 개입할 수 있도록 하는 AI. 대규모로 생명을 구할 수 있는 AI.
Qumulo가 구축하는 이유는 바로 이것입니다. 수십억 개의 파일을 처리하기 위해서만, 초당 테라바이트급 데이터를 전송하기 위해서만은 아닙니다. 의학, 과학, 그리고 인간 경험의 한계를 뛰어넘는 사람들을 지원하기 위해서입니다.
이 시스템을 구축하는 팀과 이를 활용하는 임상의 여러분께 진심으로 감사드립니다. 여러분 덕분에 저희는 매일 놀라운 기술을 끊임없이 개발할 수 있는 영감을 얻습니다.


