Suchen
Schließen Sie dieses Suchfeld.

Vier Überlegungen zur Bewertung von Dateisystemen für Ihre Computerumgebung für die biowissenschaftliche Forschung

Geschrieben von:

Der Markt für Forschungscomputer ist heute kritischer als je zuvor. Beispielsweise ist die Arzneimitteltherapieforschung aufgrund der COVID-Pandemie sehr gefragt, und die Genomforschung verbessert sich schnell und bringt neue Behandlungen und Therapien schneller auf den Markt.

Diese Innovation ist auf die Fähigkeit von Life-Science-Organisationen zurückzuführen, riesige Datenmengen zu verarbeiten und gleichzeitig Technologien wie künstliche Intelligenz (KI) und maschinelles Lernen (ML) zu nutzen. Workloads für Forschungscomputer wie Genomsequenzierung, Datenanalyse und Forschungsbildgebung sind unglaublich abhängig von ihnen Datenverwaltungsplattform.

Organisationen geben zig Millionen Dollar für Systeme und Plattformen aus, um viele Arten von Daten (z. B. experimentelle, betriebliche, klinische) aus vielen unterschiedlichen Quellen zu erfassen, zu verarbeiten und zu speichern. Darüber hinaus erzeugen Instrumente komplexe Daten aus einer Vielzahl von Geräten – Genomsequenzer, 3D-Mikroskope, Patientenbildgebungssysteme – die riesige Datenmengen zur Analyse an zentralisierte Systeme streamen. Mit der kontinuierlichen Weiterentwicklung von KI-, ML- und 3D-Bildgebungstechnologien werden die Größe und Menge der Daten, die Life-Science-Organisationen verwalten müssen, weiterhin weit über Petabyte hinaus skalieren.

Infolgedessen bewerten viele Organisationen moderne Architekturen, um diese Daten zu konsolidieren, zu verarbeiten und zu nutzen.

Dateidatenplattformen sind in der Lage, riesige Datenmengen für Forschungsdatenverarbeitung zu verarbeiten, die oft aus Milliarden von Dateien bestehen, um wichtige Forschungsinformationen zu extrapolieren. IoT-Innovationen (Internet of Things) tragen dazu bei, diese Datenpunkte auf Rekordniveau zu erfassen.

Die Dateidatenplattform von Qumulo 

Laut Bio-IT-Welt, „Angesichts der gestiegenen Nachfrage nach Rechenleistung von Life-Science-Forschern und Wissenschaftlern, die sich mit Big-Data-Problemen befassen, müssen Speicher und Infrastruktur skaliert werden können, um Milliarden von Datenpunkten und Dateien effizient zu verarbeiten.“

Bei der Bewertung einer Dateidatenplattform für Ihre Forschungs-Computing-Workloads sollten Sie Folgendes berücksichtigen:

  • Liefert meine Dateidatenplattform die Leistung kleiner Dateien so effizient wie große Streaming-Dateien? Dadurch werden die „Block“-Größenbeschränkungen aufgehoben, die bei anderen Dateisystemen gelten. Um die Leistung zu verbessern, verwenden viele Dateisysteme größere Blockgrößen, was für große Dateien in Ordnung, aber für kleine Dateien sehr ineffizient ist, da jeder Block nur eine Datei enthalten kann. Dies führt möglicherweise zu einer enormen Kapazitätsverschwendung.

„Eines unserer wichtigsten Ersatzkriterien war die Suche nach einem Speichersystem, das dieses Dateivolumen und diese Vielfalt überbrücken kann“, sagt Bill Kupiec, IT-Manager bei Carnegies Abteilung für Embryologie. „Es musste sowohl das für sehr große Datensätze erforderliche Streaming als auch die für Millionen kleiner Dateien erforderliche schnelle Verarbeitung bewältigen. Das machte die Suche nach einer praktikablen Lösung äußerst schwierig.

„Unsere Forschungsorganisation fällt bei den meisten Speicheranbietern durch die Ritzen, mit riesigen Imaging-Sets und Millionen winziger genetischer Sequenzierungsabfälle. Es war schwierig, ein System zu finden, das alle unsere komplexen Workflows vernünftig handhabt, und am Ende war nur Qumulo das Richtige.“

  • Kann mein Unternehmen Workloads nach Bedarf nahtlos in Cloud-Umgebungen skalieren? Aufgrund der wachsenden Größe von Datensätzen und der rechenintensiven Natur von KI und ML nutzen Unternehmen die Flexibilität und Ressourcen der Cloud. Die öffentliche Cloud bietet größere Mengen an Rechenleistung, Verarbeitung und Zugriff auf GPUs, verbesserte Zusammenarbeit und Zugriff auf Cloud-native KI- und ML-Anwendungen.
  • Gewährleistet mein Dateisystem eine hohe Verfügbarkeit meiner Daten? Das Dateisystem von Qumulo bietet Datenschutz auf Unternehmensebene Löschcodierung. Daten werden effizient auf mehrere Knoten verteilt, um vor Laufwerksausfällen zu schützen. Im Falle eines Laufwerksausfalls wird die Leistung im Gegensatz zu herkömmlichen RAID-Lösungen während der Wiederherstellung nicht beeinträchtigt. Erasure Coding erfordert auch weniger Kapazität (in der Regel 33 % weniger Platz) für Ausfallsicherheit als RAID.
  • Leidet mein Unternehmen unter „Datenblindheit“? Die Echtzeitanalysen von Qumulo bieten Transparenz und Einblicke in Milliarden von Dateien. Unternehmen gewinnen die Kontrolle mit Informationen über die gesamte Dateidatenplattform, die es ihnen ermöglichen, Nutzungs- und Kapazitätstrends vorherzusagen, Arbeitsabläufe zu optimieren und aktuelle und zukünftige Speicheranforderungen proaktiver zu verwalten.

Mehr erfahren

Qumulo bietet mehrere hilfreiche Ressourcen, um mehr über zu erfahren Forschungscomputing und wie unsere Dateidatenplattform die Leistungs- und Kapazitätsanforderungen von Life-Science-Organisationen im Rechenzentrum und in der Cloud erfüllt.

Besuchen Sie unseren virtuellen Messestand unter Bio-IT-Welt diese Woche – wir würden uns freuen, mit Ihnen zu sprechen! Sehen Sie sich auch dieses kostenlose On-Demand-Webinar mit mir, Adam Kraut von BioTeam, Inc. und Emric Delton von ARUP Laboratories an, um einige Best Practices zur Beschleunigung der Genomforschung zu erfahren: „Beschleunigung der Genomforschung mit Hybrid-Cloud-Lösungen"

Kontaktieren Sie uns hier, wenn Sie ein Meeting vereinbaren möchten oder DEMOVERSION ANFORDERN. Und Abonnieren Sie unseren Blog für weitere hilfreiche Best Practices und Ressourcen!

Verwandte Artikel

Nach oben scrollen