Suchen
Schließen Sie dieses Suchfeld.

Wie Biotech-Organisationen wachsende Dateidaten für die Genomsequenzierung der nächsten Generation verwalten können

Geschrieben von:
Die Genomsequenzierung, die als „Next-Generation-Sequencing“ (oder NGS) bezeichnet wird, hat in den letzten zehn Jahren einen dramatischen Wandel erfahren.

Genomische Sequenzierung hat in den letzten zehn Jahren einen dramatischen Wandel durchgemacht. Es wurden neue Techniken entwickelt, die zusammenfassend als „Next Generation Sequencing“ oder NGS bezeichnet werden. Im Zuge der Weiterentwicklung von NGS müssen sich auch die Speicher- und Datenverwaltungssysteme, die diese wachsenden Kapazitäten unterstützen, schnell weiterentwickeln.

IT-Administratoren stehen unter Druck, Wege zu finden, um die Effizienz ihrer Speicherinfrastrukturen zu steigern

Die DNA-Fragmente aus biologischen Proben werden von Maschinen, sogenannten Sequenzern, extrahiert. Die Sequenzierung der nächsten Generation hat einen viel höheren Durchsatz an genetischen Sequenzen, eine automatisierte Produktion und drastisch niedrigere Kosten als die Sequenzierung der ersten Generation. Mit NGS kann ein ganzes menschliches Genom an einem einzigen Tag sequenziert werden.

Da Sequenzer immer fortschrittlicher und kostengünstiger geworden sind, nimmt die Zahl der Studien weiter zu und es werden mehr Daten produziert. Diese Sequenzer können Milliarden kleiner Dateien erzeugen. Daher muss das Dateisystem, das zur Verwaltung dieser enormen Kapazitäten kleiner Dateien verwendet wird, schnell, einfach skalierbar und effizient sein, sowohl hinsichtlich der Speicherung als auch des Schutzes von Daten, um Forschungsbudgets zu decken und neue Forschungsprojekte zu unterstützen .

Unterstützung bei der Geschwindigkeitsdiagnostik von Nachkommen und Informationen

Nachkommenschaft, Inc. ist ein Biotech-Unternehmen, das Klinikern komplexe molekulare und spezialisierte diagnostische Tests für die Gesundheit von Frauen, Reproduktionsmedizin und Onkologie anbietet.

Im Laufe der Jahre hat die Arbeit des Unternehmens im Bereich der genetischen Sequenzierung mehr als eine Milliarde Dateien generiert. David Meiser, Solutions Architect für Linux- und Windows-Anwendungen bei Progenity, sagt: „Dieses Tempo beschleunigt sich. Innerhalb von zwei Jahren könnten wir eine weitere Milliarde Dateien haben.“

„Ein Problem, das immer vorhanden war, war, dass es einen erheblichen Datei-Overhead gab“, sagt Meiser, „die Dateien, die wir schreiben, sind sehr klein und die Blockgröße unseres alten Speichersystems war sehr groß.“ Weiter erklärte Meiser: „Wir haben festgestellt, dass wir keine Analyse vor Ort durchführen konnten, weil die Zugriffszeiten sehr hoch waren.“

Legacy-Dateisysteme, die auf 15 oder 20 Jahre alten Designs basieren, können die Anforderungen moderner NGS-Workflows nicht erfüllen.

Zu oft sind IT-Organisationen jetzt gezwungen, unterschiedliche Lösungen für verschiedene Teile ihrer NGS-Workflows zu verwenden, um die Ineffizienzen in ihren Legacy-Systemen auszugleichen. Dies ist aus mehreren Gründen problematisch:

  • Mehrere Systeme erhöhen die Komplexität, was sich in höheren Gesamtbetriebskosten niederschlägt.
  • Mehrere Systeme können auch Datensilos verursachen, sodass eine Gruppe von Forschern möglicherweise nicht auf Daten zugreifen kann, die ein anderes Team verwendet.
  • Mangelnde Zusammenarbeit kann die Zeit bis zur Erzielung von Ergebnissen verlangsamen, wodurch sich die Zeit für den Abschluss von Projekten oder die Markteinführung eines Produkts verzögern kann

Aufgrund seines schnellen Wachstums und seiner datenintensiven Arbeitsabläufe wusste Progenity, dass sein Anbieter von Legacy-Systemen seine zukünftigen Anforderungen nicht erfüllen konnte. „Nach einigen Jahren mit unserem ursprünglichen Lagersystem haben wir gemerkt, dass die Arbeitsweise des Unternehmens für uns kein gutes Modell war“, sagte Meiser und verwies sowohl auf die hohen Kosten als auch auf die Lagereffizienz.

On-Prem- und Cloud-basierte NGS-WorkFlow-Konfigurationen

Qumulo's Dateidatenplattform erfüllt die Leistungs- und Kapazitätsanforderungen für die Speicherung, Verwaltung und den Zugriff auf genomische Sequenzierungsdaten vor Ort oder in der Cloud. Es verwaltet Milliarden kleiner und großer Dateien und unterstützt eine Vielzahl von Protokollen, darunter SMB, NFS, FTP und REST, was bedeutet, dass alle Phasen des Genomanalyse-Workflows denselben Qumulo-Cluster verwenden können.

Unten sehen Sie ein Beispiel für eine lokale NGS-Workflow-Konfiguration.

 

Dieses Beispiel zeigt die DNA-Sequenzer, die viele kleine BCL-Dateien oder Basenaufrufe erzeugen, bei denen es sich um ungeordnete DNA-Sequenzfragmente handelt. Bei einem Demultiplexing-Prozess werden BCL-Dateien zu einer FASTQ-Datei zusammengestellt, einer Textdatei, in der die kombinierten Ausgabeergebnisse der BCL-Dateien zusammen mit den entsprechenden Qualitätsbewertungen gespeichert werden.

Die Computefarm führt die Ausrichtung und den Variantenaufruf durch. Beim Alignment werden Sequenzfragmente qualitätsgeprüft, vorprozessiert und auf ein Referenzgenom ausgerichtet. Eine BAM-Datei ist eine Binärdatei, die diese Ausrichtungsdaten speichert. Beim Variantenaufruf wird nach Unterschieden zwischen den Daten und dem Referenzgenom gesucht. Die Ergebnisse werden in einer VCF-Datei gespeichert.

Sobald diese Datenspeicher bereit sind, können sie für anwendungsspezifische Analysen verwendet werden, die von Forschern für ihre eigenen Projekte durchgeführt werden. Ein Forscher könnte beispielsweise an einer gezielten Therapie für Patienten mit einem Tumor arbeiten, der eine bestimmte Genmutation aufweist. Forscher können alle generierten Daten verwenden, die in den BAM- und VCF-Dateien enthalten sind.

Hier ist ein Workflow-Beispiel, das zeigt, wie Sie Analysen in der Cloud mit Qumulo für AWS- und EC2-Spot-Instances durchführen.

In diesem Beispiel sind der Qumulo-Cloud-Cluster auf AWS und der lokale Qumulo-Cluster durch kontinuierliche Replikation immer synchron. Eine Organisation kann EC2-Spot-Instances nutzen, um die Kosten niedrig zu halten.

 

Mehr erfahren

Qumulo bietet mehrere hilfreiche Ressourcen, um mehr über zu erfahren Genomdaten und Sequenzierung und wie unsere Dateidatenplattform Organisationen hilft, Genomsequenzierungsdaten vor Ort und in der Cloud zu speichern, zu verwalten und darauf zuzugreifen. Lesen Sie unsere Lösungsübersicht hier, und sehen Sie sich unser On-Demand-Webinar an, “Beschleunigung der Genomforschung mit Hybrid-Cloud-Lösungen"

Kontaktieren Sie uns hier, wenn Sie ein Meeting vereinbaren möchten oder DEMOVERSION ANFORDERN.

Verwandte Artikel

Nach oben scrollen