Suchen
Schließen Sie dieses Suchfeld.

Mit Cloud-basiertem Monitoring zum Kundenerfolg führen

Geschrieben von:

Eines der Dinge, auf die wir bei Qumulo am stolzesten sind, ist die Beziehung zu unseren Kunden. Wir unterstützen sie mit einem engagierten Customer-Success-Team, das über Slack und Telefon kommuniziert und Cloud-basiertes Monitoring nutzt, um alle Probleme der Kunden effizient und so schnell wie möglich zu lösen. Kunden sind unser Magnetfeld – das Herzstück unseres Handelns.

Bei Qumulo ist das Erstellen, Speichern und Erstellen von Daten unsere Supermacht, und das bedeutet, dass wir alles messen – einschließlich unserer Fähigkeit, die Bedürfnisse unserer Kunden zu erfüllen, um ihre Probleme mit Leichtigkeit zu lösen. Diese Kennzahl ist in unserer Branche als Net Promoter Score (NPS) für die Kundenzufriedenheit bekannt, und der erreichte NPS von Qumulo 91 im letzten Quartal unseres Geschäftsjahres. Noch beeindruckender ist vielleicht, dass unsere Kundenzufriedenheitsbewertung mit dem Wachstum unseres Kundenstamms weiter ansteigt!

Heute bin ich Ingenieur und kannte den Begriff „Kundenerfolg“ nicht, als ich vor einigen Jahren ins Unternehmen kam. Heute verstehe ich, dass es wie „Kundensupport“ bei Steroiden ist: proaktiv, lösungsorientiert und engagiert Gewährleistung der Kunde ist wirklich erfolgreich bei der Nutzung unserer Dateidatenplattform, um ihre Ziele zu erreichen.

Untersuchen von Problemen mit Cloud-basierter Überwachung 

Wie funktioniert Qumulo's Kundenerfolgsteam (CS) heikle Probleme im Feld so schnell lösen? Nun, viele unserer Kunden haben Cloud-basiertes Monitoring oder „Mission Qontrol“ aktiviert (wir haben hier ein Faible für den Buchstaben Q), eine Telefon-Home-Funktion, die eine Vielzahl von Systemzustandsmetriken an unser Datenanalysesystem sendet . Intern ist unser CS-Team in der Lage, Diagramme mit Gesundheitsmetriken im Vergleich zu ihren Daten abzurufen und zu visualisieren, um wirklich detaillierte Einblicke in das Verhalten unseres Systems zu erhalten, das darauf ausgelegt ist, eine Menge Komplexität für unsere Kunden zu bewältigen. 

Um die Gesundheitsmetrikdaten zu visualisieren, verwenden wir eine Open-Source-Anwendung namens Grafana, die aus einer Reihe von Datenquellen ziehen kann. Inhouse entwerfen wir die Datenpipeline, die alle Gesundheitsmetrikdaten aus unseren Kundenclustern abruft, sicher in einer Datenbank speichert und dabei entsprechende Transformationen vornimmt. 

Ein typisches Beispiel: Das Problem erkennen

Kürzlich aktualisierte ein Kunde aus der biomedizinischen Forschung seinen Qumulo-Cluster, und einige Tage später stellten die Datenadministratoren fest, dass sie ein Limit für vorhandene Dateisystem-Snapshots erreicht hatten. Wir haben ein hohes Limit für die Anzahl der Snapshots, nur um sicherzustellen, dass einige Prozesse nicht aus dem Ruder laufen – und tatsächlich war es hier. Aber warum war das so? Schließlich verwendete der Kunde Snapshots routinemäßig – als Teil unserer Replikationsfunktion, die Snapshots automatisch im 1-Minuten-Takt erstellt und löscht. Dies war eindeutig etwas, das genauer untersucht werden musste.

Mithilfe unseres Cloud-basierten Monitoring-Dashboards von Mission Qontrol konnten die CS-Ermittler schnell bestätigen, dass das Produkt für Snaphots am Limit war, und dann feststellen, dass die CPU-Auslastung auf einem einzelnen Knoten wirklich hoch war. In diesem Fall ist eine außerordentliche Anzahl von „Set-Berechtigungen“ (setattr) Operationen kamen in diesen Knoten. Der Kunde konnte auch feststellen, dass die Snapshot-Bereinigung länger als gewöhnlich dauerte. 

Vor diesem Hintergrund erkannten sie, dass setattr-Operationen schnell viel Arbeitsrückstand für die Snapshot-Bereinigung verursachten und dazu führten, dass sich Snapshots langsam anhäuften. Das Überwachungssystem enthält Tausende von Integritätsmetriken für jeden Knoten, dennoch konnten die Ermittler durch die Datenvisualisierung leicht durch sie navigieren, wie in den Abbildungen 1 – 4 gezeigt.

Wie erfassen wir all diese Daten zu Systemzustandsmetriken?

Als wir 2013 mit unseren ersten Kunden starteten, wussten wir, dass die Reaktionsfähigkeit auf Kundenprobleme der Schlüssel zu unserem Erfolg sein würde, und haben daher ein grobes und einsatzbereites System mit wichtigen Kundenstatistiken und Warnmeldungen entwickelt. Seitdem ist unsere Cloud-Überwachungsfähigkeit so viel intelligenter geworden. Wir haben die Anzahl der Integritätsmetriken, die gemeldet werden, auf über 10,000 verschiedene Metriken erweitert, die pro Knoten, manchmal sogar pro Festplatte, verfolgt werden.

Im letzten Jahr haben wir weiter in diese Architektur investiert, indem wir den Dienst in mehrere Komponenten mit jeweils eigenem Fokus aufgeteilt haben: einen Webserver zum Erfassen der eingehenden Metriken, ein verteiltes Warteschlangensystem zum Puffern und Verwalten des Fanouts an viele interne Verbraucher , und eine gute analytische Datenbank, um die Daten zu speichern und den Ermittlern die Abfrage zu erleichtern.

Die heutige cloudbasierte Überwachungsarchitektur von Mission Qontrol unterstützt die Datenanalyse effizient mit verteilter Warteschlange, indem sie Datenkonsumenten voneinander und den Produktionssystemen des Kunden entkoppelt.

Für das Warteschlangensystem haben wir uns für RabbitMQ entschieden, weil es einfach zu bedienen war, die von uns benötigten Funktionen mit einer benutzerfreundlichen API hatte und eine breite, zufriedene Benutzergemeinschaft zu haben schien. Wir betreiben es jetzt seit etwa einem Jahr und haben festgestellt, dass es sehr zuverlässig ist.

Mit diesem Schwungrad in der Mitte, das die Daten an alle Datenkonsumenten ausgibt, können wir so viele Dinge tun. Wir können uns spezifische Kundenprobleme ansehen, wie das der Forschungseinrichtung, über die wir vorhin gesprochen haben; wir können aggregierte Analysen mit den Milliarden von Dateien durchführen, die in unseren Clustern gespeichert sind; wir können beurteilen, wie gut neue Funktionen für unsere Kunden sind, und weitere Verbesserungen identifizieren, die wir liefern sollten; und wir können untersuchen, wie sich die Nutzung verschiedener Produktfunktionen im Laufe der Zeit verändert hat.

Und wo werden all diese Daten gespeichert? Auf Qumulo natürlich. Wir haben tatsächlich zwei Qumulo-Cluster, einen in unserem Rechenzentrum und einen Namensraum in der Cloud, also nutzen wir die Leistungsfähigkeit des . voll aus Qumulo-Dateidatenplattform, und natürlich „unser eigenes Hundefutter essen“.

Erfahren Sie mehr
Kontaktinfo

Machen Sie eine Probefahrt. Demo von Qumulo in unseren interaktiven Hands-On Labs.

Abonnieren Sie den Qumulo-Blog für Kundengeschichten, technische Einblicke, Branchentrends und Produktneuigkeiten.

Verwandte Artikel

Nach oben scrollen