Austausch von Scale Out Fileserver-Knoten im Betrieb

Wir haben bei unserem Scale Out Fileserver (SOFS) vor kurzem einen Tausch der Server-Hardware durchgeführt. Die alten Systeme werden in Zukunft für unseren Hyper-V PowerKurs genutzt, daher wurden für das Produktivsystem zwei neue Server sowie neue SAS-HBAs angeschafft. Nach einer kurzen Überlegung haben wir festgestellt, dass ein Tausch der Hardware auch im Betrieb möglich sein sollte. Um dies zu verifizieren habe ich den Vorgang dann auch in der Praxis durchgeführt und nachgeschaut, ob dies wirklich so einfach und zuverlässig funktioniert.

Grundsätzlich besteht das Failovercluster zur Bereitstellung der Dateiserver-Rolle aus zwei Knoten, die mit jeweils zwei SAS-Kabeln an einem DataOn-JBOD angeschlossen sind. In diesem JBOD stecken sowohl SAS-HDDs als auch SAS-SSDs, diese werden zur Speicherung unserer produktiven VMs genutzt.

Begonnen habe ich mit der Installation von einem der beiden neuen Knoten. Nach dem Update-Vorgang und der Treiber-Installation von SAS-HBA und 10GBit-Karte wurde der Server in das Rack gehängt, aber noch nicht mit dem JBOD verbunden. Im Failovercluster (mit der Dateiserver-Rolle, es geht hier grundsätzlich nicht um das Hyper-V Failovercluster) habe ich nun einen der beiden Produktiv-Systeme in den Wartungsmodus versetzt und überprüft, ob ein Zugriff über den zweiten Knoten noch möglich ist. Nachdem ich dies verifiziert habe, konnte der inaktive Knoten komplett aus dem Failovercluster entfernt und heruntergefahren werden. Zu diesem Zeitpunkt bestand das SOFS-Konstrukt nur aus einem Server. Anschließend wurden die SAS-Kabel des ausgeschalteten Servers entfernt und gleichzeitig wurde der dritte, neu installierte Server angeschlossen. Bevor der neue Server nun hinzugefügt wurde, habe ich den Cluster-Validierungsassistent gestartet um zu überprüfen, ob die Konfiguration in Ordnung ist. Die Überprüfung lief ohne Fehler durch. Es wurden zwar diverse Warnungen angezeigt; diese konnten jedoch alle ignoriert werden (unterschiedliche CPUs, unterschiedlicher Patchlevel usw.). Nachdem nun der dritte Server Mitglied des SOFS war, wurde der zweite ältere Server in den Wartungsmodus versetzt, aus dem Failovercluster und vom JBOD entfernt. Nun wurde der zweite neue Server mit dem JBOD verbunden und nach einem erneuten Test zum Failovercluster hinzugefügt. Die Migration war an dieser Stelle abgeschlossen, der komplette Vorgang lief fehler- und ausfallfrei durch. Ich habe letztlich noch überprüft, ob die beiden CSV-Datenträger an jeden der beiden neuen Server verschoben werden konnten und ob bei einer gleichmäßigen Verteilung über beide Server Daten laufen. Dies war der Fall, seitdem laufen die Systeme problemlos und verrichten ihre Aufgabe.

Ich befinde mich aktuell in München bei einem unserer Kunden, hier haben wir diese Schritte erneut durchgeführt, um die SOFS-Knoten zu tauschen. Hier gab es ebenfalls keine Probleme oder Ausfälle.