Windows-Update im Scale-Out Fileserver erzeugt Probleme bei der Arbeit mit Datenträgern im Failover Cluster (Update 2)
Mein Kollege Carsten hatte in letzter Zeit einige Probleme mit der Administration von Datenträgern im Failover Cluster. Während der Erstellung von Scale-Out Fileservern gab es immer wieder Probleme mit dem Online schalten oder dem Formatieren von Datenträgern. Ein Neustart der betreffenden Server-Knoten oder eine Übernahme auf einen anderen Knoten haben zwar teilweise geholfen, aber meist nur temporär. Wir haben uns der Sache daher näher angenommen und versucht die Vermutung auf ein problembehaftetes Windows Update zu belegen oder zu widerlegen.
Das Problem
Der Fehler zeigt sich bei folgenden Tätigkeiten:
- Formatierung eines Datenträgers, der bereits zum Failover Cluster hinzugefügt wurde und hier als verfügbarer Speicher angezeigt wird
- Deaktivieren des Wartungsmodus für einen Datenträger im Failover Cluster Manager (Die Aktivierung des Wartungsmodus verlief in meinem Fall immer erfolgreich)
- Online schalten eines Datenträgers im Failover Cluster Manager, der vorab offline geschaltet wurde
Generell fällt auf, dass alle Aktionen mit Datenträgern im Failover Cluster gemacht werden. Die Nutzung von Datenträgern, die ausschließlich lokal administriert werden und nicht zum Failover Cluster hinzugefügt wurden, hat keine Probleme erzeugt. Die Probleme zeigen sich in der Konsole wie folgt
und enden in der folgenden Ansicht
Als Fehler tauchen die folgenden Meldungen auf
Event 157, Disk: Disk 55 has been surprise removed.
Event 1069, System, Microsoft-Windows-FailoverClustering:
Cluster resource ‚vd2‘ of type ‚Physical Disk‘ in clustered role ‚f874aa93-5f6e-4d9b-9550-f2eccc6e1974‘ failed. The error code was ‚0x15‘ (‚The device is not ready.‘).
Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it. Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet.
Die Lösung in Kurzform (Ursprüngliche Variante)
Nach einigen Tests, zig Neustarts und der Überprüfung mehrerer Abhängigkeiten zeigte sich, dass das Windows Update KB2903939 sowie das Hotfix KB2913766 für die Fehler verantwortlich sind. Nach einer Deinstallation der beiden Updates zeigte sich der Fehler nicht mehr.
Update 1 vom 31. März 2014
Nach weiteren Tests scheint sich heraus zu stellen, dass die hier beschriebenen Probleme an den genutzten SSDs liegen. Ich habe alle weiter unten aufgeführten Tests erneut ausgeführt, dieses Mal allerdings ohne SSDs. Hier gab es keine Probleme mit installierten Updates / Hotfixes, auch nach der manuellen Definition von mehreren HDDs als SSDs (Es waren ausschließlich HDDs verbaut, per PowerShell habe ich diese aber so konfiguriert, dass das Betriebssystem denkt es wären SSDs) gab es keine Probleme. Wir setzen momentan SSDs von Seagate ein (ST200FM0053), können momentan aber kein Firmware-Update machen. Sobald ich hier weitere Informationen habe und weitere Tests machen kann update ich diesen Artikel erneut.
Update 2 vom 13. Mai 2014
Wir haben nun die Version 5 der Seagate-Firmware eingespielt. Seit diesem Update ist alles wieder so wie gewünscht, die SSDs können auch mit Update 1 sowie den Hotfixes wieder erfolgreich formatiert werden.
Die etwas ausführlichere Variante (Ursprüngliche Variante)
Wir haben mit der Installation der Hardware-Knoten begonnen und nur das GA-Update KB2883200 sowie den Hotfix KB2913766 eingespielt. Die Einrichtung der Datenträger hat an dieser Stelle schon nicht funktioniert, ein Offline- und erneutes Online-schalten der Datenträger führte bereits zu Problemen und Ausfällen. Ich habe den Hotfix KB2913766 deinstalliert und die beiden Knoten nacheinander neu gestartet. Nach dem Neustart war eine Arbeit mit den Datenträgern kein Problem mehr, alle Operationen liefen wie gewünscht durch. Als Test-Szenario habe ich einen der beiden Datenträger offline geschaltet und den anderen in den Wartungsmodus versetzt. Danach habe ich den Datenträger im Wartungsmodus per Datenträgerverwaltung formatiert. Nach der erfolgreichen Formatierung habe ich beide Datenträger wieder in den Live-Modus versetzt und überprüft, ob dies fehlerfrei funktioniert.
Um die Theorie mit dem Hotfix zu bestätigen habe ich den Hotfix wieder installiert und erneut den Testdurchlauf gemacht. Es kam wieder zu den bekannten Problemen und letztendlich waren die Datenträger offline im Status “Failed”
Carsten hat noch weitere Updates in Verdacht gehabt, die evtl. Auslöser für die Probleme waren, da der besagte Hotfix nicht immer auf den Systemen installiert war, mit denen er in letzter Zeit gearbeitet hat. Daher habe ich weitere Updates installiert und überprüft, ob diese ebenfalls Probleme machen. Als potenzielle Problemerzeuger standen die Updates KB2884846, KB2903939 und KB2911106 im Raum. Ich habe nun alle aktuellen Updates mit dem Stand 20. März 2014 installiert abzüglich den markierten, hier eine Liste:
Nach der Installation zeigten sich keine Probleme, der Test der Datenträger verlief fehlerfrei. Nun habe ich KB2911106 installiert, die Server neugestartet und einen erneuten Test gemacht. Dieser war ebenfalls positiv. Danach habe ich die gleiche Vorgehensweise mit dem Update KB2884846 gemacht, auch hier gab es keine Probleme. Nach der Installation von KB2903939 (dem letzten verfügbaren Update) war der Test nicht mehr positiv, es kam erneut zu Problemen bei der Arbeit mit den Datenträgern. Ich habe das Update danach wieder deinstalliert, die Server neugestartet und konnte dann wieder fehlerfrei mit den Datenträgern arbeiten.