SSDs "verschwinden" aus zpool -> pfSense "hängt"



  • Hallo Zusammen,

    Ich habe folgendes Problem bei einer Remote-pFSense:

    pfSense 2.4.3-p1
    Supermicro CSE-113MTQ-R400CB (Red 400W Power)
    Supermicro X9SCA
    Intel Xeon 1220L V2
    Intel I350 Quad Port Netzwerkkarte
    2x Intel SSD 510 120GB (In hotplug Trays)

    Installert auf ZFS-Root. Hat 2x Vigor 130 zu Vodaphon, Telekom und 1x LTE-Modem zu Vodaphone als Backup.angeschlossen.
    Die angeschlossenen Vigor130 verlieren auch, nur während der Geschäftszeiten, ab und zu die Konfiguration.

    Die pfSense hängt mit beiden Ports an einer USV.

    Die Hardware wurde KOMPLETT zum zweiten mal getauscht, die SSDs bereits 3x gegen Micron, Intel 520, Intel DC3500!

    Im "dmesg" erscheint:
    ada1 at ahcich1 bus 0 scbus1 target 0 lun 0
    ada1: <INTEL SSDSC2MH120A2 PPG4> s/n XXXXXXXXXXXXXXXXX detached
    (ada1:ahcich1:0:0:0): Periph destroyed
    ada0 at ahcich0 bus 0 scbus0 target 0 lun 0
    ada0: <INTEL SSDSC2MH120A2 PPG4> s/n XXXXXXXXXXXXXXXXX detached
    (ada0:ahcich0:0:0:0): Periph destroyed
    ada0 at ahcich0 bus 0 scbus0 target 0 lun 0
    ada0: <INTEL SSDSC2MH120A2 PPG4> ATA8-ACS SATA 3.x device
    ada0: Serial Number XXXXXXXXXXXXXXXXXXXX
    ada0: 300.000MB/s transfers (SATA 2.x, UDMA6, PIO 8192bytes)
    ada0: Command Queueing enabled
    ada0: 114473MB (234441648 512 byte sectors)
    ada0: quirks=0x1<4K>
    ada1 at ahcich1 bus 0 scbus1 target 0 lun 0
    ada1: <INTEL SSDSC2MH120A2 PPG4> ATA8-ACS SATA 3.x device
    ada1: Serial Number XXXXXXXXXXXXXXXXXXXX
    ada1: 300.000MB/s transfers (SATA 2.x, UDMA6, PIO 8192bytes)
    ada1: Command Queueing enabled
    ada1: 114473MB (234441648 512 byte sectors)
    ada1: quirks=0x1<4K>

    Und die pfSense "hängt" weil die Devices weg sind und nicht wieder in den ZPOOL integriert werden.
    Tunnel sind weiterhin oben. GUI/SSH funktionieren nicht mehr. Nach einem Reset via IPMI/Resetknopf geht alles wieder.

    Das Problem tritt nur während der normalen Geschäftszeiten und häufig gegen 0900, 1300 oder 1630 auf.
    An Wochenenden tritt, trotz laufender Datentransfers/Updates/Wartung der fehler NIE auf.

    Auf der Firewall laufen unter anderen pfBlockerNG und eine restriktive Blockingpolicy.
    Es gibt vor Ort niemanden(mehr) mit Adminrechten. Diese mussten gesperrt werden nachdem, wiederholt, wahrlos
    Dieste gestoppt/neu gestartet wurden und auch Interfaces/Einstellungen verändert wurden.
    Der Serverschrank ist offen zugänglich und nicht verschlossen.

    Hat wer eine Idee was das Problem verursacht? Bin für alles Offen.

    Die Hardware wurde bereits 2x getauscht gegen baugleiche oder ähnliche Systeme die im Dauerbetrieb woanders störungsfrei gelaufen sind! Bei keiner anderen Installation tritt dieser Fehler auf! Nur bei der einen Remotesite.

    Der vor Ort GF möchte nun den IT-Dienstleister wechseln (den damit 5ten Dienstleister!) und auch gleich die pfSense gegen eine "Fritzbox, mit der ja immer alles funktionieren würde" oder sonstiges tauschen.



  • @perforado said in SSDs "verschwinden" aus zpool -> pfSense "hängt":

    Der Serverschrank ist offen zugänglich und nicht verschlossen.

    Würde ich ändern. Die Putzkolonne hat da nichts zu suchen.

    Es scheinen äußere Einflüsse eine Rolle zu spielen. Die Hardware wurde ja schon getauscht.

    Noch etwas. Wenn der Kunde eine Fritzbox will, soll er sie haben. Er ist der König.
    Glücklich wird er dabei wohl auf Dauer nicht werden.



  • Hört sich sehr nach Sabotage an, das solltest du zuerst mal zu 100% ausschließen können bevor weiter an Hard- und Software herumgefummelt wird, das wird sonst zum Running Gag.
    Heißt Serverschrank abschließen, Schlüssel hast erst mal nur du und der GF solange das Thema nicht geklärt ist. Das Selbe gilt natürlich auch für den Technikraum.

    -Rico



  • Hast du mal versucht, die USV wegzulassen?



  • Die USV hat keinen Einfluss auf das Problem.

    Im Rack befinden sich noch andere Server und ein Storagesystem auch an der USV die wesentlich mehr Leistung verbrauchen und keine Probleme Zeigen.

    Ein zweites FreeBSD-basierendes System (Backupserver) im Rack mit 4x4TB Festplatten zeigt keine Auffälligkeiten dieser Art.

    2 ESXi-Server und ein EMC-Storage laufen Störungsfrei.

    Nur die pfSense Firewall (O-Ton: "Funktioniert nie" und "hängt dauernd") wegen obengenannter SSD-Probleme!



  • Selber Vorschlag wie Rico. Die GF sollte aber definitiv keinen Zugang zu den Servern haben. Da du ESXi Server verwendest, würde ich die Sense virtualisieren und die alte Supermicro Hardware einfach als Fake Server drin lassen. Wenn Ausfälle meistens während der Geschäftszeiten auftreten, dann ist es wahrscheinlich, dass eine menschliche Komponente die Fehler verursacht. Hotplug Platten sind schnell mal gezogen. Gibt es für den Server sowas wie iLo, womit man die Hardware überwachen kann?


  • Moderator

    @perforado said in SSDs "verschwinden" aus zpool -> pfSense "hängt":

    Das Problem tritt nur während der normalen Geschäftszeiten und häufig gegen 0900, 1300 oder 1630 auf.

    Also normalerweise würde ich auch mal sagen, komplett andere Hardware (oder mal virtuell zum Test), aber die Zeiten lesen sich seltsam vertraut. Klingt irgendwie nach "kommt morgens, macht mittag, (kurz vor) geht nachmittags" also ziemlich "menschliches" Zeitfenster. Wirkt sehr seltsam.

    Der vor Ort GF möchte nun den IT-Dienstleister wechseln (den damit 5ten Dienstleister!) und auch gleich die pfSense gegen eine "Fritzbox, mit der ja immer alles funktionieren würde" oder sonstiges tauschen.

    Da muss ich @Gladius beipflichten. Wenn man eh schon Gegenwind hat bei sowas, weil jemand partout nicht von etwas zu überzeugen ist, dann wird der Einsatz schwer, weil jedes Fitzelchen das nicht genau so wie bei AVM funktioniert, gleich auf die Goldwaage gelegt wird. Entweder man hat dann schweres Geschütz (was Features etc. angeht, die die Fritte einfach nicht kann) oder es wird echt mühselig. Manche müssen leider erst einen Tod sterben, bevor sie für was anderes bereit sind.

    Gruß