pfSense HA-Cluster Kernel Panic?



  • Hallo,

    ich habe jetzt seit einigen Monaten mein HA-Cluster in Betrieb, läuft auch sonst sehr gut. Bis heute:

    Wollte gerade einen neuen OpenVPN Client-specific Override anlegen, als ich auf der ersten pfSense die Meldung bekomme:

    A communications error occurred while attempting to call XMLRPC method host_firmware_version: Unable to connect to tls://10.0.10.10:443. Error: Host is down @ 2019-09-11 09:20:49
    

    Anpingen ging nicht mehr und einloggen per SSH ebenfalls nicht. Glücklicherweise habe ich IPMi auf den Kisten und da konnte ich dann folgendes Bild erblicken:

    Beispiel.jpg

    Die Kiste lief irgendwie weiter und machte Zeile um Zeile diese komischen Zeichen. Habe dann Power Reset durchgeführt und neu gebootet. Jetzt scheint Sie wieder zu laufen.

    Nach dem Boot kam ein Crash Report:
    Crash_Report.txt

    Es sieht mir nach einem Kernel-Panic aus, aber keine Ahnung was diesen verursacht hat. Eigenartig auch das es genau in dem Moment war, als ich etwas neuanlegen wollte.

    Kann mir einer sagen woran das gelegen hat? Gibt es da vielleicht einen bekannten Bug?

    Wäre für Hilfe sehr dankbar.

    Gruß


  • LAYER 8 Moderator

    Ich empfehle einen Blick in den crash report, der mehrfach die recht eindeutige Meldung ausgibt:

    panic: NMI indicates hardware failure
    

    Sogar direkt vor dem Panic am Ende des Files nochmals sehr einfach zu lesen:

    <2>NMI ISA 60, EISA 0
    <2>I/O channel check, likely hardware failure.
    panic: NMI indicates hardware failure
    

    Das hat an der Stelle für mich dann wenig mit Software zu tun, als mehr mit Hardware Versagen. Der Moment ist dabei egal. Unwahrscheinlich ist es nicht, weil die Maschine in dem Moment dann Anordnung via XMLRPC bekommen hat, etwas zu tun -> das ist fehlgeschlagen, daher die Fehlermeldung mit unable to connect... auf dem Master



  • Ok. Dann werde ich erstmal ein Firmware-/BIOS-Update durchführen und dann mal beobachten. Sollte das jetzt öfters passieren, muss ich schauen ob es eventuell ein Treiber-Problem oder tatsächlich ein Hardware-Defekt ist. Danke.


Log in to reply