Netgate 2100 freezed sporadisch
-
Hallo zusammen,
Ich habe ein seltsames Problem mit meiner Netgate 2100 (FW: 24.03-RELEASE).
Alle paar Wochen bleibt sie mir offenbar einfacht stehen. Nicht mehr pingbar. Auch über die COM-Schnittstelle ist nur noch ein Blackscreen zu sehen.
Die Logs sind auch nichtssagend. Da ist einfach ein Loch in dem Zeitraum, wo es passiert. Danach sieht man eben den Boot.
Gibt es mit der 24.03. da irgendwelche known issues. Ich weiß, dass es schon eine neuere gibt. Werde das Update einplanen, sobald ich mal dazu komme.Danke schon mal für etwaige Input.

-
@n300 Nein, bekannt wäre mir nichts. Ich habe hier eine 2100 als Testgerät für Workshops stehen die tagelang am Stück läuft und weder auf 24.03 noch mit 24.11 hatte die da Probleme.
Cheers
-
Mein 21 läuft über Wochen vollkommen stabil.
Keinerlei Probleme. -
Alles klar, danke fürs Feedback.
Ich hab da so einen Verdacht, dass es eventuell ein thermisches Problem gewesen sein könnte.
Sie steht bei mir im Netzwerk 19" Rack. Hab da zwar nen Lüfter drinnen, aber ganz kalt ists da drinnen auch nicht.
Hab sie jetzt mal hochkant hingestellt. Vom Gefühl her ist sie jetzt nicht mehr so heiß wie vorher. Vermutlich zieht so die Luft besser durch.
Werde das weiter beobachten.
-
@n300 Hmm 40° sind jetzt für Industriekomponenten eigentlich nichts, aber möglich ist es immer. :)
-
@JeGr
Da geb ich dir recht. Aber als sie noch "normal" im Kasten stand war es fühlbar deutlich wärmer. Hab da leider keine FLIR Aufnahme gemacht. -
So, und wieder mal Leichenfledderei

Ich glaub ich habs jetzt nach Monaten endlich gefunden...
Es dürfte die nachgerüstete M.2 SATA SSD sein, die einfach viel zu heiß wurde.
Da der pfblockerNG seit geraumer Zeit im Python Mode lief, gab ne anständige Grundlast von ca. 65 write ops/s.
Das hab ich reduziert, in dem wieder auf den unbound mode zurückgeswitcht wurde. Dann bin ich in den known issue reingefallen, dass die aktuell 25.07.x Release den syslog crashen lässt, wenn ein externer Syslog Server eingerichtet ist, das hat dann die Write Ops nochmal deutlich reduziert. Dafür gabs auch kein Logging mehr.
Zusätzlich wurde das RAM-Drive aktiviert, weil Memory in meinem Setup ohnehin niemals nie ein Thema war. Selten sind mehr als 1GB von 4GB belegt und das hat die Write Ops nun fast auf 0 gedrückt. Bis auf die regelmäßigen Writebacks.
Ich werte die M.2 Temperatur erst seit kurzem aus und da viel mir auf, dass bei den kurzen Bursts der Writebacks die SSD Temperatur sprunghaft um 20K steigt. Will gar nicht wissen wie heiß das vorher war, mit der Dauerlast von 65 Writes/s. Klingt nicht viel, aber wenn man bedenkt, dass eine drehende 10K HDD ca. 100 IOPS abkann bevor mans in den Latenzen merkt, ist das schon beachtlich - für Grundrauschen.

Als Quickfix hab ich auf die M.2 kleine Kühlkörper, die ich noch vom Grafikkartenumbau rumfliegen hatte (gedacht für VRAM) auf den SATA Controller der geklebt. Das Ergebnis kann sich sehen lassen, Siehe den Temperaturabfall ganz am Ende vom Chart. Im Mittel sinds "nur" so 5-10K kühler. Was aber viel wichtiger ist, durch die Massenträgheit, fallen die kurzen Write Bursts nun fast nicht mehr auf in der Temperatur.
Vorher:

Nachher:

Bis jetzt schaut mal alles gut auf.
Wollte euch daran teilhaben lassen, falls mal wer ein ähnliches Thema haben sollte. -
@n300 schreib dir die SSD nicht kaputt...
https://forum.netgate.com/topic/189820/how-do-i-find-out-what-write-continuously-on-my-pfsense-ssd -
@slu ganz genau. Daher bin ich jetzt ganz froh, dass praktisch überhaupt keine Writes mehr stattfinden.
Der Wearlevel ist schon auf 87% runter nach 3 Jahren.