PFSense alle paar Wochen nicht erreichbar

mattionline

Hallo,

ich habe das Problem, dass alle paar Wochen aufeinmal das Internet bzw. PFSense wegbricht.
Auf PFSense konnte ich nichtmehr drauf zugreifen (Webinterface) und damit natürlich auch nicht aufs Internet.
Nach einem Neustart der PFSense VM geht dann wieder alles.

Zu meiner Netzwerktopologie:

192.168.2.1 - PFSense LAN
192.168.1.2 - PFSense WAN
192.168.1.1 - Router

Aus dem PFSense LAN Netz konnte ich 192.168.2.1 und 192.168.1.1 nicht pingen.
Ich habe mich in virt-manager per GUI in die PFSense VM eingeloggt und konnte Problemlos 192.168.1.1 pingen. Warum auch immer.

Hatte das Problem von euch schon jemand?

Ich habe schon eine ZweitVM aufgesetzt um zu schauen ob es eventuell an dem virtuellen Netzwerkinterface liegt.
Ich habe schon per ip link show geschaut ob die Bridges UP sind und die iptables gecheckt.
Ich habe schon Wireshark traces auf dem VM Host zu BRLAN und BRWAN gemacht.

Hat sonst noch einer eine Idee was ich checken kann?

2chemlud

Hi!

Interessehalber: Kannst du die Subnetzmasken zu den beiden Netzwerken noch angeben?

mattionline

Bei beiden 255.255.255.0

bon-go

Können hosts von der pfSense Konsole aus erreicht werden (192.168.2.x)? Was für Software läuft zum virtualisieren? Was für Dienste laufen noch auf dem Virtualisierungshost und sind wie an die vorh. NICs gebunden? Feste RAM Zuweisung der VM? Separate physische NICs? Typ? Ist das eine vollwertige 64 Bit pfSense Installation? Letztendlich: was sagen die logfiles system.log, routing.log unter /var/log/ (bzw. ist etwas auffälliges in den anderen dort)?

Was passiert wenn der virt. Stecker der LAN NIC der pfSense 'gezogen' und wieder 'eingestöpselt' wird - kommt die Netzwerkkarte wieder hoch und ist pfSense danach wieder erreichbar?

mattionline

Ich benutze QEMU.
Bridges wurden mit brctl erstellt und in der VM bei den 2 NICs die Bridgenames angegeben.
RAM wurde auf 1GB eingestellt. Den erhöhe ich gleich mal auf 2GB.
Als NIC habe ich die DeLOCK PCI Express Karte (89346). Darauf sind die LAN (Traffic für VMs) und WAN Bridges geschaltet.
Auf dem Mainboard LAN Port geht der Traffic vom Hostsystem durch.
PFSense Version ist die 2.2.6-RELEASE (amd64).

Die anderen Fragen beantworte ich mir dann wenn der Fehler wieder auftritt.
Dann schau ich mal nach den hosts im 192.168.2.x, die logs und den Stecker der NIC an.
Das könnte allerdings ein Weilchen dauern, das das ja nur sporadisch und selten auftritt bzw. alle paar Wochen.

Schonmal vielen Dank für deine Tipps was ich noch alles checken kann!

mattionline

Schneller als erwartet trat das Problem wieder auf.

Zu meiner Netzwerktopologie:

192.168.2.134 - Zweite VM (Monitoring)
192.168.2.130 - Homeserver sprich VM Host in dem die NIC ist
192.168.2.120 - Workstation
192.168.2.1 - PFSense LAN
192.168.1.2 - PFSense WAN
192.168.1.1 - Router

Ich habe zuerst versucht wie du gesagt hast von der PFSense GUI aus 192.168.2.120 zu pingen. Dies schlug fehl.
192.168.2.130 brachte auch keine Antwort.

Von der zweiten VM aus konnte ich PFSense nicht erreichen, aber den Homeserver sprich der VM Host ist UP.
Also ging die Verbindung zur zweiten VM von der Workstation aus.

Danach habe ich mir in der PFSense GUI die Logs angeschaut. Dort stand nichts bemerkenswertes drin (Ich wusste ja die Uhrzeit und konnte somit genau nachschauen).
Der letzte DHCP Request ging heute um 16:28 Uhr raus.
In der filter.log wurde der letzte Logeintrag um 18:20 Uhr geschrieben, also muss die Verbindung kurz danach abgebrochen sein.

Dann habe ich die Kabel mal physisch aus dem Homeserver rausgezogen (BRLAN und BRWAN) und danach konnte ich von der Workstation nichtmehr auf die zweite VM zugreifen (das hat sich geändert) und PFSense ging dann natürlich immer noch nicht.

dmesg brachte auf dem Homeserver ziemlich viele brlan: port 4 vnet 3 entered forwarding state und brlan: port 5 vnet 4 entered disabled state.
Am Ende kamen dann die Meldungen die ich sehen wollte mit link down und link up.

Danach habe ich brctl show und ip link show gecheckt. Die Interfaces waren UP und auch richtig eingestellt mit den Namen (p1p1, p1p2).

Weil ich dann PFSense und die zweite VM immer noch nicht erreichen konnte habe ich die PFSense VM neugestartet und schon ging das Internet wieder, aber die zweite VM konnte ich nicht erreichen.
Nach einem Neustart der zweiten VM ging diese dann auch wieder.

Ich kann mir eigentlich nur vorstellen, dass es am Routing vom Homeserver liegt.
Nur komisch dass ich den Router 192.168.1.1 erreichen kann von der PFSense VM aus.
ich weiß es auch nicht ^^

Hier mal noch ein paar Auszüge:

http://pastebin.com/eTqgA4zL

bon-go

Auf Grund deiner betriebenen Fehlersuche, des Verhaltens der pfSense und der zweiten VM klingen verschiedene Dinge unlogisch. Laut meiner Erfahrung tippe ich auf Probleme mit dem Virtualisierungshost bzw. dessen Netzwerk oder der verwendeten Hardware. Kannst du das ganze mal mit Virtualisierung und anderer Hardware übergangsweise betreiben? Sollte schnell gemacht sein sofern irgendwo noch ein Stück Blech frei ist. Bitte nicht zu alte oder zu billige Komponenten zum testen nehmen.

Ohne das bewerten zu wollen: die DeLock PCIe Karte mit Realtek NIC würde ich versuchen zu ersetzen. Ich hatte das schon mehrmals bei anderen: eine einfache GBit Netzwerkkarte als Erweiterung 'mal eben' eingesteckt. Die laufen nicht lange sauber, werden tlw. sehr heiß (bis hin zur optischen Verfärbung auf dem Plaste), hängen sich auf bzw. blockieren einfach mal so - auch schon unter normalen Desktop Betriebssystem die nicht 24/7 laufen.

mattionline

Ich würde die Hardware des Servers eigentlich ausschließen. Den habe ich vor ein paar Monaten erst selbst zusammengebaut.
Leider habe ich gerade keine halbwegs aktuelle Austauschhardware rumstehen. (Nur noch einen mit DDR2 und da hab ich bedenken wegen dem RAM xD)

Ich behalte die Sache mit dem Netzwerk und der NIC mal im Auge.
Welche NIC würdest du denn empfehlen?

Danke für die Hilfe

bon-go

Wegen der NICs: ich bevorzuge onboard Geräte, bevorzugt Intel. Das wird dir aber nicht weiterhelfen. Wenn du schon schreibst dass du die Hardware vor nicht allzu langer Zeit zusammengebaut hast: was spricht gegen dessen onboard NIC als LAN Anschluss - auch wenn es nur eine ist?

Für WAN bzw. für die Firewall überhaupt sollten es zwei einzelne 100MBit Karten auch tun. Stabilität vor Geschwindigkeit. Zum Testen reicht das allemal.

Was für Pakete / Dienste laufen denn auf der Firewall? Schon mal eine Neuinstallation mit einem Backup versucht?

Für so eine Testgerät als Firewall oder einen Virtualisierer mit wenig Last (weil nur die pfSense zum testen darauf läuft) braucht es nicht unbedingt aktuelle Hardware. Die sollte heilwegs stabil, nicht zu exotisch sein, keine Gimmicks haben und den RAM kann man ja ausgiebig testen (memtet, prime95).

Habe noch kein Gerät gesehen welches produktiv läuft und einfach mal so aufgibt außer es wird zu heiß, hat Stromversorgungs- / Erdungspotentialprobleme, einen Disk Schaden (leicht korrupte Dateisysteme reichen schon) oder hat einen sonstigen Hardwaretreffer weg. Auf nicht zu exotische Hardware und insbesonders wenn virtualisiert läuft die pfSense lange stabil.

mattionline

Vielen vielen Dank für deine Hilfe.

Ich habe jetzt wieder ein paar Sachen zu testen.

mattionline

Meine PFSense ging grad wieder down

Habe aber jetzt zumindest herausgefunden woran es liegt.

Ein ifconfig em1 down und ifconfig em1 up brachte wieder die Verbindung nach draußen. (Eingegeben in der GUI, da SSH Verbindung ja nicht ging von dem LAN Netz)

Es scheint so zu sein dass mein LAN Interface der PFSense selbst aussteigt. (stand vor dem neustart aber auf active)

Aber warum? Und was kann ich dagegen tun?

PS: Ein Kollege von mir hat fast das gleiche Setup und bei Ihm ist heute der WAN Port abgeschmiert mit genau den selben Symptomen.

mattionline

UPDATE: Gerade ist mein WAN Interface ausgestiegen

root@workstation:~$ ping 192.168.1.1
PING 192.168.1.1 (192.168.1.1) 56(84) bytes of data.
From 192.168.2.1 icmp_seq=62 Destination Host Unreachable
From 192.168.2.1 icmp_seq=63 Destination Host Unreachable
From 192.168.2.1 icmp_seq=64 Destination Host Unreachable
64 bytes from 192.168.1.1: icmp_seq=65 ttl=63 time=0.838 ms
From 192.168.2.1 icmp_seq=66 Destination Host Unreachable
From 192.168.2.1 icmp_seq=67 Destination Host Unreachable
From 192.168.2.1 icmp_seq=68 Destination Host Unreachable
64 bytes from 192.168.1.1: icmp_seq=69 ttl=63 time=1.65 ms
64 bytes from 192.168.1.1: icmp_seq=70 ttl=63 time=1.74 ms
64 bytes from 192.168.1.1: icmp_seq=71 ttl=63 time=1.00 ms
64 bytes from 192.168.1.1: icmp_seq=72 ttl=63 time=1.10 ms
64 bytes from 192.168.1.1: icmp_seq=73 ttl=63 time=1.01 ms
64 bytes from 192.168.1.1: icmp_seq=74 ttl=63 time=0.832 ms
64 bytes from 192.168.1.1: icmp_seq=75 ttl=63 time=0.844 ms
64 bytes from 192.168.1.1: icmp_seq=76 ttl=63 time=0.780 ms
64 bytes from 192.168.1.1: icmp_seq=77 ttl=63 time=1.04 ms
64 bytes from 192.168.1.1: icmp_seq=78 ttl=63 time=0.859 ms
64 bytes from 192.168.1.1: icmp_seq=79 ttl=63 time=0.938 ms
64 bytes from 192.168.1.1: icmp_seq=80 ttl=63 time=0.980 ms
64 bytes from 192.168.1.1: icmp_seq=81 ttl=63 time=2.02 ms
64 bytes from 192.168.1.1: icmp_seq=82 ttl=63 time=1.11 ms
64 bytes from 192.168.1.1: icmp_seq=83 ttl=63 time=0.933 ms
64 bytes from 192.168.1.1: icmp_seq=84 ttl=63 time=1.34 ms
64 bytes from 192.168.1.1: icmp_seq=85 ttl=63 time=1.02 ms
64 bytes from 192.168.1.1: icmp_seq=86 ttl=63 time=1.29 ms
64 bytes from 192.168.1.1: icmp_seq=87 ttl=63 time=1.56 ms
64 bytes from 192.168.1.1: icmp_seq=88 ttl=63 time=0.859 ms
64 bytes from 192.168.1.1: icmp_seq=89 ttl=63 time=1.01 ms
^C
–- 192.168.1.1 ping statistics ---
89 packets transmitted, 22 received, +6 errors, 75% packet loss, time 88497ms
rtt min/avg/max/mdev = 0.780/1.128/2.029/0.331 ms

Ein ifconfig em0 down und ifconfig em0 up brachte wieder die Verbindung.

Guest

Aber warum? Und was kann ich dagegen tun?

Gibt es dort im BIOS eventuell Stromsparfunktionen? Also bei keine verkehr das Interface abschalten?

PS: Ein Kollege von mir hat fast das gleiche Setup und bei Ihm ist heute der WAN Port abgeschmiert mit genau den selben Symptomen.

Wenn da nicht die genau gleiche Konfiguration drauf ist bringt uns das hier bei Deinem Problem aber
recht wenig weiter. Denn vieles ist eher auf die Konfiguration zurück zu führen und nicht auf Probleme
die pfSense selber hat. Ja nachdem wie viel RAM Du verbaut hast, könnte man einmal mit der Größe
der mbuf size experimentieren, halt kleiner oder größere Werte setzen und abwarten.

athurdent

Ich schlage vor, die Realtec Nic gegen eine Intel zu tauschen. Was hast Du denn für eine Nic on-board durch die der Traffic des Hostsystems geht? Benutz die vielleicht mal für die Lan Bridge.

Übrigens, falls die on-board Nic und die Bridge Lan Nic im gleichen Netz stecken, kannst Du Dir das mit dem separieren des Traffics des Hostsystems eh sparen. Linux sucht sich in der Regel bei Nics im selben Subnet aus, über welche Nic es IP-technisch geht. Unabhängig davon, welcher Nic Du eine IP zugewiesen hast.

Edit: Link zum Thema: http://blog.cj2s.de/archives/29-Preventing-ARP-flux-on-Linux.html

mattionline

FYI: Mir ist gerade aufgefallen, dass in den Gateway Logs apinger immer den Ausfall des WAN Interfaces meldet.

Mar 8 20:18:51 apinger: alarm canceled: WANGW(192.168.1.1) *** delay ***
Mar 8 20:18:48 apinger: ALARM: WANGW(192.168.1.1) *** delay ***
Mar 8 20:18:41 apinger: Could not bind socket on address(192.168.1.2) for monitoring address 192.168.1.1(WANGW) with error Can't assign requested address
Mar 8 20:18:40 apinger: Could not bind socket on address(192.168.1.2) for monitoring address 192.168.1.1(WANGW) with error Can't assign requested address
Mar 8 20:18:39 apinger: Could not bind socket on address(192.168.1.2) for monitoring address 192.168.1.1(WANGW) with error Can't assign requested address
Mar 8 20:18:39 apinger: alarm canceled: WANGW(192.168.1.1) *** down ***
Mar 8 20:17:43 apinger: ALARM: WANGW(192.168.1.1) *** down ***

mattionline

Anbei mal den Trace auf dem WAN Port von pfsense

Kann das 6. Paket ein Problem sein für pfsense?
Weil da ist der wan port down gegangen

capture.pcapng