Problem (möglicher Loop) in unserem HA setup

jahlives

Hallo

Wir haben ein merkwürdiges Problem mit unserem pfsense Setup auf zwei Firewalls, welche als Master-Slave laufen sollten. Im Prinzip haben wir uns an dieser Beschreibung orientiert (leider nur auf französisch)
Ich beschreib unser Setup mal rudimentär sonst wird dieser Beitrag ziemlich lange.

Die LAN Seite der Firewalls besteht aus einem LAGG über 2x10GBit Ports mit LACP zu unserem Coreswitch. Auf dem LAGG Interface ist via CARP eine Floating IP zwischen dem Master und dem Slave definiert.
Der HASYNC geht über ein direktes Kabel zwischen den beiden Firewalls und funzt auch prächtig: die Firewallstati und Konfig werden sauber an den Slave übertragen
Das WAN Interface und das LAN Interface (also der LAGG) werden dann über die bridge0 vereinigt.
Mittels devd lauschen wir auf den carp event und nehmen bridge0 auf dem Slave runter resp fahren sie hoch wenn der Master weg ist und der Slave zum Master wird. Das funzt ebenfalls. Sobald der Master taucht bekommt bridge0 auf dem Slave den Status up.

Heute haben wir im RZ dann mal ein bisschen getestet v.a. mit mtr und dann die Master Firewall rebootet. mtr lief erstmal sauber weiter auch als der Slave bereits übernommen hatte. So nach ca 30 Sekunden (leider nicht gemessen) begannen dann auf dem ersten Hop die Paketverluste und kurz darauf meldete sich das Monitoring, dass unsere beiden Subnetze etwas gar unresponsive waren. Schaute sehr nach einem Loop aus. Nach einem beherzten Ziehen des entsprechenden Netzwerkkabels beruhigte sich das ganze wieder.

Im Moment sind wir nicht sicher ob das Problem auf der LAN Seite oder der WAN Seite oder in unserem pfSense Setup liegt. Der Fakt, dass es so heftig auf die Subnetze durchschlägt spricht eher für die LAN Seite. Hingegen können wir den (möglichen) Loop aufbrechen, wenn wir ein Kabel auf der WAN Seite abziehen, was imho wiederum eher für die WAN Seite sprechen würde.

Ich bin mir bewusst, dass die Beschreibung des Setups nicht sehr detailliert ist, aber ich hab die Hoffnung, dass jemand genau sowas schonmal "gebaut" hat und daher die typischen Stolperfallen kennt :-)

Wenn mehr Details nötig sind liefere ich die gerne, wollte aber den Post nicht übermässig gross machen.

Habt nen schönen Tag und Danke für jede Idee/Hilfe

tobi

Rico

Wieso nicht erst mal das Basic Setup mit den offiziellen Guides zum Laufen bekommen und testen, dann weiter ausbauen?
https://www.netgate.com/resources/videos/pfsense-high-availability.html
https://www.netgate.com/resources/videos/pfsense-high-availability-part-2.html
https://www.netgate.com/resources/videos/high-availability-on-pfsense-24.html
https://docs.netgate.com/pfsense/en/latest/book/highavailability/index.html
https://docs.netgate.com/pfsense/en/latest/highavailability/index.html

-Rico

JeGr

Würde ich genauso verstehen. Ein mehr als 3 Jahre altes HowTo mit alter pfSense Version als Basis zu nehmen ist ein Rezept für Desaster. Andere Punkte die mir auffallen sind:

Lagg
Bridge
manueller Eingriff in den Sync

Von sowas würde ich in wichtigen Umgebungen möglichst die Finger lassen. Wir haben u.a. wegen der in 2.3 noch bestehenden Probleme (inzwischen wohl besser) gerade die LAGG Geschichte zurückgebaut, weil es eh nicht genau das bringt, was man sich vielerorts darunter vorstellt und aus 2*10G eben doch nicht (immer) 20G werden. Zumal LAGGs prinzipiell dann so ein Ding sind bezüglich MAC, Quelle, Switch Unterstützung etc. etc.

Auf dem Konstrukt dann auch noch eine Bridge basteln und die dann auch noch semi-automatisch selbstgebaut via Events hoch-/runterfahren... liest sich extremst gruselig. Das sind Netzwerkkonstrukte, die ich draußen grundsätzlich hinterfrage, weil sich der Sinn meist nicht wirklich erschließt - außer "wäre cool" oder "ist doch viel einfacher als..." - was es dann meist doch nicht ist ;)

Gruß