Cluster bricht bei IPSEC Belastung zusammen
-
Hallo,
wir haben in der Firma ein CARP Cluster aus zwei Servern auf denen PfSense läuft in der Version 2.0.3.
Hier haben wir in der Firma einen synchronen 10 Mbit/s WAN Anschluss über welchen ein IPSEC Tunnel in ein RZ aufgebaut wird.
Hier ebenfalls ein CARP Cluster aber in der Version 2.0.1.Wenn ich nun die IPSEC Strecke ins RZ voll belaste also eine Große Datei über Windowsfreigabe kopiere bekomme ich folgende Meldung auf der Master PfSense:
kernel: vip2: link state changed to DOWN
kernel: vip2: MASTER -> BACKUP (more frequent advertisement received)das halt für alle VIP's die wir haben.
diese schaltet sich zum BAckup und die andere wird aktiv.
Unter normaler Belastung sprich nur etwas Signalisierung ist alles gut.
Irgendeine idee?
-
Ich würde schon alleine aus Sicherheitsgründen den zweiten Cluster erstmal auf 2.0.3 bringen. Da sich hier mitunter einige Fixes und auch mal Änderungen beim IPSec Daemon tummeln, wäre das ein guter Anfang. Zum anderen ist dann auch noch der Punkt dass das Interface down geht. Ist es wirklich der Cluster/Master der da down geht oder vielleicht der Uplink? Wir hatten es auch schon, dass auf einer Strecke bei voller Last der SDSL Router des Anbieters weggeflogen ist (Überlast + zu heiß) weil dort wohl irgendetwas mitgefiltert oder geloggt wurde.
Gruß
-
Hallo,
danke für die Antwort mittlerweile bin ich schon auf 2.0.3 leider keine Besserung.
und das mit dem Down kommt ja erst nach dem "kernel: vip2: MASTER -> BACKUP (more frequent advertisement received)" also er bekommet diese Meldung und fährt deshalb alle seine VIP's runter so würde ich es zumindest verstehen.
Noch jemand eine andere Idee vielleicht woran das liegen könnte? Überlast der Modems usw. ist es wohl nicht wenn der Backup übernimmt geht ja alles sofort.
-
Was passiert denn, wenn du den Backup zum Master machst und den Master zu Backup? Geht der "neue" Master dann auch gleich down? Das hört sich ansonsten nämlich nach Hardware Problematik bei der Maschine an?
-
Müsste ich ja alles komplett umprogrammieren und ist leider bei unsere Firma im Livebetrieb.
Hardware hatte ich auch schon im verdacht. kann ich das irgendwie nachprüfen ob es daher kommt? CPU Lastspitze oder so?
Sind halt richtige Server mit Xeon und so vondaher sollten die genug Leistung haben denke ich zumindest. -
Wie sind deine zwei pfSense miteinander auf dem WAN verhängt?
Zufälligerweise über einen im WAN-modem integrierten switch?Rein spekulative idee:
Wenn du einen 10Mbit Switch/Hub an den WAN Seiten hast, könnte es unter viel Last dazu führen, dass Master und Backup nicht mehr richtig kommunizieren können.Als Test für dieses Szenario könntest du einfach einen 100Mbit Switch zwischen dein Modem und die pfSensen hängen.
-
@flix87: Ob das nun richtige Server sind oder nicht ist nebensächlich, ich denke in der Richtung von Mainboard/Netzwerkinterface Problem. Wäre nicht der erste Server, der unter Belastung auf dem Interface einknickt, weil die Hardware madig ist. Könnte natürlich auch RAM oder CPU sein. Nichts desto trotz spricht deine Beschreibung ja dafür, dass der Backup-Server das Ganze ohne Probleme wuppt, während der Master aufgibt. Und da ich vermute dass es gleiche oder sehr ähnliche Hardware ist, spricht das entweder dafür, dass der Master überlastet ist/die Verbindung verliert oder madige Hardware ihn außer Gefecht setzt.
Ansonsten wäre natürlich auch die Option von unserem Freund Frosch sehr interessant und offeriert eine ganz andere Frage: Über welches Interface und welchen Weg sprechen die beiden Server denn Ihren pfSync? Dediziertes Interface? Geteilt auf dem LAN? WAN? DirectLink (Crosskabel zwischen den Servern)? Denn das könnte wirklich gut sein, dass bei voller Auslastung und gesharetem Sync Interface dann einfach zu viel Last auf die Röhre kommt, als dass der Master noch alles ordentlich dem Backup kommunizieren kann, die Verbindung zusammenklappt und er baden geht.
Grüße
-
Also die Server sind mit dedizierten Karten über ein Crosskabel verbunden um ihren Sync zu machen.
Ebenfalls das Lan Interface ist dediziert. Dann sind da noch diverse Netze wie DMZ, Labor … und eben auch die WAN Leitung per VLAN drauf geschaltet.
Die WAN Modenm hängen auf einem Großen Switch (WAN Per 100 Mbit/s und die PfSense mit VLAN auf einem 1 Gbit/s Interface).
Werde mir ein paar Sachen mal anschauen -
Also Server habe ich mal getauscht leider bleibt das Problem weiter bestehen.
Noch Ideen?