[solved] [CARP] [HP] Manche host finden ihr Gateway nicht

christoph.strauch

Hallo zusammen,

wir haben folgendes Problem das manche Host beim umschwenk auf die andere Carp Firewall das CARP Gateway nicht erreichen.

Dies betrifft immer mal wieder andere Hosts / Virtuell und Blech. Schwenken wir wieder zurück können alle Rechner und Container das Carp interface pingen.

Da nie alle Hosts / Container betroffen sind und immer nur ein kleiner Teil sind wir langsam ein wenig Ratlos und vlt hat einer ja einen guten Tipp für mich.

Nun zum Setup:

2 PF Sense Firewall instanzen auf echter Hardware installiert - eine in einem Rechenzentrum die anderen in einem anderen.
Diese mittels LACP mit 4 Interfaces auf 2 Switche (HP) aufgelegt.
Die 2 switche Pro Standort sind als Switch Stack konfiguriert.
Die beiden switchstacks sind per layer 2 Rechenzentrumübergreifend verbunden.

Wir nutzten VLANs auf den PFsense maschinen und haben für jedes vlan ein carp vlan gateway interface angelegt. Mit anderen Worten haben wir ca. 10 CARP interfaces.

Diese wechseln auch alle brav den Status von Master -> Slave und umgekehrt wenn wir das möchten.

Ist die Firewall im Rechenzentrum A Master erreichen alle Hosts über die CARP Addresse ihr Gateway.
Ist die Firewall im Rechenzentrzm B Master erreichen nur noch ca. 90 % der Hosts ihr CARP Gateway.

Auf den switchen sind alle VLANs konfiguriert, sowohl auf der A als auch auf der B Seite.

Hat jemand einen Tipp woran dies liegen kann?

Lieben Gruß
Chris

JeGr

Da das bis auf die Verteilung ein ziemliches Standard Szenario sein sollte läge mein Tipp an dem Punkt "Switchstack - verteilt auf 2 RZs - LACP".

Ich würde da mal in den Raum stellen / behaupten, dass einige Kisten Probleme haben, die pfSense am anderen Standort zu erreichen und würde nachsehen, ob das

alles Kisten von Standort A sind, wenn Standort B aktiv ist
gemischt ist
ob alle den ARP und die IP sauber aufgelöst bekommen
beim Fehlerfall (Standby aktiv) irgendwas erkennbar ist, was in Richtung Layer 2, LACP, Switch, MAC geht

Da ihr zwischendrin auch noch LACP habt, könnte das mit ein Punkt sein, dass hier nur Geräte, die per LACP auf einem der 4 Interfaces liegen, nicht sauber laufen. Vielleicht auch nicht alle 4 Interfaces auf beiden Seiten/Im Switchstack sauber konfiguriert?

Ich weiß nicht wie gut/direkt eure Layer 2 Conn zum zweiten RZ ist, aber ich hätte ein wenig Bauchschmerzen gehabt, ein HA über eine RZ-RZ Strecke zu legen. nicht pingbar o.ä. klingt aber danach, dass ein paar Kisten nichts von dem Gateway sehen bzw. die MAC/ARP nicht ziehen können. Vllt. gibts auch Probleme auf dem Multicast Layer über die Entfernung?

Aber dazu braucht es mehr Details - oder einen Support Call ;)

christoph.strauch

Grüß dich JeGr,

vielen dank für deine Antwort.

Die RZ-RZ Verbindung ist auch Redundant und hat eine Pingzeit von unter einer Millisekunde. Die Leitung ist klasse, daher sind wir das "Risiko" eingegangen.

Derzeit haben wir alle Rechner nur auf der Seite A laufen, Seite B ist derzeit noch nicht in Betrieb. Bis auf die Firewall. Daher betrifft es nur die Boxen auf der Seite A.

Wir haben die Interface Konfiguration geprüft gehabt, und jedes Kabel welches ein LACP haben sollte steckt auch in seinem konfiguriertem Port.

MAC / ARP Problem dachten wir auch zuerst dran, wärend auf Seite A ca. 92 Einträge in der ARP Tabelle sind sind auf der B Seite nur rund 40. Das fande ich auch verwunderlich. Jedoch ein hinzufügen des Hosts welcher keinen Zugriff hatte hatte leider keine veränderung gebracht. Es ist aber gut möglich das wir wirklich ein Switch Problem und kein PFSense PRoblem haben.

Daher hoffe ich einfach auf noch ein paar gute Tipps wo ich beim nächsten RZ Besuch noch nach schauen kann.

Lieben Gruß
Chris

JeGr

Puh das ist so ohne weitere Details echt schwierig. Ich habe schon mein Scherflein an unterschiedlichsten schrägen Phänomenen gesehen. U.a. bei UI/1&1 Juniper Stack-Switche deren MAC Tabelle überlief und dann Traffic an Ports ankam, wo er nichts zu suchen hatte. Oder bei einer anderen Company größere HP modular Stacks, die einfach mal lustig MAC Adressen gecloned haben auf unterschiedliche Interfaces. Daher bin ich bei solchen Randphänomenen sehr skeptisch und würde da erst einmal versuchen den L2 weiter zu durchleuchten, denn prinzipiell beschreibst du vom Setup her eigentlich, dass der L3 ordentlich wuppt, Failover geht und greift, manche Kisten laufen auch sauber. Wenn aber andere die CARP VIP nicht mitbekommen... böse.

Was man da testweise noch debuggen könnte wenn ihr eh im Aufbau seid:

LACP auflösen und CARP mal nur über ein sauber konfiguriertes Interface sprechen. LACP mit Switchen rausnehmen hilft raufzufinden, ob es irgendeine Kompatibilitäsmacke der Switches mit LACP/Bonding ist
Alle Subnetze sauber durchleuchten ob Multicast läuft und das mit der CARP VIP kollidiert
Alle Subnetze ableuchten, dass hier nirgends ein Loop aktiv ist oder vom Switch VLANs durchsuppen wo sie nichts zu suchen haben
Gemeinsamkeiten bei den Kisten suchen, die NICHT gehen. Gleiches VLAN, OS, gleicher Typ hat sie aufgesetzt, irgendwas.
Muster finden. Wenns keine Gemeinsamkeiten gibt, dann ggf. Muster. Jede 5. geht nicht. Aus einem bestimmten Netzt geht es immer / nie. Solche Sachen.

Das ist aber wirklich eher ein Debugging Job den man ggf. vor Ort macht um alles abzuklappern was einem auch spontan grade einfallen könnte.

Gruß Jens

christoph.strauch

Hi Jens,

vielen dank für deine Antwort. Da ich auch vermute das wir vlt ein L2 Problem haben werde ich deine Tipps nochmal alle durch gehen.

Werde mich melden wenn wir die Debbug Session angegangen sind. Vlt habe ich da den ein oder anderen Fehler dann ausgeschlossen.

Lieben Gruß
Chris

christoph.strauch

Hallo Jens,

wir haben gestern Abend dann nochmal eine Debbug Session gemacht und das ganze "HA" Setup rückgebaut. Der Fehler lag in der Link Aggregation zwischen den beiden Switchen ( Standorten ).

War also kein pfSense Problem.

Jetzt heißt es forschen warum HP hier "strunks" macht.

Damit hat sich der Threat erledigt, vielen dank!

Lieben Gruß
Chris

JeGr

@christoph-strauch said in [solved] [CARP] [HP] Manche host finden ihr Gateway nicht:

wir haben gestern Abend dann nochmal eine Debbug Session gemacht und das ganze "HA" Setup rückgebaut. Der Fehler lag in der Link Aggregation zwischen den beiden Switchen ( Standorten ).

Oha und was genau kam da raus?

Damit hat sich der Threat erledigt, vielen dank!

Finde ich nicht, es betrifft die pfSense ja durchaus schon, und auch Resultate von Switchen können helfen, wenn andere ein Problem im CARP Stack vermuten :)