Sporadische Internetausfälle: Firewall?
-
Hallo JeGr,
danke! Da liefere ich doch gerne noch ein paar Angaben nach:
Trafic LAN (Peak 10:35 Uhr: outpass 33,5 Mbit/s, inpass 605 kBit/s, inblock 0, outblock 0)
Traffic WAN (Peak 10:35 Uhr: inpass 33,5 Mbit/s, outpass 605 kBit/s, inblock 1,1 Bit/s, outblock 0)
Vor oder zu Beginn der Störung gegen 10:40 fand offenbar noch ein Download statt. Während der Störung zeigte auch die Fritzbox nur flache Peaks im niedrigen Auslastungsbereich, das bekannte Muster ...
Die States noch einmal im Detail (kompletter Graph siehe meine Vorpost)
MBUF-Clusters (Kurve verläuft im Untersuchungszeitraum linear)
MBUF-Usage (Dashboard) im einstelligen Prozentbereich.
System-Log:
/Gerneral: Hier ist nur meine Anmeldung an der Firewall sowie die zweimalige Änderung der Filterregel gelistet.
/Gateway: Kein Eintrag im UntersuchungszeitraumAuffällig sind demnach nur der Anstieg der States sowie der RTT-Zeit im Störungszeitraum.
Weitere Vorschläge zur Fehleranalyse?
Oliver
-
So eine Momentaufnahme ist schwer zu sagen. Sowas lässt sich tatsächlich eher/einfacher live debuggen wenns auftritt weil man dann eher was messen kann. Aber das käme mir jetzt eher nach Leitungsproblem/Provider vor. ~7k States sind nun nicht soo viel auch wenns einen Peak gab der aber auch dadurch zu Stande kommen kann, dass wegen Problemen auf der Leitung die Verbindungen abgerissen sind und mehrfach neu aufgebaut werden müssen. Oder man müsste sich die States zu dem Zeitpunkt ansehen, ob die alle zum gleichen/ähnlichen Ziel gehen oder Querbeet. Ob da ggf. intern eine Kiste durchdreht und Verbindungen aufreißt. Ist alles irgendwie zu vage.
-
This post is deleted! -
Hallo JeGr,
gerne würde ich eine ausführliche Live-Analyse durchführen, doch dafür lässt mir die Störungsdauer leider keine Zeit, oder ich bin nicht zugegen.
Leitungsprobleme, hmm ... Folgender Test während der Störung:
- Laptop an Fritzbox-Gastnetz => Laptop kein Internet
- Laptop an Fritzbox-Gastnetz + Firewall AUS => Laptop Internet!
Danke für deine Einschätzung zu den States.
Wie beurteilst du die hohe RTT-Latenz von 100 ms zum Nachbar-Hop, der Fritzbox?
Oliver
-
@OliverS Ich hatte ebenfalls Probleme nach sporadischen Störungen meiner Leitung. Mir wurde geraten und ich meine auch, dass es geholfen hat, unter SystemRoutingGateways das Default gateway nicht mehr automatisch zuzuweisen, sondern fest zu definieren. Versuch es einfach mal.
GL -
@Bob-Dig:
Danke für den Tipp, der Default Gateway für IPv4 war jedoch bereits fest eingetragen.Oliver
-
Noch immer nicht getestet einfach mal die Fritzbox zu ersetzen?
Dann sind die Schmerzen noch nicht groß genug.-Rico
-
Anlässlich unsere Störung gegen 11:00 Uhr heute einige schöne Grafiken:
Quality (Ping-Laufzeit zur Fritzbox)
States
Leider konnte ich mir die States nicht live anschauen ...
Weniger spektakulär: Traffic LAN
Die Quality war dermaßen mies, dass die pFSense sie vorsichtshalber ins Log schrieb, z.B.: "GW_WAN 192.168.70.1: Alarm latency 523165us stddev 576477us loss 0%"
Auch wenn es mir widerstrebt, ohne eindeutige Fehlerisolierung ein Geräte-Upgrade vorzunehmen: Die Fritzbox steht ganz oben auf der Tausch-Liste. Rico wird mir sicherlich zustimmen.
Oliver
-
Eventuell kann man ja sehen, ob die FB die maximale Anzahl States ausgereizt hat. Eigentlich sollte ein Linux Host dann etwas in der Art loggen:
nf_conntrack: table full, dropping packets
Dies müsste man dann mit ein wenig Glück auch im kurz nach dem Problem gezogenen Support File der FB finden. Leider kommt man ja nicht mehr an die Shell der FB's ran, sonst wäre es eventuell einfacher, das Maximum rauszufinden. -
Danke für diesen Hinweis, athurdent!
Gerade einmal eine der 3 Support-Dateien, die zur Analyse an AVM gingen, nach derlei Begriffen gescannt.
Hmm, ich finde zumindest DAS hier:
LAN
Link encap:Ethernet HWaddr BA:DB:AD:C0:FF:EE
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:2547799 errors:0 dropped:2462280 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:139902179 (133.4 MiB) TX bytes:0 (0.0 B)Habe jedoch keine Ahnung, auf welchen Zeitraum sich diese Angabe bezieht und ob sie tatsächlich störungsrelevant ist.
Außerdem haben die AVM-Jungs die Dateien gecheckt und für in Ordnung befunden ...
Oliver
-
Update:
Nach 1,5 störungsfreien Jahren mit einem Lancom R883+ vor der pfSense habe ich am Sonntag wieder einmal eine Fritzbox (die neue 7590 AX, wegen WiFi 6) in Betrieb genommen - in der Hoffnung, dass sich die damaligen Probleme infolge neuer Hardware und Patch-Stände mittlerweile aufgelöst haben (FEHLANZEIGE!).
VDSL -----
LancomFritzbox ----- pfSense ----- LANDer Montagmorgen (etwa 20 User waren aktiv) verlief unauffällig, aber mittags die bekannten Symptome:
- Webseiten laden sehr verzögert
- Teamviewer rotes Ausrufezeichen
- 50 % Zeitüberschreitungen bei ping 8.8.8.8
Kurze Analyse:
- FritzBox alles grün, DSL seht. Auslastungskurven Upload und Download niedrig.
- Dashboard der pfSense (V. 2.5.1): CPU + RAM im unteren Bereich.
- Allerdings im pfSense-Log: "rc.gateway_alarm 40403 Gateway alarm: GW_WAN (Addr:192.168.70.1 Alarm:1 RTT:508.178ms RTTsd:135.852ms Loss:14%)" (192.168.70.1. ist die Fritzbox)
Reload Filter brachte keine Besserung.
Da die User warteten, habe ich schnell den Lancom wieder in Betrieb genommen - die Probleme waren sofort weg!
Weiß einer, was hier mit Fritzbox und pfSense schief läuft?
Viele Grüße
Oliver
-
@olivers
wir haben auch eine FritzBox 6890 LTE als Backup, das läuft, warum denn auch nicht.Hast Du ein tcpdump gemacht als das Problem aufgetreten ist?
Das wäre sehr interessant und mein erster Ansatz das Problem einzugrenzen. -
@slu
Danke für den Tipp. Nein, mit packet-sniffing kenne ich mich leider nicht wirklich aus. Viel Zeit zum Analysieren gibts aber auch nicht, denn die nervigen User wollen arbeiten.Und am Wochenende ist es mir trotz diverser Last-Tests bisher nicht gelungen, das Phänomen zu reproduzieren, so dass sich der Fehler eingrenzen ließe.
Oliver
-
@olivers
ein tcpdump geht schnell und man kann es dann in Ruhe mit dem Wireshark untersuchen.Ich sehe sonst keine Chance das Problem zu untersuchen, vielleicht hat noch jemand eine bessere Idee...
-
@olivers Dass die FB auf down geht, ist ein komisches Fritz/AVM Problem, dass komischerweise erst seit einigen FW Generationen auftritt. Ich habe da mal testweise vor Monaten schon ne ganz alte Fritte ausgegraben und mit exakt gleicher Konfig der pfSense dahinter vornedran gehängt. Unauffällig. Kein Problem. Neueres Modell mit älterer Firmware gleiches Spiel. Dann die neueren Firmwares ausgetestet und dann wirds zum Russisch-Roulette. Mal gehts, mal bekommt man einfach sporadisch GW downs weil einfach stupid die Pings nicht mehr beantwortet werden. Da es mit Modems oder Routern anderer Hersteller davor überhaupt keinen Streß gibt, kann ich mir persönlich (subjektiv!) leider keinen anderen Schuldigen ausmalen als AVM. Da die mit VPN und Co leider genauso schlampen würde es mich zumindest nicht wundern.
Ich meine mich zu erinnern, dass es besser wurde bzw. man es in den Griff bekam, wenn man beim Gateway in den Advanced Settings die Payload auf 2 gestellt hat (statt 0) und den Ping Intervall auf 1-2 Sekunden erhöht hat. Dann kam der Ausfall weitaus weniger häufig oder gar nicht mehr vor.
Ansonsten kann man natürlich die Gateway Action schlichtweg disablen aber das Monitoring anlassen, dann sollte das GW zumindest nicht down genommen werden und der Traffic weiterlaufen auch wenn die Sense denkt die Fritte ist tot. Alternativ das Monitoring ganz disablen.
Cheers
-
@jegr
Danke! Schön, dass es offenbar noch andere Leidensgenossen gibt.Die Fritzbox geht retour, insofern hat sich das bei mir mit weiteren Tests erledigt.
Grüße, Oliver
-
Ich hatte das 2018-2019 mit der 6490, da habe ich bei hoher Last auch immer einen Totalausfall vom Inet erlebt.
Im Support File stand irgendwo was von rund 2k Sessions max.
Würde bei die auch passen, wenn deine State Table die 4-6k Marke erreicht war dein Inet tot.Die AVM Kisten sind super als TK/ DECT Station aber grausam als GW usw.
-
@nocling
das ist ja interessant, ich sollte dann unser Backup doch mal etwas belasten!