Sporadische Internetausfälle: Firewall?



  • Hallo in die Runde,

    sporadische Internetprobleme stören immer wieder die Arbeitsharmonie :-/

    Systemaufbau:
    Telekom SIP-Trunk VDSL 100 ------ Fritzbox -------- pFSense -------- Switch ------ 20 PC

    Fritzbox: 7490 mit jeweils aktuellem Update
    PfSense: Community Edition 2.4.4-RELEASE-p3 auf Krenn LES v3-PC

    Die Internetverbindung ist grundsätzlich performant im Up- als auch im Download. Allerdings fällt sie unregelmäßig etwa einmal pro Woche für ca. 5-20 Minuten aus: Webseiten öffnen nicht oder extrem verzögert.

    Beim ersten Auftreten der Störungen wurde die Telekom kontaktiert, doch dort hieß es, leitungstechnisch alles OK.

    Ein Blick auf die Firewall während der Strörung zeigt folgendes: CPU und Memory im einstelligen Auslastungs-Bereich, Traffic-Graphs WAN + LAN minimale KBit-Ausschläge, System-Log ohne besondere Einträge.

    Unauffällig ebenso die Fritzbox: VDSL alles grün mit 110 bzw. 30 KBit/s, keine Hinweise auf Fehlfunktion. Während der Störungen generierte Supportdaten wurden durch AVM ausgewertet - ohne Befund (nebenbei: AVM hat einen sehr freundlichen und hilfsbereiten Support). Die Fritzbox wurde vorsorglich ausgetauscht.

    Besondere Up- oder Downloads wurden vor den Störungen lt. Usern nicht initiiert.

    Beim letzten Internetausfall folgender TEST:

    • Handy über Gastnetz-WLAN direkt mit Fritzbox verbunden => Kein Internet auf Handy (erwartungsgemäß)
    • Firewall von Fritzbox getrennt => Handy lädt die angeforderte Webseite (!!!)
    • Firewall wieder mit Fritzbox verbunden => Handy kein Internet
    • … (3 x wiederholt)

    Offenbar leidet entweder die Firewall oder doch der Router unter sporadischem Datenschluckauf. Kennt jemand dieses Problem? Tipps für die weitere Vorgehensweise?

    Viele Grüße

    Oliver


  • LAYER 8 Moderator

    @OliverS said in Sporadische Internetausfälle: Firewall?:

    Offenbar leidet entweder die Firewall oder doch der Router unter sporadischem Datenschluckauf.

    Das passt mit dem "Handy an FB funktioniert nicht wenn anderes Gerät per LAN an FB gesteckt ist" nicht zusammen. Nur das Anschließen von einem Gerät killt ja nicht auf der FB das WLAN (das damit nicht mal verbunden ist). Klingt also eher nach etwas, das die FB an der Stelle komisch macht. Was sagt denn die pfSense und das Gateway Monitoring? Das müsste die FB ja anpingen und anzeigen? Evtl. noch ein Dummy Gateway anlegen und eine IP draußen mit überwachen lassen damit man sieht was passiert?



  • @ JeGr: Danke für deine Antwort.

    Nicht das WLAN-Signal der Fritzbox wird gestört, wenn ich die Firewall inkl. LAN anschließe, sondern die "Internetfunktionalität" der Fritzbox. Ich wundere mich hierüber ja selbst und kann nur die Testergebnisse vorlegen - und weniger eine Erklärung.

    GW-Error auf Firewall erst, wenn die Fritzbox neustartet (ob der FB-Neustart die Störung tatsächlich beseitigt, ist unklar. Aber irgendwas muss man ja machen).

    IP nach draußen anpingen geht nicht oder nur mit hohen Latenzen während der Störung.

    Als nächstes werde ich statt der Fritzbox einmal die Firewall neustarten. Auch wäre interessant zu sehen, inwieweit das Umgehen der Firewall (LAN direkt mit Fritzbox verbinden) das Störungsereignis beeinflusst.

    "Leider" ist der Internetausfall immer nur kurzzeitig - und die meiste Zeit verbringe ich statt mit weiterführenden Tests meist damit, mir die Anwendermeute vom Hals zu halten :-)

    Oliver


  • LAYER 8 Moderator

    @OliverS said in Sporadische Internetausfälle: Firewall?:

    "Leider" ist der Internetausfall immer nur kurzzeitig - und die meiste Zeit verbringe ich statt mit weiterführenden Tests meist damit, mir die Anwendermeute vom Hals zu halten :-)

    Glaub ich gern!

    @OliverS said in Sporadische Internetausfälle: Firewall?:

    Als nächstes werde ich statt der Fritzbox einmal die Firewall neustarten. Auch wäre interessant zu sehen, inwieweit das Umgehen der Firewall (LAN direkt mit Fritzbox verbinden) das Störungsereignis beeinflusst.

    Das wäre tatsächlich das Interessante für dich, was genau da eigentlich schief läuft. Evtl. ein internes "Dummy" Gateway anlegen auf eine IP die nicht existiert und dann als Monitoring IP sowas wie 1.1.1.1 eintragen und die GW Actions abschalten für das GW. So habe ich es bei mir mal testweise eingerichtet, da ich meine Fritte davor überwachen wollte. Normales GW für WAN ist die .1 (die FB selbst), das GW_Test hat die .253 (nicht vergeben) und als Monitoring IP 1.1.1.1 und disable GW actions gesetzt. Damit kann ich beide Gateways in den Statistiken der pfSense sehen und mir auch per Graph ansehen, ob sich bspw. was angedeutet hat wie immer höher werdende Latenz/Pingverluste bevor die Leitung ganz weg ist. Hatten ja schon 1-2x so seltsame FB Probleme bei der die FB urplötzlich anfing hohe Latenz und Paketverluste zu bekommen und dann weg war - Neustart, geht wieder. Bei Austausch mit DSL Modem lief plötzlich alles super. Bei anderen gabs mit gleichen / ähnlichen Boxen überhaupt kein Problem. Scheint also sehr sporadisch und sehr wenig zu passieren, aber evtl. ist das bei dir was ähnliches?



  • Hallo zusammen,

    @JeGr: Danke für deinen Beitrag und die Tipps – das mit den Dummy-Gateways werde ich mir bei nächster Gelegenheit einmal näher anschauen.

    Heute erneut Internetausfall: Webseiten laden nur zögerlich, VOIP-Telefonie nur eingeschränkt möglich, Ping nach extern hohe Latenzen oder Zeitüberschreitung. Graphen von Fritzbox (DSL) und Firewall (WAN in/out + LAN in/out) unauffällig.

    Test
    1.) Laptop an Gastport der Fritzbox (= Umgehung der Firewall)
    => Ping-Antwort 3-stellig bzw. Zeitüberschreitung. Webseiten laden nicht (wie LAN).

    2.) Herunterfahren der Firewall
    => Pingantwort 2-stellig, Webseiten laden!!!

    3.) Firewall starten
    => Ergebnis siehe (1.)

    Das deckt sich mit den Erkenntnissen aus meinem ersten Posting. Somit scheint tatsächlich die pFSense-Firewall der Übeltäter zu sein, und nicht die Fritzbox. Doch was genau läuft hier schief? Weitere Vorschläge zur Fehlerisolierung oder -Beseitigung wären klasse!

    Vorweihnachtliche Grüße in die Runde

    Oliver



  • Nachtrag: Last-Test

    Im „ungestörten“ Normalbetrieb heute auf 5 Rechnern gleichzeitige Downloads von GB großen Dateien gestartet - Ergebnis:

    • Fritzbox: Downstream am Anschlag (100 MBit/s)
    • pFSense: WAN/IN dauerhaft nahe 100 MBit/s
    • Ping 8.8.8.8 geht in den dreistelligen Bereich, gelegentliche Zeitüberschreitungen
    • Webseiten ÖFFNEN

    Es zeigt sich erwartungsgemäß deutlicher Traffic auf Fritzbox und Firewall - im Unterschied zur "Störung", wo nur sporadische Peaks auftauchen.

    Trotz hoher Last laden jedoch Webseiten (wenn auch etwas verzögert).

    Vorschläge – gerne! 😊

    Oliver


  • LAYER 8 Rebel Alliance

    20 Clients ist zwar nicht die Welt, aber je nach Art des Traffic den ihr da habt kann das schon zu viel sein für die Fritz, Stichwort States. ☺
    Die Fritzbox ist als Heimrouter gedacht, dementsprechend ist sie ausgelegt. Ich würde die Fritz mal gegen ein Modem tauschen, z.B. Vigor 165 - ich Wette deine Probleme sind dann verschwunden. Falls es unbedingt ein Router sein soll/muss bzw. du ein von der Telekom offiziell unterstüztes Gerät haben willst tut es auch sowas wie das ZyXEL Gateway 400.

    Solche Probleme mit der Fritz hatten wir im Forum jetzt schon häufiger, z.B. hier https://forum.netgate.com/topic/143776/erhöhte-antwortzeiten-richtung-fritzbox-nach-x-minuten 😁

    -Rico



  • Hallo Rico,

    ich danke dir. Der verlinkte Post beschreibt in der Tat eine sehr ähnliche Symptomatik. Dort aber konnte man das Problem offenbar reproduzieren. Bei uns klemmt Internet scheinbar zufällig alle ein, zwei Wochen. Was es auslöst – unbekannt.

    Ich werde folgende Ansätze verfolgen:

    • Wie von dir vorgeschlagen, die Fritzbox prophylaktisch gegen ein leistungsfähigeres Gerät austauschen. Bei diesem Gedanken schmerzt mich allerdings, dass der eindeutige Beweis der Fehlerhaftigkeit der Fritzbox bisher nicht vorliegt. Die Fritzbox-Supportdatei liefert weder Hinweise auf hohe Auslastung noch sonstige Auffälligkeiten. So zumindest AVM. Laut denen verträgt die Fritzbox auch mehrere 100 gleichzeitige IP-Verbindungen gut – da liegen wir deutlich darunter.

    • Bei der nächsten Störung testweise die Firewall bypassen und LAN direkt an die Fritzbox anschließen.

    • Bufferbloat. Ob unser Störungsbild zu Bufferbloat passt, ich bin mir nicht sicher. Ich würde erwarten, dass die pFSense in ihren Standardeinstellungen für unseren Standard-Internetanschluss bestens konfiguriert ist. Das Einrichten von Codel-Trafficshaping ist jedoch kein großer Akt - ich werds einfach mal probieren (kennt jemand den optimalen Wert für „Queue Length“ bei Telekom VDSL 100?).

    Grüße, Oliver


  • LAYER 8 Rebel Alliance

    Nach deiner Fehlerbeschreibung gehe ich auf keinen Fall von einem Bufferbloat Problem aus. Ich würde an deiner Stelle jetzt auch nicht an mehreren Stellen gleichzeitig ändern, bei zu vielen Baustellen verliert man dann schnell komplett den Überblick.
    Immer eins nach dem Anderen und dann ausgiebig testen. i.d.R. kommt man so am schnellsten ans Ziel.
    Wieviel aktive States siehst du denn auf pfSense Seite sobald das Problem auftritt?

    -Rico



  • Hallo Rico,

    danke für deine Einschätzung zu Bufferbloat - und für den Hinweis auf die Anzahl der States. Wo kann ich diese Größe am besten checken?

    • Unter Diagnostic/States oder .../States Summary sehe ich die Liste, allerdings nicht die Anzahl ...
    • Dashboard/System Information/State Table Size?
      (aktuell [ungestört] "0% (1799/803000)" - ist 1799 die aktuelle Anzahl der States?)

    Viele Grüße
    Oliver


  • LAYER 8 Rebel Alliance

    Genau, die Anzahl siehst du am einfachsten direkt auf dem Dashboard. Interessant wäre die Anzahl mal wenn der Internetzugriff abschmiert.
    Unter Diagnostics > pfTop kannst du die States live beobachten. Geht auch über die Console/SSH mit pftop bzw. Option 9.

    -Rico



  • Danke.

    Während der Störung könnte wahrscheinlich auch interessant sein, die State-Table einmal zurückzusetzen.

    Leider (...) bin ich nicht immer anwesend, wenn Internet gerade spinnt.

    Gibt es eine Möglichkeit, den Verlauf der States nachträglich im System-Log auszulesen?

    Oliver


  • Rebel Alliance

    Unter Status/Monitor kannst Du dir die States anzeigen lassen. mit den 8H Zeitfenster sogar recht genau. wenn es hilft...

    Mike



  • Hilft sehr - danke, Mike!

    Off-Topic: Am für User arbeitsfreien Samstag bei unbelastetem Netz ein wenig mit Bufferbloat-Codelq-Trafficshaping experimentiert (Einstellungen gemäß https://www.youtube.com/watch?v=iXqExAALzR8 , Messwerteerfassung mit http://www.dslreports.com/speedtest):

    Test 1 10:00 Traffic-Shaping AUS: 35 Down, 30 Up, Bufferbloat "A"
    Test 2 10:05 Traffic-Shaping AUS: 33 Down, 32 Up, Bufferbloat "D"
    Test 3 10:15 Traffic-Shaping AUS: 40 Down, 35 Up, Bufferbloat "B"
    Test 4 10:20 Traffic-Shaping EIN: 58 Down, 18, Up, Bufferbloat "D"
    Test 5 10:25 Traffic-Shaping AUS: 40 Down, 22 Up, Bufferbloat "A"
    Test 6 10:30 Traffic-Shaping EIN: 20 Down, 16 Up, Bufferbloat "D"
    Test 7 10:35 Traffic-Shaping AUS: 31 Down, 32 Up, Bufferbloat "F"

    Demnach ist zumindest bei uns kein Zusammhang zwischen Traffic-Shaping und Bufferbloat-Rating erkennbar.

    Da die ermittelte Bandbreite zu gering erscheint für VDSL 100, habe ich mit https://www.wieistmeineip.de/speedtest nachgetestet:
    Test 8 10:40 Traffic-Shaping AUS: 99 Down, 40 Up
    Test 9 10:41 Traffic-Shaping AUS: 95 Down, 43 Up

    Soviel zur Aussagekraft von Bandbreiten-Messungen ...

    Oliver



  • Hallo + Frohes Neues!

    Die erste Arbeitswoche in 2020 fängt gut an: An gleich 2 Tagen hintereinander für etwa 10 bis 20 Minuten Internetausfall!

    Heute war ich während einer Störung zugegen (die Anwender stürmten gegen 10:45 Uhr mein Büro) und beobachtete folgendes:

    • Ping Google + Ladezeiten Webseiten unterirdisch
    • Firewall: Die Anzahl der States erhöhte sich
    • Firewall: Die Ping-Laufzeit zur Fritzbox erhöhte sich ("Quality GW_WAN")

    Grafiken:
    990e814e-08d0-419f-9751-a9163bd3e421-image.png

    cce511d9-4ca5-406d-912e-eeaa9377f634-image.png
    (Störungsbeginn etwa 10:40 Uhr)

    Als ich gegen 10:55 die Bufferbloat-Trafficshaping-Regel testweise aktivierte, normalisierten sich die Anzahl der States, die GW-WAN-Latenz, der Google-Ping, sowie die Internet-Ladegeschwindigkeit - die Störung war beendet!

    Ein erneutes Deaktivieren der Regel hatte dann jedoch keinen Einfluss auf das nun wieder funktionierende Internet, so dass vielleicht ein Zufall vorgelegen haben mag. Ich werde bei der nächsten Störung als erstes diese Regel wieder aktivieren und beobachten.

    Die Zunahme der States sowie der Ping-Latenz GW_WAN hatte ich bereits bei einer früheren Störung beobachtet - was kann ich aus dem Kurvenverlauf schlussfolgern?

    Viele Grüße
    Oliver


  • LAYER 8 Moderator

    @OliverS said in Sporadische Internetausfälle: Firewall?:

    was kann ich aus dem Kurvenverlauf schlussfolgern?

    Wenig. Da fehlt bspw. noch der Traffic Graph zur gleichen Zeit sowie Syslogs. Das gibt dann eher ein Gesamtbild. Ist z.B. zwischen 1041 und 1100 die Bandbreite ausgemaxt gewesen? Wieviele States gab es? Gabs Probleme bei den mbuf Werten in der Zeit etc. etc. Nur Delay/Packet Loss und States anzusehen ist da nicht so wirklich aussagekräftig.



  • Hallo JeGr,

    danke! Da liefere ich doch gerne noch ein paar Angaben nach:

    Trafic LAN (Peak 10:35 Uhr: outpass 33,5 Mbit/s, inpass 605 kBit/s, inblock 0, outblock 0)
    29773e08-ec34-4819-ab10-6bef2315c71a-image.png

    Traffic WAN (Peak 10:35 Uhr: inpass 33,5 Mbit/s, outpass 605 kBit/s, inblock 1,1 Bit/s, outblock 0)
    eaac79e9-4327-43f2-a45b-a23261a83b82-image.png

    Vor oder zu Beginn der Störung gegen 10:40 fand offenbar noch ein Download statt. Während der Störung zeigte auch die Fritzbox nur flache Peaks im niedrigen Auslastungsbereich, das bekannte Muster ...

    Die States noch einmal im Detail (kompletter Graph siehe meine Vorpost)
    ae21a54b-0614-4f70-8584-a88b909951c1-image.png

    MBUF-Clusters (Kurve verläuft im Untersuchungszeitraum linear)
    13e765fc-f05d-434e-bd49-52a0f6a9b1d4-image.png

    MBUF-Usage (Dashboard) im einstelligen Prozentbereich.

    System-Log:
    /Gerneral: Hier ist nur meine Anmeldung an der Firewall sowie die zweimalige Änderung der Filterregel gelistet.
    /Gateway: Kein Eintrag im Untersuchungszeitraum

    Auffällig sind demnach nur der Anstieg der States sowie der RTT-Zeit im Störungszeitraum.

    Weitere Vorschläge zur Fehleranalyse?

    Oliver


  • LAYER 8 Moderator

    So eine Momentaufnahme ist schwer zu sagen. Sowas lässt sich tatsächlich eher/einfacher live debuggen wenns auftritt weil man dann eher was messen kann. Aber das käme mir jetzt eher nach Leitungsproblem/Provider vor. ~7k States sind nun nicht soo viel auch wenns einen Peak gab der aber auch dadurch zu Stande kommen kann, dass wegen Problemen auf der Leitung die Verbindungen abgerissen sind und mehrfach neu aufgebaut werden müssen. Oder man müsste sich die States zu dem Zeitpunkt ansehen, ob die alle zum gleichen/ähnlichen Ziel gehen oder Querbeet. Ob da ggf. intern eine Kiste durchdreht und Verbindungen aufreißt. Ist alles irgendwie zu vage.



  • This post is deleted!


  • Hallo JeGr,

    gerne würde ich eine ausführliche Live-Analyse durchführen, doch dafür lässt mir die Störungsdauer leider keine Zeit, oder ich bin nicht zugegen.

    Leitungsprobleme, hmm ... Folgender Test während der Störung:

    • Laptop an Fritzbox-Gastnetz => Laptop kein Internet
    • Laptop an Fritzbox-Gastnetz + Firewall AUS => Laptop Internet!

    Danke für deine Einschätzung zu den States.

    Wie beurteilst du die hohe RTT-Latenz von 100 ms zum Nachbar-Hop, der Fritzbox?

    Oliver



  • @OliverS Ich hatte ebenfalls Probleme nach sporadischen Störungen meiner Leitung. Mir wurde geraten und ich meine auch, dass es geholfen hat, unter SystemRoutingGateways das Default gateway nicht mehr automatisch zuzuweisen, sondern fest zu definieren. Versuch es einfach mal.
    GL



  • @Bob-Dig:
    Danke für den Tipp, der Default Gateway für IPv4 war jedoch bereits fest eingetragen.

    Oliver


  • LAYER 8 Rebel Alliance

    Noch immer nicht getestet einfach mal die Fritzbox zu ersetzen?
    Dann sind die Schmerzen noch nicht groß genug. 😁

    -Rico



  • Anlässlich unsere Störung gegen 11:00 Uhr heute einige schöne Grafiken:

    Quality (Ping-Laufzeit zur Fritzbox)
    d83108b7-8f22-4b89-9576-07265813e6dc-image.png

    States
    08c61400-3fa7-4016-9794-9c76f698ae6f-image.png

    Leider konnte ich mir die States nicht live anschauen ...

    Weniger spektakulär: Traffic LAN
    62ac7360-6736-4704-8379-25eadb7112d4-image.png

    Die Quality war dermaßen mies, dass die pFSense sie vorsichtshalber ins Log schrieb, z.B.: "GW_WAN 192.168.70.1: Alarm latency 523165us stddev 576477us loss 0%"

    Auch wenn es mir widerstrebt, ohne eindeutige Fehlerisolierung ein Geräte-Upgrade vorzunehmen: Die Fritzbox steht ganz oben auf der Tausch-Liste. Rico wird mir sicherlich zustimmen. 😁

    Oliver


Log in to reply