Unerklärlicher Packetloss



  • Hallo ihr Lieben,

    ich habe unerklärlichen packetloss zwischen 0,5 -1 % auf dem WAN Interface. Aber auch nur auf dem WAN Interface.
    Intern zwischen den Netzen absolut problemlos.

    Ich habe schon alle möglichen Komponenten ausgetauscht. Sogar die Hardware wie Switche, Kabel usw. usw.
    Auch den Swichport beim Provider haben wir gewechselt.

    Ich habe ein zu 100% identisches Gerät die zu 100% indentisch konfiguert ist ist nur das kein Traffic drüber läuft.
    Und auch da habe ich keinen Loss. Sobald ich aber den Traffic auf die andere Firewall schieben habe ich dort den Loss und auf der inaktiven ist der Loss dann weg.

    Ich bin mit daher zu 1000% sicher das es an der pfSense liegt und ich habe keine Idee mehr. Ich habe alles mögliche deaktiviert an Cryptro zeug und so.

    Ich vermute das irgendwie zuviele MACs auftauschen oder zuviel Broadcast auf dem Interface oder oder oder.
    Ich bin aber total ratlos was ich noch versuchen kann das Problem zu beheben.

    Habt ihr noch Ideen?

    ich habe noch mal ein Bild angehangen der aktuellen Verkabelung. Wir haben aus Debug gründen derzeit beide Firewalls unterschiedlich (wan direkt und wan über Switch) angeschlossen. Ändert nicht an der tatsache das wenn ich eine Firewall produktiv schalte Loss habe und die andere dann nicht mehr.

    Cheers

    Daniel

    ![Screenshot 2017-10-21 20.44.41.png](/public/imported_attachments/1/Screenshot 2017-10-21 20.44.41.png)
    ![Screenshot 2017-10-21 20.44.41.png_thumb](/public/imported_attachments/1/Screenshot 2017-10-21 20.44.41.png_thumb)


  • LAYER 8 Moderator

    Ich bin mit daher zu 1000% sicher das es an der pfSense liegt und ich habe keine Idee mehr. Ich habe alles mögliche deaktiviert an Cryptro zeug und so.

    Dann muss ich mal ganz un-gentlemen-like HÄ? sagen. Wenn du siehst, dass die idle-Sense KEIN Loss hat und sobald Traffic draufkommt hat sie Loss ist das daher 1000% ein pfSense Problem!? WTF?

    Ich würde daraus eher schließen:

    a) entweder mein ISP/Uplink hat ein Problem, denn sobald Traffic fließt habe ich LOSS
    b) oder meine Hardware Interfaces, die auf WAN Seite zeigen haben ggf. ein Problem - bei 2 Geräten die identisch sind handelt es sich vielleicht um andere Karten als intern oder andere Konfiguration?
    c) ein Gerät zwischen Uplink und meiner Sense macht Probleme sobald Traffic aufkommt
    d) wo wird mir der Loss gemeldet? GW monitoring auf der pfSense?`Habe ich spürbar irgendwo Loss/Lag?

    Problemansatz: Habe ich nur Loss bei richtigem Traffic (große Pakete?) oder nur bei kleinen Paketen? oder bei beidem/allem? Habe ich vllt. nur bei 0-10Byte Paketen ein Problem? Weil zwischendrin ein Gerät hängt das ICMP niederpriorisiert und deshalb nicht immer antworten muss?
    Habe ich ggf. beim Gateway mal eine andere Monitoring IP eingetragen? Habe ich das Gateway Monitoring mal angepasst bzw. im Systemlog geschaut WAS er bemängelt?

    Fazit: da kann alles mögliche der Fehler sein, aber aus deiner Kurzanalyse zu schließen, dass es die pfSense sein MUSS halte ich für etwas vermessen :)



  • Hi,

    ich werde mal alles kommentieren was bereits gemacht wurde ;)
    Natürlich habe ich nicht nur 1-2 Dinge getestet sondern tatsache teste ich seit WOCHEN in allen möglichen Konstellationen.

    a) entweder mein ISP/Uplink hat ein Problem, denn sobald Traffic fließt habe ich LOSS

    Das ist definitiv auszuschließen. auf der anderen Seite hängt ein Cisco Switch. Wir haben sowohl Kabel als auch Ports getauscht.
    Die 2te pfSense ist ist am selben Switch angeschlossen beim ISP. Generiere ich auf der 2ten pfSense traffic identisch zur pfsense1 habe ich kein Loss.

    b) oder meine Hardware Interfaces, die auf WAN Seite zeigen haben ggf. ein Problem - bei 2 Geräten die identisch sind handelt es sich vielleicht um andere Karten als intern oder andere Konfiguration?

    Nein beide Firewalls sind zu 100% identisch. Auch die Hardware ist identisch. Es handelt sich bei beiden um ein Supermicro Server.
    Wenn ich in die pfSense Walls tausche, sprich aktiv/inaktive dann hat die andere pfSense packetloss.

    c) ein Gerät zwischen Uplink und meiner Sense macht Probleme sobald Traffic aufkommt

    Es gibt keins auf den Weg. Wir haben auch zum testen zwischen den beiden Switchen eine pfSense installiert. Kein loss - Ports getauscht - Kein loss. Kabel getauscht - Kein loss.

    d) wo wird mir der Loss gemeldet? GW monitoring auf der pfSense?`Habe ich spürbar irgendwo Loss/Lag?

    Der Loss ist, wenn man es weiss, spürbar. Ich hab mal Bilder attached vom Smokeping.

    Es ist zwar "nur" 1% aber ich weiss das er da ist und daher stört es mich. Auch die Firewall meldet auf dem WAN interface Loss.
    Wir haben tatsache schon alles nur erdenkliche getestet. Daher stellen ich die Vermutung in den Raum das es an der PfSense liegen muss.
    Zwangsläufig nicht mal an der Hardware sondern vielleicht einfach ein Konfigurations-Problem wobei nun wirklich nicht soviel konfiguriert ist.

    Was mich dann aber wieder irritiert ist das ich auf den Interfaces intern keinen Loss habe. Für mich ist das bisher unerklärlich woran es liegen kann.

    Grüsse

    Daniel

    ![Screenshot 2017-10-24 13.31.28.png](/public/imported_attachments/1/Screenshot 2017-10-24 13.31.28.png)
    ![Screenshot 2017-10-24 13.31.28.png_thumb](/public/imported_attachments/1/Screenshot 2017-10-24 13.31.28.png_thumb)
    ![Screenshot 2017-10-24 13.32.03.png](/public/imported_attachments/1/Screenshot 2017-10-24 13.32.03.png)
    ![Screenshot 2017-10-24 13.32.03.png_thumb](/public/imported_attachments/1/Screenshot 2017-10-24 13.32.03.png_thumb)
    ![Screenshot 2017-10-24 13.35.46.png](/public/imported_attachments/1/Screenshot 2017-10-24 13.35.46.png)
    ![Screenshot 2017-10-24 13.35.46.png_thumb](/public/imported_attachments/1/Screenshot 2017-10-24 13.35.46.png_thumb)



  • Hallo,

    nur um sicher zu gehen: Am Gateway kann man den datapayload von 0 auf 5 oder so erhöhen. Schon versucht?

    Ansonsten: Modem und Pfsense am gleichen Stromkreis? Keine Ausgleichströme über die Nullleiter?

    Konnte bei mir den Packeloss mit anderer Stromversorgung beseitigen.

    MfG



  • Hi,

    tatsächlich habe ich den payload nicht verändert. Ich müsste jetzt tatsache erst mal suchen wo genau das geht.
    Die pfSense hat kein Modem. Sie ist im Rechenzentrum anschlossen an einem Cisco Switch von meinem ISP und dann zu deren Cisco Router.

    Strom hatte ich generell auch schon in verdacht allerdings hab ich hier auch schon alles mögliche getestet.

    Cheers


  • LAYER 8 Moderator

    Die 2te pfSense ist ist am selben Switch angeschlossen beim ISP. Generiere ich auf der 2ten pfSense traffic identisch zur pfsense1 habe ich kein Loss.

    dann widersprichst du dir mit

    sobald ich aber den Traffic auf die andere Firewall schieben habe ich dort den Loss und auf der inaktiven ist der Loss dann weg.

    Entweder es haben nun beide Loss oder nicht!?

    Nein beide Firewalls sind zu 100% identisch. Auch die Hardware ist identisch. Es handelt sich bei beiden um ein Supermicro Server.

    Ich habe nicht von der Hardware komplett gesprochen sondern ob das WAN an einem Interface != LAN/DMZ o.ä. hängt. Ist oft genug der Fall gewesen, dass bspw. LAN an einem IGB oder IX hängt und WAN auf einem zugesteckten RE Interface.

    Wenn ich in die pfSense Walls tausche, sprich aktiv/inaktive dann hat die andere pfSense packetloss.

    Also jetzt doch. Was denn nun? :o

    Wir haben auch zum testen zwischen den beiden Switchen eine pfSense installiert. Kein loss - Ports getauscht - Kein loss. Kabel getauscht - Kein loss.

    Wo wurde was installiert? grübel Vor der pfSense nochmal eine? Oder wo habt ihr das installiert?

    nur um sicher zu gehen: Am Gateway kann man den datapayload von 0 auf 5 oder so erhöhen. Schon versucht?

    Genau davon sprach ich :) Der Standard Gateway Monitoring Ping hat keine oder minimale Payload. Manche ISPs haben Geräte dranhängen, die Pings runterpriorisieren und verwerfen, vor allem bei keiner Payload. Dadurch entstehen "pseudo" Losses, die gar keine sind, da Pakete mit Payload ordentlich arbeiten und nur das Gateway angeblich Loss hat. Deshalb die Frage ob man

    a) schonmal die Payload erhöht hat und
    b) ggf. ein anderes Monitoring Gateway genutzt hat

    um auszuschließen, dass es sich wirklich um Phantom-Loss handelt. Sollte das nicht der Fall sein, wäre es trotzdem interessant zu wissen, was es genau für Hardware ist, was da in den Tunables ggf. eingestellt wurde etc. Das spielt alles mit hinein. Supermicro verbaut vieles ;)



  • Hi,

    wie gesagt ich habe grundsätzlich nur auf einer Firewall loss. Und zwar immer auf der aktiven. Tuneables habe ich nichts wirklich dran gemacht.
    Ist bei 20-30Mbit traffic tatsächlich auch nicht nötig denke ich.

    Ich habe egal wohin oder woher loss. Ich messe keinen Router auf der Gegenseite da ich hier sicher bin das ICMP nicht priorisiert ist.

    Ich messe von einem Rechner aus meinem Netz zu diversen Zielen - heise.de Hetzner Ziele usw.
    Intern ist alles sauber ohne loss. Auch Subnet übergreifend.

    Ist alles total schwer zu erklären. Ich bin am überlegen ein Consultant zu beauftragen sich dieses Problem anzusehen denn es ist für mich und viele anderen absolut nicht nachvollziehbar.


  • Rebel Alliance

    Was für Hardware ist in den "Supermicro-Servern"?


  • LAYER 8 Moderator

    OK das klingt wirklich extrem seltsam aber du sprichst von einem Cluster, korrekt? Cluster-Master hat Loss, Slave nicht.

    • Hast du von intern oder vom Master selbst getestet?
    • Hast du auf der Gegenseite beim uplink auch einen Cluster?
    • geht alles über deine Cluster VIP raus?

    Ansonsten teste ggf. mal einen Ping raus vom AKTIVEN Gerät aber mit seiner EIGENEN IP, nicht mit der Clusteradresse. Bzw. teste beides. Sollte meine Vermutung treffen, dann sollte der Trace von der eigenen IP sauber sein und nur die Cluster VIP betroffen.

    Kann aber deine Irritation nachvollziehen :-\ Solltest du über Hilfe nachdenken verweise ich freundlich in die Signatur ;)



  • Hi,

    nein es ist bzw. war kein Cluster. Beide Maschinen waren nur gesynced von der Config. CARP war bis heute nicht aktiv.
    Intern habe ich keine Probleme - Absolut 0 Probleme. Erst wenn es über das Kabel nach draußen geht.

    Seit gestern haben wir einen LACP Trunk zwischen ISP und mein Switch konfiguriert. Nun haben beide Loss deswegen habe ich jetzt CARP aktiviert.

    Mittlerweile bin ich an Standangekommen wo mich die <1% loss einfach nicht mehr "kratzen" auch wenn ich weiss sie sind da.
    Aber ich habe einfach keine Idee mehr was es noch sein könnte. Im Prinzip haben wir alles ausgeschlossen was nur geht.

    • Switch kann es nicht sein (ISP Seite oder meine)
    • Kabel ebenfalls nicht
    • hardware auch nicht

    Es bleibt eigentlich nur noch die pfSense Config und auch das ist eigenartig denn auch da würde ich intern zwischen den interfaces Loss haben uns das ist auch nicht da.

    Also - Mittlerweile egal. Ich kann es jetzt auch nicht ändern und werde es vermutlich auch so schnell nicht ändern können.

    Wenn ich mal ganz viel Lust habe werde ich mal eine der beiden PfSense Boxen virtualisieren und dann mal schauen wie es sich verhält.


  • LAYER 8 Moderator

    Nun haben beide Loss deswegen habe ich jetzt CARP aktiviert.

    :o Da bin ich jetzt irritiert, wenn beide Adern zum ISP Switch Loss haben, warum dann noch zusätzlich CARP aktivieren?
    Der Aufbau der Verkabelung ist mir jetzt irgendwie nicht ganz klar :)



  • Muss es auch nicht mehr ;)

    ISP -> LACP -> Mein Switch -> Firewalls

    Die Firewall ohne Loss stand quasi als StandBy im Rack. Jetzt habe ich die beiden mal verheiratet.

    Sobald ich die Firewalls "getauscht" habe hatte die andere ja auch loss. Installiere ich ein Gerät bei mir und geb dem Geräte eine IP ohne eine Firewall dazwischen hat dieses gerät auch kein Loss.

    Es kann also nur noch an der Config liegen. Die jetzt nicht wirklich riesig ist oder komplexx.


  • LAYER 8 Moderator

    OK ;) Hört sich trotzdem nach einem interessanten Problem an :)



  • Definitiv - ich bin auch für jede nur erdenkliche Idee dankbar ;)

    Ich habe mal ein Host ohne den pfsense dazwischen ins leben gerufen.

    Kannst es dir ja gerne mal ansehen:

    http://smoke.linux-nerd.de/?target=Fucking-Loss

    Ich hab die "Counter" nur eben resettet. Musste dir also mal in 1-2 Stunden ansehen um da einen konkreten Ansatz zu bekommen.

    Alle geräte sind am selben Switch über den selben LACP Trunk angeschlossen. Einzig und allein ist das "ohne pfSense" eben an der pfSense vorbei geschleust wird und eben nicht als GW genutzt wird sondern direkt der Router vom ISP ;)


  • LAYER 8 Moderator

    Die haben jetzt aber gerade alle kein Loss? ;) Aber bin gespannt.



  • Jap hab eben den "Counter" resettet. Warte mal paar ab ;)

    Immer irgendwas bis 1% auf 3 Stunden gesehen.


  • LAYER 8 Moderator

    OK aber wenn der quasi nicht gleich wieder da ist, klingt das wirklich extrem schräg… Das ist so ein Fall wo ich dann gern mal vor Ort die Hardware komplett austausche in was ganz anderes und Konfig Restore. Aber sehen wir mal wo/wann die auftreten. Liest sich auf alle Fälle sehr schräg



  • Definitiv ja.

    mal 30 Minuten nix und dann 30 Minuten extrem… Deswegen macht es mich ja so Ratlos und ich bin nun wirklich kein "dummerchen" ;)



  • Ok jetzt sehe ich tatsache auch Loss auf dem Gerät wo keine Firewall davor ist.

    Jetzt bin ich noch mehr verwirrter als sonst :-(


  • LAYER 8 Moderator

    Gerade nochmal reingeschaut - jap auch dein Device ohne pfSense hat fast den gleichen Loss wie die anderen Geräte. Ich denke da solltet ihr ggf. doch nochmal mit dem ISP/Uplink reden, irgendwas macht da Trouble :)



  • Ja ich vermute es. Mein ISP sagt immer (Kauf Cisco HP ist blöd) ;)


Log in to reply