Problème suite MAJ pfsense 2.0.x -> 2.1.5 (pfsense qui crash)



  • Bonjour,

    je rencontre un problème dans mon entreprise depuis que j'ai monté de version notre appliance pfsense en 2.1.5 (anciennement 2.0.x)

    [ Situation ]
    Au quotidien je ne rencontre aucun problème mais le soir dès que les backup se lancent, notre pfsense sature.
    Lors des backup, ma supervision m'annonce un load average de +70, et plus de 200 processus avant plantage… il ne réponds plus a rien (lan, wan, vpn,..) et il faut le rebooter à la main le matin. D'autres fois, le matin il répondra au ping, fera son job mais sera inaccessible via l'interface -> donc reboot obligé. D'autres fois encore quand j’accederai à son interface le matin, il m'annoncera un plantage pendant la nuit et me demandera d'envoyer les logs.

    Avant cette MAJ il n'y avait aucun problème.

    [ contexte ]
    Sur le pfsense, nous disposons de :

    • 1 fibre + 3 adsl  -> chacune dispose de son interface (2 adsl en backup et 1 adsl dédié pour un client)
    • 3 lans (voip / serveurs / postes)  -> la voip a son interface avec dhcp.  Serveur/poste se partage la même interface mais sur des ip différentes (virtual ip)
    • 4 vpn ipsec monté (21 tunnels)
    • pas de vlans
    • package open vpn activé et configuré
    • package squid3 activé =>  je l'ai retiré ce matin pour test
    • package nrpe (pour supervision nagios)

    [ Log ]
    j'ai le message suivant qui tournait en boucle dans le system.log quand l'interface était planté
    swap_pager_getswapspace(16): failed
    swap_pager_getswapspace(16): failed
    swap_pager_getswapspace(16): failed
    (au moins 20 messages / secondes )

    [ Caractéristique de notre pfsense ]
    voir attachments
    (screen effectué apres le reboot de ce matin)

    [ idée ? ]
    -Comment etre sur que c'est bien un problème de ressource du pfsense ? ( ressemble fortement à https://forum.pfsense.org/index.php?topic=82134.0 )
    -A savoir que je dispose de 2 autres sites possédant des pfsense en 2.1.5 qui ne rencontrent aucun problème MAIS ils sont plus performant (ram, cpu, …) et ces sites sont beaucoup plus petit
    -Est il possible de downgrade ? ou ajouter de la ram (c'est une appliance) ?
    -D'autres idée ou tests que je pourrai appliquer ?

    je vous remercie.

    [ edit ]
    j'ai l'impression qu'il sature dès que la bande passante devient trop importante pour lui.



  • Je pense que vous devez arriver à court de mbuf lors des montée en charge de début dûes à la sauvegarde.

    Regardez du côté du tunning des mbuf (nmbcluster), votre valeur maximale me parait faible pour un système à 2G de RAM.

    suivez les recommandations de cette section : https://doc.pfsense.org/index.php/Tuning_and_Troubleshooting_Network_Cards

    et dites nous si vous obtenez un résultat positif.



  • bonjour,

    j'ai doublé le mbuf via la commande  "sysctl kern.ipc.nmbclusters=51200", pour me permettre de  revenir en arrière via avec un reboot au cas ou ;)

    Sinon depuis que j'ai désinstallé squid3, il y a du mieux, le pfsense peine toujours lorsque les backups se lancent mais il plante moins…
    M'enfin ce weekend il a rebouté 3 fois tout seul... il y avait les backup hebdo + mensuel + journalière.

    Sinon j'ai graphé des stats pfsense via snmp (en pièces jointes), mon backups se lance a 13h pour finir à 3h du mat. on peut y voir
    -Le cpu pointe a 100%
    -La ram ne suffit plus et il commence a swapper
    -le nombre de processus augmente fortement

    Le pfsense est tellement débordé qu’il ne reponds plus au poller snmp, et une fois le backup achevé à 3H, tous les paramètres reviennent au vert et il répond à nouveau.

    Pour le moment j'ai installé un syslog et je vais récupérer les logs complètes afin de potentiellement  identifier un problème.
    Sinon je cherche un moyen d'identifier le process qui me fait monter en flèche mon cpu lors des backups.








  • @Juve:

    Je pense que vous devez arriver à court de mbuf lors des montée en charge de début dûes à la sauvegarde.

    Regardez du côté du tunning des mbuf (nmbcluster), votre valeur maximale me parait faible pour un système à 2G de RAM.

    suivez les recommandations de cette section : https://doc.pfsense.org/index.php/Tuning_and_Troubleshooting_Network_Cards

    et dites nous si vous obtenez un résultat positif.

    Hélas ce fut la même chose cette nuit malgré avoir doublé le mbuf => Ce matin reboot manuel du pfsense, il était figé.

    Concernant mon serveur syslog, j'ai récupéré les logs du pfsense de cette nuit, j'ai reçu plus de 30000 notifications de niveau Error et au dessus  de 20h (début backup) à 1h30, quand le pfsense a figé.

    Voici les erreurs que je retrouve :

    2014-11-04 01:30:23 Kernel Error 10.0.0.253 Nov 4 01:30:23 kernel: pid 26674 (php), uid 0, was killed: out of swap space
    2014-11-04 01:30:23 Kernel Critical 10.0.0.253 Nov 4 01:30:23 kernel: swap_pager_getswapspace(14): failed
    2014-11-04 01:11:31 Kernel Critical 10.0.0.253 Nov 4 01:11:31 kernel: swap_pager: out of swap space
    2014-11-04 01:13:48 Kernel Critical 10.0.0.253 Nov 4 01:13:48 kernel: Approaching the limit on PV entries, consider increasing either the vm.pmap.shpgperproc or the vm.pmap.pv_entry_max tunable.
    2014-11-03 20:19:59 Kernel Critical 10.0.0.253 Nov 3 20:20:00 kernel: swap_pager: indefinite wait buffer: bufobj: 0, blkno: 486813, size: 4096

    j'ai eu  aussi :

    2014-11-03 21:38:03 Kernel Critical 10.0.0.253 Nov 3 21:38:03 kernel: vm_fault: pager read error, pid 78192 (php)
    2014-11-03 21:38:03 Kernel Critical 10.0.0.253 Nov 3 21:38:03 kernel: swap_pager: I/O error - pagein failed; blkno 920124,size 4096, error 5
    2014-11-03 21:38:03 Kernel Critical 10.0.0.253 Nov 3 21:38:03 kernel: ata2: setting up DMA failed
    2014-11-03 21:38:03 Kernel Critical 10.0.0.253 Nov 3 21:38:03 kernel: ata2: FAILURE - already active DMA on this device

    Et bien sur la saturation du pfsense a causé un down des liens :

    2014-11-03 23:31:10 User Error 10.0.0.253 Nov 3 23:31:10 apinger: ALARM: FOGW5(***) *** down ***
    2014-11-03 23:31:10 User Error 10.0.0.253 Nov 3 23:31:10 apinger: ALARM: FOGW4(***) *** down ***
    2014-11-03 23:31:10 User Error 10.0.0.253 Nov 3 23:31:10 apinger: ALARM: FOGW3(***) *** down ***
    2014-11-03 23:31:10 User Error 10.0.0.253 Nov 3 23:31:10 apinger: ALARM: FOGW2(***) *** down ***
    2014-11-03 23:31:10 User Error 10.0.0.253 Nov 3 23:31:10 apinger: ALARM: GW_LAN2(***) *** down ***
    2014-11-03 23:31:10 User Error 10.0.0.253 Nov 3 23:31:10 apinger: alarm canceled: GW_LAN(***) *** delay ***

    Et après un certain temps, je n'ai plus que deux messages d'erreurs en boucle qui sont :

    2014-11-04 01:30:23 Kernel Error 10.0.0.253 Nov 4 01:30:23 kernel: pid 26674 (php), uid 0, was killed: out of swap space
    2014-11-04 01:30:23 Kernel Critical 10.0.0.253 Nov 4 01:30:23 kernel: swap_pager_getswapspace(14): failed

    Crash report details :

    Filename: /var/crash/info.0
    Dump header from device /dev/ad4s1b
      Architecture: i386
      Architecture Version: 2
      Dump Length: 264085504B (251 MB)
      Blocksize: 512
      Dumptime: Mon Nov  3 22:47:31 2014
      Hostname: pfsense.****
      Magic: FreeBSD Kernel Dump
      Version String: FreeBSD 8.3-RELEASE-p16 #0: Mon Aug 25 08:27:41 EDT 2014
        root@pf2_1_1_i386.pfsense.org:/usr/obj.i386/usr/pfSensesrc/src/sys/pfSense_wrap.8.i386
      Panic String: get_pv_entry: increase vm.pmap.shpgperproc
      Dump Parity: 2186076783
      Bounds: 0
      Dump Status: good

    need help :)
    Pour info, j'ai effectué un smart status du disque , résultat : PASSED
    Il faut que je trouve le process en cause pour m'assurer que c'est bien le hardware qui ne suit plus.

    [EDIT]
    je vais tester pour ce soir en augmentant la valeur vm.pmap.shpgperproc à 500 (200 par défaut)



  • hello,

    j'ai ajouté les valeurs suivantes hier dans /boot/loader.conf :
    vm.pmap.shpgperproc="500"
    vm.pmap.pg_ps_enabled="1"
    Puis un rebooter le pfsense et verifier la bonne prise en compte des paramètres (commande : sysctl vm.pmap.shpgperproc).

    Pendant la sauvegarde, le pfsense n'a pas planté, pour autant il était inaccessible pendant un bout de temps et ce matin pas accès GUI ni ssh donc reboot nécessaire. De plus il n'y a pas eu pas de crash report pour une fois ce matin.

    j'ai eu le temps avant de perdre la main d'y effectuer un top et un ps auxw lors du lancement des backups :

    ps auxw :

    USER     PID %CPU %MEM   VSZ   RSS  TT  STAT STARTED      TIME COMMAND
    root       0 85.9  0.0     0   168  ??  DLs   8:35PM 127:31.07 [kernel]
    root      10 43.9  0.0     0    16  ??  RL    8:35PM 191:20.72 [idle]
    root     256 40.0  0.0  9496   780  ??  RNs   8:35PM  16:13.04 /usr/local/sbin/check_reload_status
    root   64039 25.0  1.8 91568 36188  ??  SN   11:37PM   0:02.36 /usr/local/bin/php -f /etc/rc.filter_configure_sync
    root   63685 11.0  1.5 87472 30600  ??  SN   11:37PM   0:00.62 /usr/local/bin/php -f /etc/rc.newipsecdns
    root   63935 11.0  1.4 87472 28836  ??  SN   11:37PM   0:00.55 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   21760  3.0  0.9 96304 19480  ??  S     9:39PM   0:20.50 /usr/local/bin/php
    root       1  0.0  0.0  8032    88  ??  SLs   8:35PM   0:00.11 /sbin/init --
    root       2  0.0  0.0     0     8  ??  DL    8:35PM   0:00.21 [g_event]
    root       3  0.0  0.0     0     8  ??  DL    8:35PM   0:17.97 [g_up]
    root       4  0.0  0.0     0     8  ??  DL    8:35PM   0:07.47 [g_down]
    root       5  0.0  0.0     0     8  ??  DL    8:35PM   0:00.00 [crypto]
    root       6  0.0  0.0     0     8  ??  DL    8:35PM   0:00.00 [crypto returns]
    root       7  0.0  0.0     0     8  ??  DL    8:35PM   0:01.53 [pfpurge]
    root       8  0.0  0.0     0     8  ??  DL    8:35PM   0:00.00 [xpt_thrd]
    root       9  0.0  0.0     0     8  ??  DL    8:35PM   1:56.83 [pagedaemon]
    root      11  0.0  0.0     0   152  ??  WL    8:35PM   0:43.04 [intr]
    root      12  0.0  0.0     0    16  ??  DL    8:35PM   0:00.00 [ng_queue]
    root      13  0.0  0.0     0     8  ??  DL    8:35PM   1:09.28 [yarrow]
    root      14  0.0  0.0     0   128  ??  DL    8:35PM   0:00.20 [usb]
    root      15  0.0  0.0     0     8  ??  DL    8:35PM   0:16.96 [vmdaemon]
    root      16  0.0  0.0     0     8  ??  DL    8:35PM   0:00.00 [pagezero]
    root      17  0.0  0.0     0     8  ??  DL    8:35PM   0:00.02 [idlepoll]
    root      18  0.0  0.0     0     8  ??  DL    8:35PM   0:00.07 [bufdaemon]
    root      19  0.0  0.0     0     8  ??  DL    8:35PM   0:00.92 [syncer]
    root      20  0.0  0.0     0     8  ??  DL    8:35PM   0:00.07 [vnlru]
    root      21  0.0  0.0     0     8  ??  DL    8:35PM   0:00.09 [softdepflush]
    root      33  0.0  0.0     0    16  ??  DL    8:35PM   0:02.30 [zfskern]
    root      64  0.0  0.0     0     8  ??  DL    8:35PM   0:01.58 [md0]
    root     258  0.0  0.0  9496     0  ??  IWN  -         0:00.00 check_reload_status: Monitoring daemon of check_reload_status
    root     267  0.0  0.0  8032     8  ??  Is    8:35PM   0:00.04 /sbin/devd
    root    5447  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root    8753  0.0  0.1  9556  1216  ??  Ss    8:36PM   0:11.46 /usr/sbin/syslogd -s -c -c -l /var/dhcpd/var/run/log -f /var/etc/syslog.conf
    root    9380  0.0  0.0  9496   508  ??  Ss    8:36PM   0:00.03 /usr/sbin/cron -s
    root   16071  0.0  0.1 11420  1480  ??  Is    8:36PM   0:00.00 /usr/sbin/sshd
    root   16370  0.0  0.0 13720   956  ??  Is    8:36PM   0:00.02 /usr/local/sbin/sshlockout_pf 15
    root   22269  0.0  0.1  9528  1220  ??  Ss    8:36PM   0:00.05 /usr/sbin/inetd -wW -R 0 -a 127.0.0.1 /var/etc/inetd.conf
    root   27113  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   27961  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   28522  0.0  0.0  9408     0  ??  IWs  -         0:00.00 /usr/local/bin/minicron 240 /var/run/ping_hosts.pid /usr/local/bin/ping_hosts.sh
    root   28531  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   28621  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   28861  0.0  0.0  9408   236  ??  I     8:36PM   0:00.02 minicron: helper /usr/local/bin/ping_hosts.sh  (minicron)
    root   28918  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   29060  0.0  0.9 87472 19344  ??  IN    9:50PM   0:00.52 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   29519  0.0  0.0  9408     0  ??  IWs  -         0:00.00 /usr/local/bin/minicron 3600 /var/run/expire_accounts.pid /etc/rc.expireaccounts
    root   29585  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   29644  0.0  0.5 11296 11316  ??  SNs  10:04PM   0:00.68 /usr/local/sbin/ntpd -g -c /var/etc/ntpd.conf -p /var/run/ntpd.pid
    root   29849  0.0  0.0  9408   236  ??  S     8:36PM   0:00.00 minicron: helper /etc/rc.expireaccounts  (minicron)
    root   30144  0.0  0.0  9408     0  ??  IWs  -         0:00.00 /usr/local/bin/minicron 86400 /var/run/update_alias_url_data.pid /etc/rc.update_alias_url_data
    root   30357  0.0  1.4 87472 28200  ??  IN   10:04PM   0:00.53 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   30371  0.0  0.0  9408     0  ??  IW   -         0:00.00 minicron: helper /etc/rc.update_alias_url_data  (minicron)
    root   30669  0.0  0.0  9408   668  ??  Rs    8:36PM   0:09.82 /usr/local/sbin/apinger -c /var/etc/apinger.conf
    root   30816  0.0  1.4 87472 28200  ??  IN   10:04PM   0:00.55 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   30835  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   30988  0.0  0.1 10704  1400  ??  S     8:36PM   0:00.49 /usr/local/bin/rrdtool -
    root   31335  0.0  1.4 87472 28200  ??  IN   10:04PM   0:00.56 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   31411  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   32162  0.0  0.0  9624   960  ??  Is    8:36PM   0:00.02 /usr/local/sbin/sshlockout_pf 15
    root   33867  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   34666  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   35624  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   36210  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   39114  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    nagios 39663  0.0  0.1 11132  2724  ??  SNs  10:04PM   0:00.40 /usr/pbi/nrpe-i386/sbin/nrpe2 -d -c /usr/pbi/nrpe-i386/etc/nrpe.cfg
    root   39804  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   39912  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   40198  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   40449  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   40542  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   40791  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   40880  0.0  1.4 87472 28236  ??  IN   10:04PM   0:00.50 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   41733  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   42147  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_OPT2
    root   42217  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   43338  0.0  0.9 87472 19248  ??  IN    9:56PM   0:00.54 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   44648  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   47615  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   48056  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   48201  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn BouyguesGW
    root   48531  0.0  0.0  1512   772  ??  IN   11:36PM   0:00.00 sleep 60
    root   48566  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_OPT2
    root   48693  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   49292  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   49446  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   49808  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   50124  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   50143  0.0  1.3 87472 26256  ??  IN    9:56PM   0:00.57 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   50295  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   50468  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   50857  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   51109  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   51860  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   52213  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   53032  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   53933  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   54086  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   54239  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   54498  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   54743  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   55111  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   55302  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   55503  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   55821  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   55864  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   58986  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   59378  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   59577  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   60265  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   60457  0.0  0.2 12112  4696  ??  S     8:36PM   0:02.38 /usr/local/sbin/lighttpd -f /var/etc/lighty-webConfigurator.conf
    root   60541  0.0  0.0 79280     0  ??  IWs  -         0:00.00 /usr/local/bin/php
    root   60602  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   61630  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   62634  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   63273  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   63451  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   63659  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   63850  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   63981  0.0  0.0 79280     0  ??  IWs  -         0:00.00 /usr/local/bin/php
    root   64092  0.0  0.2 11576  3556  ??  SNs   9:57PM   0:04.46 /usr/local/sbin/openvpn --config /var/etc/openvpn/server1.conf
    root   64676  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   65139  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   65536  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   65704  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   66244  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   66283  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   66466  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   67338  0.0  0.1  9608  1752  ??  RN   11:37PM   0:00.05 /sbin/pfctl -o basic -f /tmp/rules.debug
    root   67537  0.0  0.1  9548  1340  ??  R    11:37PM   0:00.01 ps auxwww
    root   67663  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   67985  0.0  1.2 87600 25244  ??  I     8:36PM   0:00.73 /usr/local/bin/php
    nobody 68029  0.0  0.1 11396  1852  ??  S     8:36PM   0:00.23 /usr/local/sbin/dnsmasq --all-servers --rebind-localhost-ok --stop-dns-rebind --dns-forward-max=5000 --cache-size=10000 --local-ttl=1
    root   68421  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   68718  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   69115  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   69506  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   70300  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   70996  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    dhcpd  71138  0.0  0.1 13504  1900  ??  Ss    8:36PM   0:04.23 /usr/local/sbin/dhcpd -user dhcpd -group _dhcp -chroot /var/dhcpd -cf /etc/dhcpd.conf -pf /var/run/dhcpd.pid em3
    root   71794  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   72088  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   72833  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOcompletel
    root   75788  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   77687  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   82935  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   83400  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   83721  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   83818  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW4
    root   84250  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   85379  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN
    root   86019  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW2
    root   86086  0.0  0.1 14172  2168  ??  Ss    8:43PM   0:02.93 sshd: admin@pts/0 (sshd)
    root   86132  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn GW_LAN2
    root   86436  0.0  0.1 14172  1896  ??  Is    8:43PM   0:00.16 sshd: admin@notty (sshd)
    root   86637  0.0  0.2 11764  3636  ??  Ss    8:36PM   0:12.10 /usr/local/sbin/racoon -f /var/etc/ipsec/racoon.conf
    root   87174  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   87343  0.0  0.4 14448  7716  ??  Ss    8:36PM   0:30.67 /usr/sbin/bsnmpd -c /var/etc/snmpd.conf -p /var/run/snmpd.pid
    root   93167  0.0  1.4 87472 28836  ??  IN   11:35PM   0:00.55 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   95854  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   96284  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW3
    root   97509  0.0  0.0 87472     0  ??  IWN  -         0:00.00 /usr/local/bin/php -f /etc/rc.openvpn FOGW5
    root   98027  0.0  1.4 87472 28836  ??  IN   11:36PM   0:00.54 /usr/local/bin/php -f /etc/rc.openvpn NEUFBOXGW
    root   17300  0.0  0.1 10984  2020  u0- S     8:36PM   0:01.39 /usr/sbin/tcpdump -s 256 -v -S -l -n -e -ttt -i pflog0
    root   17436  0.0  0.0  9408   800  u0- S     8:36PM   0:02.16 logger -t pf -p local0.info
    root   31866  0.0  0.0  9860     0  u0  IWs  -         0:00.00 login [pam] (login)
    root   32458  0.0  0.0  9788     0  u0  IW   -         0:00.00 -sh (sh)
    root   33933  0.0  0.1  9788  1084  u0  I+    8:36PM   0:00.01 /bin/sh /etc/rc.initial
    root   91939  0.0  0.0  9788   636  u0- IN    8:36PM   0:02.74 /bin/sh /var/db/rrd/updaterrd.sh
    root   87043  0.0  0.0  9788     0   0  IWs  -         0:00.00 /bin/sh /etc/rc.initial
    root   92611  0.0  0.1  9816  1672   0  I+    8:43PM   0:00.03 /bin/tcsh
    

    top :

    PID USERNAME    THR PRI NICE   SIZE    RES STATE   C   TIME   WCPU COMMAND
    21760 root          1  54    0 91696K 18820K piperd  1   0:04  4.98% php
      256 root          1  76   20  9496K   780K kqread  0  15:52  0.00% check_reload_status
    17021 root          1  44    0  9804K  2224K select  1   0:32  0.00% top
    87343 root          1  44    0 14448K  7704K select  1   0:28  0.00% bsnmpd
    86637 root          1  44    0 11764K  3636K select  1   0:12  0.00% racoon
     8753 root          1  44    0  9556K  1204K select  0   0:11  0.00% syslogd
    30669 root          1  44    0  9408K   668K select  1   0:09  0.00% apinger
    71138 dhcpd         1  44    0 13504K  1900K select  1   0:04  0.00% dhcpd
    86086 root          1  44    0 14172K  2152K select  1   0:03  0.00% sshd
    91939 root          1  76   20  9788K   636K wait    0   0:02  0.00% sh
    17436 root          1  44    0  9408K   800K piperd  1   0:02  0.00% logger
    60457 root          1  44    0 12112K  4660K kqread  1   0:02  0.00% lighttpd
    17300 root          1  44    0 10984K  1876K bpf     1   0:01  0.00% tcpdump
    63273 root          1  64   20 87472K     0K lockf   1   0:01  0.00% <php>49446 root          1  64   20 87472K     0K lockf   1   0:01  0.00% <php>55111 root          1  65   20 87472K     0K lockf   1   0:01  0.00%</php></php> 
    

    System Activity :

    
    PID USERNAME   PRI NICE   SIZE    RES STATE   C   TIME   WCPU COMMAND
       10 root       171 ki31     0K    16K RUN     1 133:58 86.96% [idle{idle: cpu1}]
        0 root       -68    0     0K   168K CPU0    0 120:00 78.96% [kernel{em1 que}]
       10 root       171 ki31     0K    16K RUN     0  50:19 21.97% [idle{idle: cpu0}]
    21760 root        51    0 91824K 18996K piperd  1   0:12  2.98% /usr/local/bin/php{php}
      256 root        76   20  9496K   780K kqread  0  15:52  0.00% /usr/local/sbin/check_reload_status
        9 root       -16    -     0K     8K RUN     0   1:57  0.00% [pagedaemon]
        0 root       -68    0     0K   168K RUN     1   1:53  0.00% [kernel{em2 que}]
       13 root       -16    -     0K     8K RUN     1   1:06  0.00% [yarrow]
        0 root       -16    0     0K   168K sched   0   0:39  0.00% [kernel{swapper}]
    87343 root        44    0 14448K  7712K select  0   0:26  0.00% /usr/sbin/bsnmpd -c /var/etc/snmpd.conf -
        3 root        -8    -     0K     8K -       1   0:18  0.00% [g_up]
       15 root       -16    -     0K     8K psleep  0   0:17  0.00% [vmdaemon]
       11 root       -32    -     0K   152K WAIT    1   0:16  0.00% [intr{swi4: clock}]
    86637 root        44    0 11764K  3636K select  1   0:12  0.00% /usr/local/sbin/racoon -f /var/etc/ipsec/
       11 root       -44    -     0K   152K WAIT    1   0:12  0.00% [intr{swi1: netisr 1}]
     8753 root        44    0  9556K  1216K select  0   0:11  0.00% /usr/sbin/syslogd -s -c -c -l /var/dhcpd/
    30669 root        44    0  9408K   668K select  0   0:09  0.00% /usr/local/sbin/apinger -c /var/etc/aping
       11 root       -64    -     0K   152K WAIT    0   0:09  0.00% [intr{irq18: uhci2+}]
    

    A priori c'est le process "php" en cause…

    Quelqu'un a des idées ou une solution  à mon problème ?

    est il possible de downgrade en 1.2.x ?



  • A priori, durant le backup les gateway deviennent injoignable, le script de reload openVPN (qui a pour but de réinitialiser le tunnel via une interface de secours) est lancé de multiples fois. hors ce script lock un fichier (semaphore) durant son exécution et là j'ai l'impression qu'on part en dead lock.

    Je ne sais pas pourquoi pour le moment.

    Ensuite je vois une forte activité CPU par le kernel sur un driver EM (Intel)

    78.96% [kernel{em1 que}]

    Essayez de limiter les queue du driver en ajoutant ceci au loader.conf:
    kern.ipc.nmbclusters="131072"
    hw.em.num_queues=1

    Et de forcer la désactivation du TSO :
    net.inet.tcp.tso=0

    et vérifiez de nouveau lors d'un pic de charge.



  • Merci, je vais tester.

    je viens de voir que ma bande passante utilisait lors des backups monte à plus de 200mbps alors qu'auparavant je dépassais rarement les 170 et en fouillant le prés-requis d'un pfsense je lis :

    201-500 Mbps - configuration type appliance ou serveur avec une architecture type PCI-X ou PCI-e pour les cartes réseau. Processeur de 2.0 GHz.

    Sachant que mon appliance à comme proc : Intel(R) Atom(TM) CPU D410 @ 1.66GHz 2 CPUs et 2go de ram ; est-ce suffisant ?
    Surtout qu'a cela, se rajoute toute ma config pfsense (tunnel vpn / multiple liens / … )

    Sinon toujours ma question, comment downgrade une appliance car je possède la précédente conf, mais comment effectuer une réinstalle propre du pfsense, il n'y a pas de lecteur cd, de port usb... ??
    Car je vais devoir tester, et faut que je trouve une solution un jour :(



  • autre possibilité aussi :

    https://forum.pfsense.org/index.php/topic,38660.0.html

    possible ?



  • perso je dirais a tester au cas ou.
    mais avant une sauvegarde total pour revenir en arrière on ne sait jamais.



  • @Juve:

    A priori, durant le backup les gateway deviennent injoignable, le script de reload openVPN (qui a pour but de réinitialiser le tunnel via une interface de secours) est lancé de multiples fois. hors ce script lock un fichier (semaphore) durant son exécution et là j'ai l'impression qu'on part en dead lock.

    Je ne sais pas pourquoi pour le moment.

    Ensuite je vois une forte activité CPU par le kernel sur un driver EM (Intel)

    78.96% [kernel{em1 que}]

    Essayez de limiter les queue du driver en ajoutant ceci au loader.conf:
    kern.ipc.nmbclusters="131072"
    hw.em.num_queues=1

    Et de forcer la désactivation du TSO :
    net.inet.tcp.tso=0

    et vérifiez de nouveau lors d'un pic de charge.

    j'ai donc testé hier soir et pas de crash constaté ni de reboot a effectuer ce matin.
    Par contre pendant le backup l'appliance ne répond plus, impossible de s'y connecter via openvpn ou d’accéder à l'interface, j'ai timeout systématiquement. Pour autant elle fait son job donc l'appliance sature toujours.

    Concernant le system activity, j'ai pu avoir un aperçu avant de perdre l'accès,  et j'ai toujours la même ligne qui me bouffe mon cpu a fond.

      0 root       -68    0     0K   168K CPU0    0 120:00 78.96% [kernel{em1 que}]
    

    et ca peut monter a plus de 85%.

    Sinon j'ai changé l'ip de mon serveur de backup, car il ne se trouvait pas dans le même réseau que mes serveurs a backuper, donc le pfsense devait router les paquets. A voir si ca va mieux maintenant, mais je pense que ca ne résout pas mon problème mais le contourne…
    De plus si je n'ai plus de problème après cet modif, alors c'est que mon appliance est sous dimensionné car la version 2.1.5 serait plus gourmande en ressource.



  • hello,

    voila des news, depuis le changement de l'ip de mon serveur de backup pour être dans le même réseau que mes serveurs à backuper et ainsi éviter le routage par le pfsense, je n'ai plus aucune saturation de celui-ci, que cela soit cpu, ram ou kernel… et en cadeau bonus, mes debits réseaux pour les backups on plus que doublé.  Que du bon donc !!!

    j'en conclue que la faute est bien la MAJ 2.1.5 sur mon appliance qui est beaucoup plus gourmande en ressource (ou à un pb de compatibilité matériel de celle-ci avec cette version) et le fait saturer lors de forte BP demandée.



  • C'est sans doute cela.
    Au moins, ce problème vous aura permit de corriger une erreur de design :-)


Log in to reply