Problemas con perdida de conexión de la WAN

dcuadrados

Buenos días a todos, os comento lo que me está pasando que me tiene loco, tengo varios pfSense montados sobre MiniPCS de amazon, de este estilo:

https://www.amazon.es/dp/B07DHBHQYR?ref_=ppx_hzsearch_conn_dt_b_fed_asin_title_1
https://www.amazon.es/dp/B0B6J12LGJ/?coliid=I2DS2H9ADNN6YL&colid=36J85P61Z63IW&ref_=list_c_wl_lv_ov_lig_dp_it
https://www.amazon.es/FakestarPC-generaci%C3%B3n-Firewall-Micro-Device/dp/B0DQBTBZ63/ref=sr_1_3?__mk_es_ES=%C3%85M%C3%85%C5%BD%C3%95%C3%91&s=electronics&sr=1-3

El problema que estoy teniendo es que se quedan aleatoriamente colgados sin internet, se cae la WAN, tengo quitado el ASPM, tengo quitado en el gateway el monitoring action, tengo desactivado offloading TSO/Checksum/LRO

Algunas veces desde fuera es accesible, pero los equipos no navegan ni nada, en los logs, a veces veo lo siguiente, son de dos FWS:

Jun 6 00:24:12	dpinger	53814	exiting on signal 15
Jun 6 00:23:24	dpinger	53814	WANGW 192.168.1.1: Clear latency 359us stddev 169us loss 0%
Jun 6 00:23:13	dpinger	53814	WANGW 192.168.1.1: Alarm latency 276us stddev 33us loss 33%
Jun 7 13:09:51	dpinger	16274	WANGW 192.168.1.1: sendto error: 64
Jun 7 13:09:50	dpinger	16274	WANGW 192.168.1.1: sendto error: 50
Jun 7 13:09:49	dpinger	16274	WANGW 192.168.1.1: sendto error: 50
Jun 7 13:09:49	dpinger	16274	WANGW 192.168.1.1: Alarm latency 0us stddev 0us loss 100%
Jun 12 14:50:05	dpinger	36722	send_interval 500ms loss_interval 2000ms time_period 60000ms report_interval 0ms data_len 1 alert_interval 1000ms latency_alarm 500ms loss_alarm 20% alarm_hold 10000ms dest_addr 192.168.2.1 bind_addr 192.168.2.1 identifier "IPSEC_Gateway "
Jun 12 14:50:05	dpinger	28600	exiting on signal 15
Jun 12 14:50:05	dpinger	28963	exiting on signal 15
Jun 12 14:50:05	dpinger	28600	WAN_DHCP 192.168.0.1: sendto error: 50
Jun 12 14:50:04	dpinger	28600	WAN_DHCP 192.168.0.1: sendto error: 50
Jun 12 14:50:04	dpinger	28600	WAN_DHCP 192.168.0.1: sendto error: 50
Jun 12 14:50:03	dpinger	28600	WAN_DHCP 192.168.0.1: sendto error: 50
Jun 12 14:50:03	dpinger	28600	WAN_DHCP 192.168.0.1: sendto error: 50

El GW sale así:

GW_Movistar 
192.168.1.1	0.0ms	0.0ms	100%	Danger, Packetloss

Al hacer ping por ejemplo me sale esto:

PING 8.8.8.8 (8.8.8.8) from 192.168.1.254: 56 data bytes
64 bytes from 8.8.8.8: icmp_seq=0 ttl=112 time=3.423 ms
64 bytes from 8.8.8.8: icmp_seq=1 ttl=112 time=3.485 ms
64 bytes from 8.8.8.8: icmp_seq=2 ttl=112 time=4.217 ms

--- 8.8.8.8 ping statistics ---
3 packets transmitted, 3 packets received, 0.0% packet loss
round-trip min/avg/max/stddev = 3.423/3.708/4.217/0.360 ms

Si hago ping a 192.168.1.1 no responde

PING 192.168.1.1 (192.168.1.1) from 192.168.1.254: 56 data bytes

--- 192.168.1.1 ping statistics ---
3 packets transmitted, 0 packets received, 100.0% packet loss

Los túneles IPSEC están caídos, no los levanta, y estos son los logs de IPSEC:

Jun 21 20:44:59
charon
67161
01[CFG] vici client 19790 disconnected
Jun 21 20:44:59
charon
67161
01[CFG] vici client 19790 requests: list-sas
Jun 21 20:44:59
charon
67161
01[CFG] vici client 19790 registered for: list-sa
Jun 21 20:44:59
charon
67161
05[CFG] vici client 19790 connected
Jun 21 20:44:58
charon
67161
01[KNL] <con1|321> unable to delete SAD entry with SPI c7fe7ebb: No such process (3)
Jun 21 20:44:58
charon
67161
01[CHD] <con1|321> CHILD_SA con1{1292} state change: CREATED => DESTROYING
Jun 21 20:44:58
charon
67161
01[IKE] <con1|321> IKE_SA con1[321] state change: CONNECTING => DESTROYING
Jun 21 20:44:58
charon
67161
01[IKE] <con1|321> establishing IKE_SA failed, peer not responding
Jun 21 20:44:58
charon
67161
01[IKE] <con1|321> giving up after 5 retransmits
Jun 21 20:44:54
charon
67161
01[CFG] vici client 19789 disconnected
Jun 21 20:44:54
charon
67161
05[CFG] vici client 19789 requests: list-sas
Jun 21 20:44:54
charon
67161
09[CFG] vici client 19789 registered for: list-sa
Jun 21 20:44:54
charon
67161
12[CFG] vici client 19789 connected
Jun 21 20:44:43
charon
67161
09[IKE] <con1|321> sending keep alive to IP_PUBLICA[4500]
Jun 21 20:44:23
charon
67161
09[IKE] <con1|321> sending keep alive to IP_PUBLICA[4500]
Jun 21 20:44:23
charon
67161
09[CFG] vici client 19788 disconnected
Jun 21 20:44:18
charon
67161
12[IKE] <con1|321> delaying task initiation, IKE_AUTH exchange in progress
Jun 21 20:44:18
charon
67161
12[IKE] <con1|321> queueing CHILD_CREATE task
Jun 21 20:44:18
charon
67161
09[CFG] vici initiate CHILD_SA 'con1'
Jun 21 20:44:18
charon
67161
09[CFG] vici client 19788 requests: initiate
Jun 21 20:44:18
charon
67161
12[CFG] vici client 19788 registered for: control-log
Jun 21 20:44:18
charon
67161
10[CFG] vici client 19788 connected
Jun 21 20:44:18
charon
67161
09[CFG] vici client 19787 disconnected
Jun 21 20:44:18
charon
67161
10[CFG] vici client 19787 requests: list-sas
Jun 21 20:44:18
charon
67161
10[CFG] vici client 19787 registered for: list-sa
Jun 21 20:44:18
charon
67161
08[CFG] vici client 19787 connected
Jun 21 20:44:03
charon
67161
12[IKE] <con1|321> sending keep alive to IP_PUBLICA[4500]

Routing tables que tengo son las siguientes:

Internet:
Destination        Gateway            Flags     Netif Expire
default            192.168.1.1        UGS        igc0
IP_PUBLICA      192.168.1.1        UGHS       igc0
127.0.0.1          link#8             UH          lo0
172.16.0.0/24      link#2             U          igc1
172.16.0.1         link#8             UHS         lo0
172.16.2.0/24      link#11            U        igc1.2
172.16.2.1         link#8             UHS         lo0
172.16.10.0/24     link#12            U        ovpns1
172.16.10.1        link#8             UHS         lo0
192.168.1.0/24     link#1             U          igc0
192.168.1.254      link#8             UHS         lo0
192.168.255.254    link#8             UH          lo0

Todo esto, mientras la WAN está marcada como caída y antes de reiniciar el FW, una vez que se reinicia, vuelve a la vida sin problemas, esto, me está pasando en varios, lo tengo montado de la siguiente manera:

Paquetes: ACME, Snort, pfBlocker, ntopng, Telegraf, Cron, Filer, OpenVPN client export, service watchdog y system partches

Las reglas las tengo puestas como reglas flotantes, solo permito hacía afuera el Ping y los puertos de navegación correo y poco mas según cada red, con vlanes para dispositivos móviles

Una cosa que observo cuándo pasa es que en Grafana, se dispara el uso de CPU y la carga, como se ve en las imágenes:

Estoy desesperado, las versiones van desde la 2.7.2 y 2.8.0 a la plus 24.11, no se que mas datos daros para ver si alguien me puede dar luz con este tema.

Captura de pantalla 2025-06-22 004520.png

Captura de pantalla 2025-06-22 004503.png

periko

@dcuadrados si tienes reinicios de la wan o inestabilidad claro que afecta a todas las VPNs y tendra reinicios es normal eso.

Ya probastes si tus proveedores de internet estan operando bien? yo me conectaria a cada uno y haria pruebas directo con ellos, fuera de pfsense.

Ahora es log es solo el gw, muestra a ese mismo dia/hora/minuto/segundo el de system, para ver que le sucede a el sistema cuando hay intermitencia.

Y ultima pregunta, tus NICs WANs y LAN como se llaman?

pregunta, tienes expuesto algu servicio hacia internet?
Si no, suricata es un paquete le carga la mano a las interfaces y se recomienda cuando hay servicos publicos, de lo contrario no tiene mucho sentido, al menos que andes buscando algo?

Y por ultimo, por que reglas flotantes?, lo veo innecesario, pero espero que entiendas perfectamente como funciona su logica, es tu equipo tu decision.

Saludos.

dcuadrados

@periko Bueno días, tras mirar bien la monitorización, descubrí que el problema era una tarea programada Cron que cada 15 minutos se ejecutaba al tener unas reglas con horario, la tarea elimina todos los estados cada 15 minutos, independientemente de cuando termine el horario, observé que en algunos de esos reinicios, el firewall se cargaba y ya sin remedio cada vez se iba cargando mas gasta que perdía la conectividad, al ser una regla que era una tontería la he quitado y listo todo funcionando como la seda