Резкая нагрузка на сервер, в чем причина?
-
Добрый день! Прошу помощи так как уже и не знаю куда копать. Смысл в чем – Есть сервер на котором крутится 4 BGP сессии, 2 – UA-ix, 2-мир. + NAT, VLAN и тд. В один прекрасный момент резко выростает нагрузка на ядра ЦП, потом попускает где то через часа 4. По трафику – все как обычно, единственное – это замечено было резко увеличивающиеся количество пакетов на одной из сессий мир. На пример было 20К/с стало 80К/с, в этот момент нагрузка стает 5,5 и больше (В нормальной работе даже под вечерней загрузкой обычно не больше 0,9). В снятом дампе замечено аномальное количество TCP Out-Of-Order и TCP Retransmission. При тушении на свитче vlana с данной сессией – сервер попускает – при поднятии – все снова повторяется.
Вот сейчас без 1 сессии мира при нагрузке 880 Мбит/с общего трафика – нагрузка всего 0,68.
last pid: 30796; load averages: 0.75, 0.73, 0.74 up 1+03:28:52 20:10:42
113 processes: 8 running, 84 sleeping, 21 waitingMem: 248M Active, 312M Inact, 672M Wired, 1116K Cache, 796M Buf, 6375M Free
Swap: 16G Total, 16G FreePID USERNAME PRI NICE SIZE RES STATE C TIME WCPU COMMAND
12 root -68 - 0K 384K WAIT 0 371:51 41.80% {irq256: igb0:que}
12 root -68 - 0K 384K CPU1 1 345:27 38.77% {irq257: igb0:que}
12 root -68 - 0K 384K WAIT 3 352:09 35.99% {irq259: igb0:que}
11 root 171 ki31 0K 64K RUN 2 949:35 35.06% {idle: cpu2}
11 root 171 ki31 0K 64K RUN 1 973:51 33.98% {idle: cpu1}
11 root 171 ki31 0K 64K RUN 0 954:06 33.59% {idle: cpu0}
12 root -68 - 0K 384K WAIT 2 368:28 33.50% {irq258: igb0:que}
12 root -64 - 0K 384K CPU3 3 582:11 27.29% {irq19: atapci0+}
12 root -68 - 0K 384K WAIT 3 194:05 22.56% {irq264: igb1:que}
12 root -68 - 0K 384K WAIT 0 210:41 20.90% {irq261: igb1:que}
12 root -68 - 0K 384K WAIT 2 203:53 20.56% {irq263: igb1:que}
12 root -68 - 0K 384K RUN 1 193:47 18.80% {irq262: igb1:que}
11 root 171 ki31 0K 64K RUN 3 439:59 13.96% {idle: cpu3}
16205 root 76 0 108M 30892K piperd 3 1:14 3.86% php
12102 root 76 0 106M 30300K accept 2 1:15 2.69% php
0 root -68 0 0K 240K - 3 46:31 1.56% {igb0 que}
0 root -68 0 0K 240K - 2 50:19 1.46% {igb0 que}
0 root -68 0 0K 240K - 2 43:58 1.27% {igb0 que}При проблемах:
last pid: 63626; load averages: 5.79, 3.20, 2.04 up 0+23:06:03 21:59:45
113 processes: 16 running, 79 sleeping, 18 waitingMem: 497M Active, 114M Inact, 959M Wired, 592M Buf, 6040M Free
Swap: 16G Total, 16G FreePID USERNAME PRI NICE SIZE RES STATE C TIME WCPU COMMAND
0 root -68 0 0K 240K CPU0 1 106:38 68.99% {igb0 que}
0 root -68 0 0K 240K CPU3 0 76:25 57.96% {igb0 que}
0 root -68 0 0K 240K - 1 72:17 55.76% {igb0 que}
0 root -68 0 0K 240K RUN 1 63:56 48.78% {igb0 que}
0 root -68 0 0K 240K - 2 30:19 17.87% {igb1 que}
0 root -68 0 0K 240K - 1 22:39 17.77% {igb1 que}
0 root -68 0 0K 240K - 2 21:29 15.28% {igb1 que}
12 root -68 - 0K 384K WAIT 1 247:44 13.48% {irq257: igb0:que}
0 root -68 0 0K 240K CPU2 2 19:06 13.38% {igb1 que}
56079 root 118 20 258M 133M RUN 1 0:04 11.96% pfctl
12 root -68 - 0K 384K RUN 2 257:03 10.16% {irq258: igb0:que}
12 root -68 - 0K 384K WAIT 1 103:36 9.86% {irq262: igb1:que}
12 root -68 - 0K 384K RUN 2 111:38 9.47% {irq263: igb1:que}
12 root -68 - 0K 384K WAIT 3 243:36 9.18% {irq259: igb0:que}
12 root -68 - 0K 384K RUN 3 103:01 7.28% {irq264: igb1:que}
12 root -68 - 0K 384K RUN 0 108:18 6.69% {irq261: igb1:que}
12 root -64 - 0K 384K RUN 3 526:02 6.30% {irq19: atapci0+}
12 root -68 - 0K 384K WAIT 0 241:02 4.79% {irq256: igb0:que}Анализ пакетов с акулы
При норм работе на сессии:==================================================================================================================================
Packet Lengths:
Topic / Item Count Average Min val Max val Rate (ms) Percent Burst rate Burst start
–--------------------------------------------------------------------------------------------------------------------------------
Packet Lengths 914000 1017.92 54 1514 19.1630 100% 28.3800 1.125
0-19 0 - - - 0.0000 0.00% - -
20-39 0 - - - 0.0000 0.00% - -
40-79 184937 64.52 54 79 3.8774 20.23% 5.7700 41.130
80-159 68551 112.74 80 159 1.4372 7.50% 2.2000 32.125
160-319 21184 213.47 160 319 0.4441 2.32% 0.9200 6.185
320-639 25390 464.15 320 639 0.5323 2.78% 1.0500 36.661
640-1279 27067 992.71 640 1279 0.5675 2.96% 1.0000 1.711
1280-2559 586871 1478.25 1280 1514 12.3044 64.21% 20.5300 1.125
2560-5119 0 - - - 0.0000 0.00% - -
5120 and greater 0 - - - 0.0000 0.00% - -
При плохой работе на сессии:
==================================================================================================================================
Packet Lengths:
Topic / Item Count Average Min val Max val Rate (ms) Percent Burst rate Burst startPacket Lengths 914123 197.63 42 1514 20.0752 100% 214.3700 39.910
0-19 0 - - - 0.0000 0.00% - -
20-39 0 - - - 0.0000 0.00% - -
40-79 702546 63.80 42 79 15.4287 76.85% 177.1200 39.910
80-159 118968 139.58 80 159 2.6127 13.01% 32.9200 39.925
160-319 9580 192.61 160 319 0.2104 1.05% 2.4900 39.910
320-639 4297 451.82 320 639 0.0944 0.47% 0.9200 28.500
640-1279 3440 991.35 640 1279 0.0755 0.38% 0.6500 37.525
1280-2559 75292 1488.02 1280 1514 1.6535 8.24% 14.8900 45.165
2560-5119 0 - - - 0.0000 0.00% - -
5120 and greater 0 - - - 0.0000 0.00% - -
ТТХ сервера:
2.0.1-RELEASE (amd64)
Intel(R) Core(TM) i5-3570 CPU @ 3.40GHz
8 GB DDR3
Intel dual port adapter ET (IGB)Подскажите в чем может быть проблема? Такая беда уже 4 день мозг выносит((
-
-
спасибо, по существу вопроса…