Interrupts проблема
-
PF2.01 начал виснуть, нагрузки по сети нет! сетевые dge-528, cpu amd 1.8G ram ddr1 512M
Diagnostics: System Activity
last pid: 5977; load averages: 0.05, 0.14, 0.15 up 0+08:26:47 17:37:28
101 processes: 2 running, 85 sleeping, 14 waitingMem: 43M Active, 22M Inact, 69M Wired, 524K Cache, 59M Buf, 346M Free
Swap: 1024M Total, 1024M FreePID USERNAME PRI NICE SIZE RES STATE TIME WCPU COMMAND
12 root -28 - 0K 112K WAIT 52:16 59.28% {swi5: +}
11 root 171 ki31 0K 8K RUN 420:59 37.26% idle
42441 root 46 0 44380K 23168K piperd 0:20 0.98% php
12 root -32 - 0K 112K WAIT 7:17 0.29% {swi4: clock}
0 root -68 0 0K 56K - 9:10 0.00% {dummynet}
…В логах пустота, доп. пакетов нету. Подскажите пожалуйста куда смотреть.
-
"кэп" подсказывает, что на железо :)
Я-бы начал с сетевух, память можно и с диска проверить.
Ну а там останется то винт БП. да материнка, заменил и всё ;D -
ожидаю подъема прцента по прерываниям, посмотрю на вывод
vmstat -w 5
всё-таки хочется узнать настоящую причину (т.к. уж очень дорогие intel server nic)
-
ну в общем ничем vmstat не помог. :'(
может кто сталкивался с диагностикой? -
Была похожая ситуация с Realtek RTL8169 (а чип DGE-528T –- это аналог). Поиск в интернете показал что в зависаниях виноват перегрев чипа. Поставил радиаторы и на Realtek RTL8169 и на DGE-528T. Сейчас тестирую --- пока все нормально.
-
ок, пробуем
-
всё-таки хочется узнать настоящую причину (т.к. уж очень дорогие intel server nic)
да никто и не говорит о серверных сетевухах. Вопрос был поставлен "начал виснуть" т.е. до этого не вис.
Я так понимаю что рабочее железо не должно зависать или
вы думаете, что только серверное железо не должно зависать ? ;D -
да, проблема именно появилась, хочу разобраться, а про intel - думаю, что для запаса прочности.
-
Итак. Когда система работает
systat -vmstat:2 users Load 0.00 0.03 0.05 Jan 14 14:50
Mem:KB REAL VIRTUAL VN PAGER SWAP PAGER
Tot Share Tot Share Free in out in out
Act 44420 18652 233348 54068 922700 count
All 67672 22396 2393296 71420 pages
Proc: Interrupts
r p d s w Csw Trp Sys Int Sof Flt 20 cow 5957 total
37 10k 243 643 4384 5370 155 92 zfod atkbd0 1
3 ozfod ata0 irq14
0.2%Sys 6.3%Intr 0.9%User 0.0%Nice 92.6%Idle 3%ozfod 1621 re1 irq16
| | | | | | | | | | | daefr 4 rl0 irq17
+++> 111 prcfr 2333 re0 irq18
42 dtbuf 120 totfr 1999 cpu0: time
Namei Name-cache Dir-cache 69211 desvn react
Calls hits % hits % 787 numvn pdwak
1910 1816 95 52 frevn pdpgs
intrn
Disks ad0 md0 42372 wire
KB/t 16.00 16.00 30996 act
tps 0 0 12224 inact
MB/s 0.00 0.00 956 cache
%busy 0 0 921744 free
26480 bufvmstat -i
vmstat -i
interrupt total rate
irq1: atkbd0 6 0
irq14: ata0 8521 2
irq16: re1 6643803 1864
irq17: rl0 45275 12
irq18: re0 9069207 2544
cpu0: timer 7127137 1999Подвисшая система
systat -vmstatMem:KB REAL VIRTUAL VN PAGER SWAP PAGER
Tot Share Tot Share Free in out in out
Act 67556 31796 220952 75592 375536 count
All 93628 35436 2361336 92808 pages
Proc: Interrupts
r p d s w Csw Trp Sys Int Sof Flt 20 cow 134k total
38 273k 5440 606 132k 164k 154 92 zfod atkbd0 1
2 ozfod ata0 irq14
1.1%Sys 58.9%Intr 0.8%User 0.0%Nice 39.3%Idle 2%ozfod 4 vr0 irq17
| | | | | | | | | | | daefr 9 re0 irq18
=+++++++++++++++++++++++++++++ 112 prcfr 132k re1 irq19
17 dtbuf 120 totfr 2002 cpu0: time
Namei Name-cache Dir-cache 34796 desvn react
Calls hits % hits % 1521 numvn pdwak
1894 1894 100 549 frevn pdpgs
intrn
Disks ad0 md0 50380 wire
KB/t 16.00 16.00 50776 act
tps 0 0 16524 inact
MB/s 0.00 0.00 596 cache
%busy 0 0 374940 free
33408 bufvmstat -i
interrupt total rate
irq1: atkbd0 6 0
irq14: ata0 1399199 3
irq17: vr0 58168351 135
irq18: re0 493576117 1147
irq19: re1 4291436460 9978
cpu0: timer 859965484 1999
Total 5704545617 13263ну и {swi5+}, забиравший у cpu 60% нагрузки на софтовые прерывания, на что именно так и оставалось загадкой (для меня)
Итого:
после проверок железа оказалось, что винт умирал
Remap, в моём случае, помог на все 100.
-
после проверок железа оказалось, что винт умирал
Remap, в моём случае, помог на все 100.С таким графиком винту давно пора в морг! 2000 битых секторов!
Если seagate, то ещё можно запустить заводской тест и подлечить винт, в других случаях - только замена.
Кстати, при замене харда не обязательно всё ставить с нуля, можно и клонировать диски. -
Кстати, при замене харда не обязательно всё ставить с нуля, можно и клонировать диски.
Или поставить с нуля и сохранить/восстановить конфиг pfSense, если конечно статистики в пакетах никакой нет на харде.
-
2 Sonya
Если seagate, то ещё можно запустить заводской тест и подлечить винт
какой-такой "заводской тест"?
-
2 Sonya
Если seagate, то ещё можно запустить заводской тест и подлечить винт
какой-такой "заводской тест"?
Наверное утилиту от производителя.
-
на картинке выше MAXTOR 40G, к стати восстановил.
не надо никаких заводских утилит, Victoria 3.5 поддерживает практически любой винт, за что спасибо автору. Она к тому-же бесплатная. -
какой-такой "заводской тест"?
У сигейта есть возможность давать команды через шнурок, запустив selfscan.
-
на картинке выше MAXTOR 40G, к стати восстановил.
не надо никаких заводских утилит, Victoria 3.5Victoria - это вещь. Один-два дефекта можно подменить из резервной зоны подобным образом и пользоваться дальше. Но 2300 дефектов - это жуть, дефект-лист не резиновый, а такое обилие дефектов говорит о скорой кончине винта. Не говорите, что я пессимист, но хард надо менять, пока система ещё дышит, иначе в скором времени придётся её переустанавливать.
-
2 Sonya
есть возможность давать команды через шнурок
так я и думал.
-
Таки поставил новый винт, 5-й день - полёт нормальный.
-
Добрый день!
Собрал роутер для дома на базе ZOTACLGA 1155 Z68-ITX, Intel Celeron G530, 2 GB DDR3, HDD WD2500AAKX, 2 x onboard Realtek RTL8111E, WiFi - AzureWave AR5B95. Основное назначение - переваривание гигабита от провайдера и обеспечение работы сервера с торрентом, нескольких медиа-танков, телефизора и 3-5 беспроводных устройств. Всё бы ничего, но через время заметил постоянную загрузку CPU в пределах 30-40%, стал разбираться, оказалось это interrupts от irq16: ath0 ehci0. С одной стороны ресурсов хватает с головой и при 70-80% загрузке канала утилизация CPU не превышает 60-65%, но очень хочется, чтобы все было так сказать по фэн-шую и если ничего не происходит, процессор простаивал и небыл занят непонятно чем.После прочтения данного форума, в том числе и англоязычной ветки с аналогичной проблемой (я отписался и там тоже), начал разбираться. Сначала отключил все "ненужное" в биосе, начиная от звуковой карты и заканчивая Legacy USB и USB 3. Понаблюдал - результат тот же, работает 2-3 часа нормально (CPU load 1-2%), затем все возвращается и снова CPU load 36%. Затем я открутил и удалил физически WiFi карту AzureWave AR5B95, увидел irq16: ehci0, стал наблюдать. Снова через 3 часа появились эти прерывания, но уже 25-26%, то есть меньше, затем я прописал в /boot/loader.conf:
hw.usb.ehci.lostintrbug="1" hw.usb.ehci.iaadbug="1" hw.usb.ehci.no_hs="1"
Уже на протяжении 5-6 часов все было в порядке, но затем снова irq16: ehci0 появился и показывал CPU load 20-23%. Вот, что показывают $ vmstat -i и $ devinfo -v:
interrupt total rate
irq16: ehci0 6679556627 168445 –----> + примерно 450 000 каждую секунду
irq19: atapci0+ 57770 1
irq23: ehci1 79325 2
cpu0: timer 79305108 1999
irq256: re0 98275744 2478
irq257: re1 96862546 2442
cpu1: timer 79304926 1999
Total 7033442046 177370$ devinfo -v
nexus0
…....
acpi0
.......
pcib0 pnpinfo HID=PNP0A08 UID=0 at handle=_SB.PCI0
pci0
.......
ehci0 pnpinfo vendor=0x8086 device=0x1c2d subvendor=0x19da subdevice=0xa198 class=0x0c0320 at slot=26 function=0 handle=_SB.PCI0.USBE
usbus0
uhub0
uhub2 pnpinfo vendor=0x8087 product=0x0024 devclass=0x09 devsubclass=0x00 sernum="" release=0x0000 intclass=0x09 intsubclass=0x00 at bus=1 hubaddr=1 port=0 devaddr=2 interface=0
.......
ehci1 pnpinfo vendor=0x8086 device=0x1c26 subvendor=0x19da subdevice=0xa198 class=0x0c0320 at slot=29 function=0 handle=_SB_.PCI0.EUSB
usbus1
uhub1
uhub3 pnpinfo vendor=0x8087 product=0x0024 devclass=0x09 devsubclass=0x00 sernum="" release=0x0000 intclass=0x09 intsubclass=0x00 at bus=1 hubaddr=1 port=1 devaddr=2 interface=0
.......Прошу подсказать, в какую сторону теперь копать? К сожалению я плохо знаком с FreeBSD и прочими механизмами работы данной системы, но уж очень не хотелось бы переходить на какой-нибудь IPcop или ещё чего-нибудь там. Уж очень нравится pfsense с его плюшками и вэбкой.
ps: ставил m0n0wall, бетку, результат зеркальный.
-
Замена сетевуки на 3COM или INTEL решило аналогичную проблему для меня