Interrupts проблема
-
"кэп" подсказывает, что на железо :)
Я-бы начал с сетевух, память можно и с диска проверить.
Ну а там останется то винт БП. да материнка, заменил и всё ;D -
ожидаю подъема прцента по прерываниям, посмотрю на вывод
vmstat -w 5
всё-таки хочется узнать настоящую причину (т.к. уж очень дорогие intel server nic)
-
ну в общем ничем vmstat не помог. :'(
может кто сталкивался с диагностикой? -
Была похожая ситуация с Realtek RTL8169 (а чип DGE-528T –- это аналог). Поиск в интернете показал что в зависаниях виноват перегрев чипа. Поставил радиаторы и на Realtek RTL8169 и на DGE-528T. Сейчас тестирую --- пока все нормально.
-
ок, пробуем
-
всё-таки хочется узнать настоящую причину (т.к. уж очень дорогие intel server nic)
да никто и не говорит о серверных сетевухах. Вопрос был поставлен "начал виснуть" т.е. до этого не вис.
Я так понимаю что рабочее железо не должно зависать или
вы думаете, что только серверное железо не должно зависать ? ;D -
да, проблема именно появилась, хочу разобраться, а про intel - думаю, что для запаса прочности.
-
Итак. Когда система работает
systat -vmstat:2 users Load 0.00 0.03 0.05 Jan 14 14:50
Mem:KB REAL VIRTUAL VN PAGER SWAP PAGER
Tot Share Tot Share Free in out in out
Act 44420 18652 233348 54068 922700 count
All 67672 22396 2393296 71420 pages
Proc: Interrupts
r p d s w Csw Trp Sys Int Sof Flt 20 cow 5957 total
37 10k 243 643 4384 5370 155 92 zfod atkbd0 1
3 ozfod ata0 irq14
0.2%Sys 6.3%Intr 0.9%User 0.0%Nice 92.6%Idle 3%ozfod 1621 re1 irq16
| | | | | | | | | | | daefr 4 rl0 irq17
+++> 111 prcfr 2333 re0 irq18
42 dtbuf 120 totfr 1999 cpu0: time
Namei Name-cache Dir-cache 69211 desvn react
Calls hits % hits % 787 numvn pdwak
1910 1816 95 52 frevn pdpgs
intrn
Disks ad0 md0 42372 wire
KB/t 16.00 16.00 30996 act
tps 0 0 12224 inact
MB/s 0.00 0.00 956 cache
%busy 0 0 921744 free
26480 bufvmstat -i
vmstat -i
interrupt total rate
irq1: atkbd0 6 0
irq14: ata0 8521 2
irq16: re1 6643803 1864
irq17: rl0 45275 12
irq18: re0 9069207 2544
cpu0: timer 7127137 1999Подвисшая система
systat -vmstatMem:KB REAL VIRTUAL VN PAGER SWAP PAGER
Tot Share Tot Share Free in out in out
Act 67556 31796 220952 75592 375536 count
All 93628 35436 2361336 92808 pages
Proc: Interrupts
r p d s w Csw Trp Sys Int Sof Flt 20 cow 134k total
38 273k 5440 606 132k 164k 154 92 zfod atkbd0 1
2 ozfod ata0 irq14
1.1%Sys 58.9%Intr 0.8%User 0.0%Nice 39.3%Idle 2%ozfod 4 vr0 irq17
| | | | | | | | | | | daefr 9 re0 irq18
=+++++++++++++++++++++++++++++ 112 prcfr 132k re1 irq19
17 dtbuf 120 totfr 2002 cpu0: time
Namei Name-cache Dir-cache 34796 desvn react
Calls hits % hits % 1521 numvn pdwak
1894 1894 100 549 frevn pdpgs
intrn
Disks ad0 md0 50380 wire
KB/t 16.00 16.00 50776 act
tps 0 0 16524 inact
MB/s 0.00 0.00 596 cache
%busy 0 0 374940 free
33408 bufvmstat -i
interrupt total rate
irq1: atkbd0 6 0
irq14: ata0 1399199 3
irq17: vr0 58168351 135
irq18: re0 493576117 1147
irq19: re1 4291436460 9978
cpu0: timer 859965484 1999
Total 5704545617 13263ну и {swi5+}, забиравший у cpu 60% нагрузки на софтовые прерывания, на что именно так и оставалось загадкой (для меня)
Итого:
после проверок железа оказалось, что винт умирал
Remap, в моём случае, помог на все 100.
-
после проверок железа оказалось, что винт умирал
Remap, в моём случае, помог на все 100.С таким графиком винту давно пора в морг! 2000 битых секторов!
Если seagate, то ещё можно запустить заводской тест и подлечить винт, в других случаях - только замена.
Кстати, при замене харда не обязательно всё ставить с нуля, можно и клонировать диски. -
Кстати, при замене харда не обязательно всё ставить с нуля, можно и клонировать диски.
Или поставить с нуля и сохранить/восстановить конфиг pfSense, если конечно статистики в пакетах никакой нет на харде.
-
2 Sonya
Если seagate, то ещё можно запустить заводской тест и подлечить винт
какой-такой "заводской тест"?
-
2 Sonya
Если seagate, то ещё можно запустить заводской тест и подлечить винт
какой-такой "заводской тест"?
Наверное утилиту от производителя.
-
на картинке выше MAXTOR 40G, к стати восстановил.
не надо никаких заводских утилит, Victoria 3.5 поддерживает практически любой винт, за что спасибо автору. Она к тому-же бесплатная. -
какой-такой "заводской тест"?
У сигейта есть возможность давать команды через шнурок, запустив selfscan.
-
на картинке выше MAXTOR 40G, к стати восстановил.
не надо никаких заводских утилит, Victoria 3.5Victoria - это вещь. Один-два дефекта можно подменить из резервной зоны подобным образом и пользоваться дальше. Но 2300 дефектов - это жуть, дефект-лист не резиновый, а такое обилие дефектов говорит о скорой кончине винта. Не говорите, что я пессимист, но хард надо менять, пока система ещё дышит, иначе в скором времени придётся её переустанавливать.
-
2 Sonya
есть возможность давать команды через шнурок
так я и думал.
-
Таки поставил новый винт, 5-й день - полёт нормальный.
-
Добрый день!
Собрал роутер для дома на базе ZOTACLGA 1155 Z68-ITX, Intel Celeron G530, 2 GB DDR3, HDD WD2500AAKX, 2 x onboard Realtek RTL8111E, WiFi - AzureWave AR5B95. Основное назначение - переваривание гигабита от провайдера и обеспечение работы сервера с торрентом, нескольких медиа-танков, телефизора и 3-5 беспроводных устройств. Всё бы ничего, но через время заметил постоянную загрузку CPU в пределах 30-40%, стал разбираться, оказалось это interrupts от irq16: ath0 ehci0. С одной стороны ресурсов хватает с головой и при 70-80% загрузке канала утилизация CPU не превышает 60-65%, но очень хочется, чтобы все было так сказать по фэн-шую и если ничего не происходит, процессор простаивал и небыл занят непонятно чем.После прочтения данного форума, в том числе и англоязычной ветки с аналогичной проблемой (я отписался и там тоже), начал разбираться. Сначала отключил все "ненужное" в биосе, начиная от звуковой карты и заканчивая Legacy USB и USB 3. Понаблюдал - результат тот же, работает 2-3 часа нормально (CPU load 1-2%), затем все возвращается и снова CPU load 36%. Затем я открутил и удалил физически WiFi карту AzureWave AR5B95, увидел irq16: ehci0, стал наблюдать. Снова через 3 часа появились эти прерывания, но уже 25-26%, то есть меньше, затем я прописал в /boot/loader.conf:
hw.usb.ehci.lostintrbug="1" hw.usb.ehci.iaadbug="1" hw.usb.ehci.no_hs="1"
Уже на протяжении 5-6 часов все было в порядке, но затем снова irq16: ehci0 появился и показывал CPU load 20-23%. Вот, что показывают $ vmstat -i и $ devinfo -v:
interrupt total rate
irq16: ehci0 6679556627 168445 –----> + примерно 450 000 каждую секунду
irq19: atapci0+ 57770 1
irq23: ehci1 79325 2
cpu0: timer 79305108 1999
irq256: re0 98275744 2478
irq257: re1 96862546 2442
cpu1: timer 79304926 1999
Total 7033442046 177370$ devinfo -v
nexus0
…....
acpi0
.......
pcib0 pnpinfo HID=PNP0A08 UID=0 at handle=_SB.PCI0
pci0
.......
ehci0 pnpinfo vendor=0x8086 device=0x1c2d subvendor=0x19da subdevice=0xa198 class=0x0c0320 at slot=26 function=0 handle=_SB.PCI0.USBE
usbus0
uhub0
uhub2 pnpinfo vendor=0x8087 product=0x0024 devclass=0x09 devsubclass=0x00 sernum="" release=0x0000 intclass=0x09 intsubclass=0x00 at bus=1 hubaddr=1 port=0 devaddr=2 interface=0
.......
ehci1 pnpinfo vendor=0x8086 device=0x1c26 subvendor=0x19da subdevice=0xa198 class=0x0c0320 at slot=29 function=0 handle=_SB_.PCI0.EUSB
usbus1
uhub1
uhub3 pnpinfo vendor=0x8087 product=0x0024 devclass=0x09 devsubclass=0x00 sernum="" release=0x0000 intclass=0x09 intsubclass=0x00 at bus=1 hubaddr=1 port=1 devaddr=2 interface=0
.......Прошу подсказать, в какую сторону теперь копать? К сожалению я плохо знаком с FreeBSD и прочими механизмами работы данной системы, но уж очень не хотелось бы переходить на какой-нибудь IPcop или ещё чего-нибудь там. Уж очень нравится pfsense с его плюшками и вэбкой.
ps: ставил m0n0wall, бетку, результат зеркальный.
-
Замена сетевуки на 3COM или INTEL решило аналогичную проблему для меня
-
К сожалению, для меня это не выход, т. к. остался только один свободный PCI Express x16, который в планах будет занят WiFi модулем (на замену действующему слабенькому Atheros 9285 mini-PCI Express). Да и потом, если присмотреть "активную" сетевуху и все таки воткнуть её в свободный PCI-E, то стоимость моего роутера с легкостью перевалит за 4 сотни долларов. А это уже, практически, цена производительного и многопортового Микротика (например - RB1100AHx2), с готовой Level6 на борту и возможностью переваривать 500k пакетов. То есть экономия получается неэкономной и смысл сборки/шаманства над действующей коробочкой теряется.
-
смысл сборки/шаманства над действующей коробочкой теряется.
странный вы, однако, товарищ. Во-первых роутер боард уже давно действительно рулит в сегменте SOHO по соотношению цена/производительность, а во-вторых кто вам мешает установить тот же микрот for x86 на ваше железо? Лень/кривые руки/идеология?
И касательно матери, опять-же - странный выбор. S3115GM2N(-B) было бы самое то. -
странный вы, однако, товарищ. Во-первых роутер боард уже давно действительно рулит в сегменте SOHO по соотношению цена/производительность
Было аналогичное мнение, но было раньше, пока был 100-мегабитный аплинк.
С гигабитом от провайдера и "рулящим в сегменте SOHO" RB493G (как вы наверняка знаете - одна из топовых материнок микротика) меня ждало разочарование. Чудес не бывает, даже при разгоне AR7161 до 800Mhz, даже при минимизации правил и отключении WiFi - все равно торрент-клиент отказывался выдавать более 200-250 Mbps.
Таким образом, минимальный роутербоард, который может более-менее справиться с подобной задачей - это RB1100AH, а лучше RB1100AHx2 с ценами 450-650 USD, что, примерно, на треть, а то и вдвое дороже моего решения. В общем-то, об этом я уже писал.а во-вторых кто вам мешает установить тот же микрот for x86 на ваше железо? Лень/кривые руки/идеология?
Есть некоторые ограничения, как, например, поддерживаемое оборудование, стоимость современных версий оси, необходимость иметь winbox для более детального общения с железкой (не всегда захожу из-под Windows) и др.
И касательно матери, опять-же - странный выбор. S3115GM2N(-B) было бы самое то.
А кто сказал, что у меня был выбор?
ps: буду весьма признателен, если кроме общих фраз, найдется хотя бы парочка по делу. В противном случае не вижу смысла засорять ветку, если есть желание обсуждать посторонние вопросы, пожалуйста, давайте переговорим в привате.
-
Попробуйте настройки на System: Advanced: Networking
Device polling Включить device polling Device polling - это технология, позволяющая системе периодически опрашивать сетевые устройства для получения новых данных, вместо того чтобы полагаться на прерывания. Это предохраняет webConfigurator, SSH и т. д. от недоступности из-за флуда прерываний при экстремальных нагрузках. Обычно это не рекомендуется. Не все сетевые карты поддерживают polling, см. pfSense домашнюю страницу, чтобы получить список поддерживаемых карт. Hardware Checksum Offloading Отключить аппаратный подсчет контрольной суммы (функция TCP Checksum Offload) Выбор этой опции отключает аппаратный подсчет контрольной суммы (TCP Checksum Offload ). Данная функция некорректно работает на некотором оборудовании, в частности, в некоторых Realtek картах. Иногда эта функция может некорректно работать в драверах с некоторыми конкретными моделями сетевых карт. (* в этом случае подсчет будет производиться средствами CPU) Hardware TCP Segmentation Offloading Отключить аппаратную сегментацию TCP пакетов (функция TCP Segmentation Offload (TSO)) Выбор этой опции отключает аппаратную сегментацию TCP пакетов (функция TCP Segmentation Offload (TSO, TSO4, TSO6)). Эта функция некорректно работает в некоторых драйверах оборудования, и может повлиять на производительность с некоторыми конкретными моделями сетевых карт. (* в этом случае функция TSO будет производиться CPU) Hardware Large Receive Offloading Отключить аппаратное получение больших данных (Large Receive Offload (LRO)) Выбор этой опции отключает аппаратное получение больших данных (LRO). Эта функция некорректна в некоторых драйверах оборудования, и может повлиять на производительность с некоторыми конкретными моделями сетевых карт.. ARP Handling Подавлять ARP сообщения Эта опция будет подавлять сообщения ARP журнала (log messages), когда несколько интерфейсов находятся в том же широковещательном домене
-
Благодарю за предложение, но результата, к сожалению, нет :(
А при включении чекбокса Device polling и вовсе CPU load от system зашкаливает до 45-50%.
Склоняюсь к мысли забить на это дело, ведь остальных 80% процессора G530 с головой хватает для моих задач. -
Попробуйте скорость на сетевухах поставить 100 FULL DUPLEX . Гигабитные Realtekи (на гигабите) греються как печки и могут давать такой эффект. Сейчас у меня работают гигабитные реалтеки и длинки с наклееными радиаторами–вроде все нормально.
-
Попробуйте скорость на сетевухах поставить 100 FULL DUPLEX
Пробовал разные режимы, кроме 10-мегабитных, но результат не меняется.
Про радиаторы я тоже читал, но материнка в ходе работы холодная, процессор 42-45 градусов, мосты тёплые.Самое забавное в этой ситуации, что проявляется это не сразу, а через некоторое время. То есть например, перегрузил я роутер в 18-00 вечера, пошел отсчет аптайма, все бегает, на машинах работают торренты, WiFi через точку доступа и т. д. Загрузка CPU в зависимости от скорости раздачи торрента, количества клиентов и так далее примерно 3-15%. Затем потихоньку народ начинает отключаться, отключается и PC с торрентом, то есть остаются только воздушные гаджеты (2-3 шт.) в режиме online. Загрузка процессора 0-3%. Проходит пол часа, может час и затем появляются эти злополучные прерывания на irq16: ehci0. Происходит это где-то в 23-30, 0-30, после 5-6 часов работы и затем уже никуда не пропадают. То есть машина нормально работает 5-6 часов, потом валят прерывания. Если перегрузить - процесс повторяется … ???
-
А по pciconf -lv что говорит ? Т.е. что еще висит на одном прерывании с ehci ? Может плясать от этого и по-отключать еще и то , что висит с ним на одном irq?
http://www.opennet.ru/openforum/vsluhforumID1/89433.html -
Отпишусь, может моя информация чем то поможет конфигурация роутера примерно такая же только процессор G630T через разное время от 1 минуты до 2х часов начинал валиться interrupt storm и дикая загрузка процессора под 80% через некоторое время после этого начинал отваливаться интернет на компьютерах.
Самое интересное заключалось в том что все это наблюдалось только при подключенном к роутеру hdmi, при подключении через display port такого не было.
Сейчас монитор вообще не подключен и уже 2 месяца никаких проблем не вылазит. -
werter, Bishounen, прежде всего большое спасибо вам за то, что потратили своё время и отписались! Как в воду глядели … так и есть, используемая материнка имеет только 2 х HDMI 1.4a и 1 х DisplayPort (mini-DP). При настройке системы я переместил роутер в большую комнату к LCD-телеку и подключил по HDMI, соответственно, не отключал по сей день. Таким образом, со включенным дисплеем имеем:
$ vmstat -i interrupt total rate irq16: ehci0 2 0 irq19: atapci0+ 2781 7 irq23: ehci1 2 0 cpu0: timer 771883 2004 irq256: re0 9490 24 irq257: re1 13635 35 cpu1: timer 771680 2004 Total 1569473 4076
$ pciconf -lv hostb0@pci0:0:0:0: class=0x060000 card=0xa19819da chip=0x01008086 rev=0x09 hdr=0x00 class = bridge subclass = HOST-PCI vgapci0@pci0:0:2:0: class=0x030000 card=0xa19819da chip=0x01028086 rev=0x09 hdr=0x00 class = display subclass = VGA none0@pci0:0:22:0: class=0x078000 card=0xa19819da chip=0x1c3a8086 rev=0x04 hdr=0x00 class = simple comms ehci0@pci0:0:26:0: class=0x0c0320 card=0xa19819da chip=0x1c2d8086 rev=0x05 hdr=0x00 class = serial bus subclass = USB pcib1@pci0:0:28:0: class=0x060400 card=0xa19819da chip=0x1c108086 rev=0xb5 hdr=0x01 class = bridge subclass = PCI-PCI pcib2@pci0:0:28:1: class=0x060400 card=0xa19819da chip=0x1c128086 rev=0xb5 hdr=0x01 class = bridge subclass = PCI-PCI pcib3@pci0:0:28:2: class=0x060400 card=0xa19819da chip=0x1c148086 rev=0xb5 hdr=0x01 class = bridge subclass = PCI-PCI pcib4@pci0:0:28:3: class=0x060400 card=0xa19819da chip=0x1c168086 rev=0xb5 hdr=0x01 class = bridge subclass = PCI-PCI ehci1@pci0:0:29:0: class=0x0c0320 card=0xa19819da chip=0x1c268086 rev=0x05 hdr=0x00 class = serial bus subclass = USB isab0@pci0:0:31:0: class=0x060100 card=0xa19819da chip=0x1c448086 rev=0x05 hdr=0x00 class = bridge subclass = PCI-ISA atapci0@pci0:0:31:2: class=0x01018f card=0xa19819da chip=0x1c008086 rev=0x05 hdr=0x00 class = mass storage subclass = ATA none1@pci0:0:31:3: class=0x0c0500 card=0xa19819da chip=0x1c228086 rev=0x05 hdr=0x00 class = serial bus subclass = SMBus atapci1@pci0:0:31:5: class=0x010185 card=0xa19819da chip=0x1c088086 rev=0x05 hdr=0x00 class = mass storage subclass = ATA re0@pci0:2:0:0: class=0x020000 card=0x012319da chip=0x816810ec rev=0x06 hdr=0x00 class = network subclass = ethernet re1@pci0:3:0:0: class=0x020000 card=0x012319da chip=0x816810ec rev=0x06 hdr=0x00 class = network subclass = ethernet none2@pci0:4:0:0: class=0x0c0330 card=0xa19819da chip=0x34321106 rev=0x02 hdr=0x00 class = serial bus subclass = USB
Как видим, пока что Interrupts на 16-м нет, все в порядке. Выдернул HDMI и сразу загрузка CPU в 20% и шторм на irq16: ehci0. Сейчас перезагрузился с отключенным монитором, жду …
-
Update.
Ещё раз спасибо werter и Bishounen. Со вчерашнего вечера на irq16 тихо, как в танке, загрузка CPU - 0-1%, отлегло.