Interrupts проблема



  • PF2.01 начал виснуть, нагрузки по сети нет! сетевые dge-528, cpu amd 1.8G ram ddr1 512M

    Diagnostics: System Activity

    last pid:  5977;  load averages:  0.05,  0.14,  0.15  up 0+08:26:47    17:37:28
    101 processes: 2 running, 85 sleeping, 14 waiting

    Mem: 43M Active, 22M Inact, 69M Wired, 524K Cache, 59M Buf, 346M Free
    Swap: 1024M Total, 1024M Free

    PID USERNAME PRI NICE   SIZE    RES STATE    TIME   WCPU COMMAND
      12 root     -28    -     0K   112K WAIT    52:16 59.28% {swi5: +}
      11 root     171 ki31     0K     8K RUN    420:59 37.26% idle
    42441 root      46    0 44380K 23168K piperd   0:20  0.98% php
      12 root     -32    -     0K   112K WAIT     7:17  0.29% {swi4: clock}
       0 root     -68    0     0K    56K -        9:10  0.00% {dummynet}

    В логах пустота, доп. пакетов нету. Подскажите пожалуйста куда смотреть.



  • "кэп"  подсказывает, что на железо :)
    Я-бы начал с сетевух, память можно и с диска проверить.
    Ну а там останется то винт БП. да материнка, заменил и всё  ;D



  • ожидаю подъема прцента по прерываниям, посмотрю на вывод

    vmstat -w 5

    всё-таки хочется узнать настоящую причину (т.к. уж очень дорогие intel server nic)



  • ну в общем ничем  vmstat не помог.  :'(
    может кто сталкивался с диагностикой?



  • Была похожая ситуация с Realtek RTL8169 (а чип DGE-528T –- это аналог). Поиск в интернете показал  что в зависаниях виноват перегрев чипа. Поставил радиаторы и на Realtek RTL8169 и на  DGE-528T. Сейчас тестирую --- пока все нормально.



  • ок, пробуем



  • @killeo:

    всё-таки хочется узнать настоящую причину (т.к. уж очень дорогие intel server nic)

    да никто и не говорит о серверных сетевухах. Вопрос был поставлен "начал виснуть" т.е. до этого не вис.
    Я так понимаю что рабочее железо не должно зависать или
    вы думаете, что только серверное железо не должно зависать ? ;D



  • да, проблема именно появилась, хочу разобраться, а про intel - думаю, что для запаса прочности.



  • Итак. Когда система работает
    systat -vmstat:

    2 users    Load  0.00  0.03  0.05                  Jan 14 14:50

    Mem:KB    REAL            VIRTUAL                       VN PAGER   SWAP PAGER
           Tot   Share      Tot    Share    Free           in   out     in   out
    Act   44420   18652   233348    54068  922700  count            
    All   67672   22396  2393296    71420          pages            
    Proc:                                                            Interrupts
     r   p   d   s   w   Csw  Trp  Sys  Int  Sof  Flt     20 cow    5957 total
                37       10k  243  643 4384 5370  155     92 zfod        atkbd0 1
                                                           3 ozfod       ata0 irq14
    0.2%Sys   6.3%Intr  0.9%User  0.0%Nice 92.6%Idle       3%ozfod      1621 re1 irq16
    |    |    |    |    |    |    |    |    |    |    |       daefr                                                 4 rl0 irq17
    +++>                                                  111 prcfr                                  2333  re0 irq18
                                           42 dtbuf      120 totfr                                    1999  cpu0: time
    Namei     Name-cache   Dir-cache     69211 desvn          react
      Calls    hits   %    hits   %       787 numvn          pdwak
       1910    1816  95                    52 frevn          pdpgs
                                                             intrn
    Disks   ad0   md0                                   42372 wire
    KB/t  16.00 16.00                                   30996 act
    tps       0     0                                   12224 inact
    MB/s   0.00  0.00                                     956 cache
    %busy     0     0                                  921744 free
                                                       26480 buf

    vmstat -i

    vmstat -i

    interrupt                          total       rate
    irq1: atkbd0                           6          0
    irq14: ata0                         8521          2
    irq16: re1                      6643803       1864
    irq17: rl0                         45275         12
    irq18: re0                       9069207       2544
    cpu0: timer                      7127137       1999

    Подвисшая система
    systat -vmstat

    Mem:KB    REAL            VIRTUAL                       VN PAGER   SWAP PAGER
           Tot   Share      Tot    Share    Free           in   out     in   out
    Act   67556   31796   220952    75592  375536  count            
    All   93628   35436  2361336    92808          pages            
    Proc:                                                            Interrupts
     r   p   d   s   w   Csw  Trp  Sys  Int  Sof  Flt     20 cow                                                   134k total
                38      273k 5440  606 132k 164k  154     92 zfod        atkbd0 1
                                                           2 ozfod            ata0 irq14
    1.1%Sys  58.9%Intr  0.8%User  0.0%Nice 39.3%Idle       2%ozfod                               4 vr0 irq17
    |    |    |    |    |    |    |    |    |    |    |       daefr                                                                     9 re0 irq18
    =+++++++++++++++++++++++++++++                        112 prcfr         132k re1 irq19
                                           17 dtbuf      120 totfr                                                        2002 cpu0: time
    Namei     Name-cache   Dir-cache     34796 desvn          react
      Calls    hits   %    hits   %      1521 numvn          pdwak
       1894    1894 100                   549 frevn          pdpgs
                                                             intrn
    Disks   ad0   md0                                   50380 wire
    KB/t  16.00 16.00                                   50776 act
    tps       0     0                                   16524 inact
    MB/s   0.00  0.00                                     596 cache
    %busy     0     0                                  374940 free
                                                       33408 buf

    vmstat -i

    interrupt                          total       rate
    irq1: atkbd0                           6          0
    irq14: ata0                      1399199          3
    irq17: vr0                      58168351        135
    irq18: re0                     493576117       1147
    irq19: re1                    4291436460       9978
    cpu0: timer                    859965484       1999
    Total                         5704545617      13263

    ну и  {swi5+},  забиравший у cpu 60% нагрузки на софтовые прерывания, на что именно так и оставалось загадкой (для меня)

    Итого:
    после проверок железа оказалось, что винт умирал
    Remap,  в моём случае,  помог на все 100.




  • @killeo:

    после проверок железа оказалось, что винт умирал
    Remap,  в моём случае,  помог на все 100.

    С таким графиком винту давно пора в морг! 2000 битых секторов!
    Если seagate, то ещё можно запустить заводской тест и подлечить винт, в других случаях - только замена.
    Кстати, при замене харда не обязательно всё ставить с нуля, можно и клонировать диски.



  • @Sonya:

    Кстати, при замене харда не обязательно всё ставить с нуля, можно и клонировать диски.

    Или поставить с нуля и сохранить/восстановить конфиг pfSense, если конечно статистики в пакетах никакой нет на харде.



  • 2 Sonya

    Если seagate, то ещё можно запустить заводской тест и подлечить винт

    какой-такой "заводской тест"?



  • @aleksvolgin:

    2 Sonya

    Если seagate, то ещё можно запустить заводской тест и подлечить винт

    какой-такой "заводской тест"?

    Наверное утилиту от производителя.



  • на картинке выше  MAXTOR 40G, к стати восстановил.
    не надо никаких заводских утилит, Victoria 3.5 поддерживает практически любой винт, за что спасибо автору. Она к тому-же бесплатная.



  • @aleksvolgin:

    какой-такой "заводской тест"?

    У сигейта есть возможность давать команды через шнурок, запустив selfscan.



  • @killeo:

    на картинке выше  MAXTOR 40G, к стати восстановил.
    не надо никаких заводских утилит, Victoria 3.5

    Victoria - это вещь. Один-два дефекта можно подменить из резервной зоны подобным образом и пользоваться дальше. Но 2300 дефектов - это жуть, дефект-лист не резиновый, а такое обилие дефектов говорит о скорой кончине винта. Не говорите, что я пессимист, но хард надо менять, пока система ещё дышит, иначе в скором времени придётся её переустанавливать.



  • 2 Sonya

    есть возможность давать команды через шнурок

    так я и думал.



  • Таки поставил новый винт, 5-й день - полёт нормальный.



  • Добрый день!
    Собрал роутер для дома на базе ZOTAC®LGA 1155 Z68-ITX, Intel Celeron G530, 2 GB DDR3, HDD WD2500AAKX, 2 x onboard Realtek RTL8111E, WiFi - AzureWave AR5B95. Основное назначение - переваривание гигабита от провайдера и обеспечение работы сервера с торрентом, нескольких медиа-танков, телефизора и 3-5 беспроводных устройств. Всё бы ничего, но через время заметил постоянную загрузку CPU в пределах 30-40%, стал разбираться, оказалось это interrupts от irq16: ath0 ehci0. С одной стороны ресурсов хватает с головой и при 70-80% загрузке канала утилизация CPU не превышает 60-65%, но очень хочется, чтобы все было так сказать по фэн-шую и если ничего не происходит, процессор простаивал и небыл занят непонятно чем.

    После прочтения данного форума, в том числе и англоязычной ветки с аналогичной проблемой (я отписался и там тоже), начал разбираться. Сначала отключил все "ненужное" в биосе, начиная от звуковой карты и заканчивая Legacy USB и USB 3. Понаблюдал - результат тот же, работает 2-3 часа нормально (CPU load 1-2%), затем все возвращается и снова CPU load 36%. Затем я открутил и удалил физически WiFi карту AzureWave AR5B95, увидел irq16: ehci0, стал наблюдать. Снова через 3 часа появились эти прерывания, но уже 25-26%, то есть меньше, затем я прописал в /boot/loader.conf:

    hw.usb.ehci.lostintrbug="1"
    hw.usb.ehci.iaadbug="1"
    hw.usb.ehci.no_hs="1"
    

    Уже на протяжении 5-6 часов все было в порядке, но затем снова irq16: ehci0 появился и показывал CPU load 20-23%. Вот, что показывают $ vmstat -i и $ devinfo -v:

    interrupt total rate
    irq16: ehci0 6679556627 168445    –----> + примерно 450 000 каждую секунду
    irq19: atapci0+ 57770 1
    irq23: ehci1 79325 2
    cpu0: timer 79305108 1999
    irq256: re0 98275744 2478
    irq257: re1 96862546 2442
    cpu1: timer 79304926 1999
    Total 7033442046 177370

    $ devinfo -v
    nexus0
    …....
    acpi0
    .......
    pcib0 pnpinfo HID=PNP0A08 UID=0 at handle=_SB.PCI0
    pci0
    .......
    ehci0 pnpinfo vendor=0x8086 device=0x1c2d subvendor=0x19da subdevice=0xa198 class=0x0c0320 at slot=26 function=0 handle=_SB
    .PCI0.USBE
    usbus0
    uhub0
    uhub2 pnpinfo vendor=0x8087 product=0x0024 devclass=0x09 devsubclass=0x00 sernum="" release=0x0000 intclass=0x09 intsubclass=0x00 at bus=1 hubaddr=1 port=0 devaddr=2 interface=0
    .......
    ehci1 pnpinfo vendor=0x8086 device=0x1c26 subvendor=0x19da subdevice=0xa198 class=0x0c0320 at slot=29 function=0 handle=_SB_.PCI0.EUSB
    usbus1
    uhub1
    uhub3 pnpinfo vendor=0x8087 product=0x0024 devclass=0x09 devsubclass=0x00 sernum="" release=0x0000 intclass=0x09 intsubclass=0x00 at bus=1 hubaddr=1 port=1 devaddr=2 interface=0
    .......

    Прошу подсказать, в какую сторону теперь копать? К сожалению я плохо знаком с FreeBSD и прочими механизмами работы данной системы, но уж очень не хотелось бы переходить на какой-нибудь IPcop или ещё чего-нибудь там. Уж очень нравится pfsense с его плюшками и вэбкой.

    ps: ставил m0n0wall, бетку, результат зеркальный.



  • Замена сетевуки на 3COM или INTEL решило аналогичную проблему для меня



  • К сожалению, для меня это не выход, т. к. остался только один свободный PCI Express x16, который в планах будет занят WiFi модулем (на замену действующему слабенькому Atheros 9285 mini-PCI Express). Да и потом, если присмотреть "активную" сетевуху и все таки воткнуть её в свободный PCI-E, то стоимость моего роутера с легкостью перевалит за 4 сотни долларов. А это уже, практически, цена производительного и многопортового Микротика (например - RB1100AHx2), с готовой Level6 на борту и возможностью переваривать 500k пакетов. То есть экономия получается неэкономной и смысл сборки/шаманства над действующей коробочкой теряется.



  • смысл сборки/шаманства над действующей коробочкой теряется.

    странный вы, однако, товарищ. Во-первых роутер боард уже давно действительно рулит в сегменте SOHO по соотношению цена/производительность, а во-вторых кто вам мешает установить тот же микрот for x86 на ваше железо? Лень/кривые руки/идеология?
    И касательно матери, опять-же - странный выбор. S3115GM2N(-B) было бы самое то.



  • странный вы, однако, товарищ. Во-первых роутер боард уже давно действительно рулит в сегменте SOHO по соотношению цена/производительность

    Было аналогичное мнение, но было раньше, пока был 100-мегабитный аплинк.
    С гигабитом от провайдера и "рулящим в сегменте SOHO" RB493G (как вы наверняка знаете - одна из топовых материнок микротика) меня ждало разочарование. Чудес не бывает, даже при разгоне AR7161 до 800Mhz, даже при минимизации правил и отключении WiFi - все равно торрент-клиент отказывался выдавать более 200-250 Mbps.
    Таким образом, минимальный роутербоард, который может более-менее справиться с подобной задачей - это RB1100AH, а лучше RB1100AHx2 с ценами 450-650 USD, что, примерно, на треть, а то и вдвое дороже моего решения. В общем-то, об этом я уже писал.

    а во-вторых кто вам мешает установить тот же микрот for x86 на ваше железо? Лень/кривые руки/идеология?

    Есть некоторые ограничения, как, например, поддерживаемое оборудование, стоимость современных версий оси, необходимость иметь winbox для более детального общения с железкой (не всегда захожу из-под Windows) и др.

    И касательно матери, опять-же - странный выбор. S3115GM2N(-B) было бы самое то.

    А кто сказал, что у меня был выбор?

    ps: буду весьма признателен, если кроме общих фраз, найдется хотя бы парочка по делу. В противном случае не вижу смысла засорять ветку, если есть желание обсуждать посторонние вопросы, пожалуйста, давайте переговорим в привате.



  • Попробуйте настройки на System: Advanced: Networking

    
    Device polling	 Включить device polling
    Device polling - это технология, позволяющая системе периодически опрашивать сетевые устройства для получения новых данных, вместо того чтобы полагаться на прерывания. Это предохраняет webConfigurator, SSH и т. д. от недоступности из-за флуда прерываний при экстремальных нагрузках. Обычно это не рекомендуется. Не все сетевые карты поддерживают polling, см. pfSense домашнюю страницу, чтобы получить список поддерживаемых карт.
    
    Hardware Checksum Offloading	 Отключить аппаратный подсчет контрольной суммы (функция TCP Checksum Offload)
    Выбор этой опции отключает аппаратный подсчет контрольной суммы (TCP Checksum Offload ). Данная функция некорректно работает на некотором оборудовании, в частности, в некоторых Realtek картах. Иногда эта функция может некорректно работать в драверах с некоторыми конкретными моделями сетевых карт. (* в этом случае подсчет будет производиться средствами CPU)
    
    Hardware TCP Segmentation Offloading	 Отключить аппаратную сегментацию TCP пакетов (функция TCP Segmentation Offload (TSO))
    Выбор этой опции отключает аппаратную сегментацию TCP пакетов (функция TCP Segmentation Offload (TSO, TSO4, TSO6)). Эта функция некорректно работает в некоторых драйверах оборудования, и может повлиять на производительность с некоторыми конкретными моделями сетевых карт. (* в этом случае функция TSO будет производиться CPU)
    
    Hardware Large Receive Offloading	 Отключить аппаратное получение больших данных (Large Receive Offload (LRO))
    Выбор этой опции отключает аппаратное получение больших данных (LRO). Эта функция некорректна в некоторых драйверах оборудования, и может повлиять на производительность с некоторыми конкретными моделями сетевых карт..
    
    ARP Handling	 Подавлять ARP сообщения
    Эта опция будет подавлять сообщения ARP журнала (log messages), когда несколько интерфейсов находятся в том же широковещательном домене
    
    


  • Благодарю за предложение, но результата, к сожалению, нет  :(
    А при включении чекбокса Device polling и вовсе CPU load от system зашкаливает до 45-50%.
    Склоняюсь к мысли забить на это дело, ведь остальных 80% процессора G530 с головой хватает для моих задач.



  • Попробуйте скорость на сетевухах поставить 100 FULL DUPLEX . Гигабитные Realtekи (на гигабите) греються как печки и могут давать такой эффект. Сейчас у меня работают гигабитные реалтеки и длинки с наклееными радиаторами–вроде все нормально.



  • Попробуйте скорость на сетевухах поставить 100 FULL DUPLEX

    Пробовал разные режимы, кроме 10-мегабитных, но результат не меняется.
    Про радиаторы я тоже читал, но материнка в ходе работы холодная, процессор 42-45 градусов, мосты тёплые.

    Самое забавное в этой ситуации, что проявляется это не сразу, а через некоторое время. То есть например, перегрузил я роутер в 18-00 вечера, пошел отсчет аптайма, все бегает, на машинах работают торренты, WiFi через точку доступа и т. д. Загрузка CPU в зависимости от скорости раздачи торрента, количества клиентов и так далее примерно 3-15%. Затем потихоньку народ начинает отключаться, отключается и PC с торрентом, то есть остаются только воздушные гаджеты (2-3 шт.) в режиме online. Загрузка процессора 0-3%. Проходит пол часа, может час и затем появляются эти злополучные прерывания на irq16: ehci0. Происходит это где-то в 23-30, 0-30, после 5-6 часов работы и затем уже никуда не пропадают. То есть машина нормально работает 5-6 часов, потом валят прерывания. Если перегрузить - процесс повторяется …  ???



  • А по pciconf -lv что говорит ? Т.е. что еще висит на одном прерывании с ehci ? Может плясать от этого и по-отключать еще и то , что висит с ним на одном irq?
    http://www.opennet.ru/openforum/vsluhforumID1/89433.html



  • Отпишусь, может моя информация чем то поможет конфигурация роутера примерно такая же только процессор G630T через разное время от 1 минуты до 2х часов начинал валиться interrupt storm и дикая загрузка процессора под 80% через некоторое время после этого начинал отваливаться интернет на компьютерах.
    Самое интересное заключалось в том что все это наблюдалось только при подключенном к роутеру hdmi, при подключении через display port такого не было.
    Сейчас монитор вообще не подключен и уже 2 месяца никаких проблем не вылазит.



  • werter, Bishounen, прежде всего большое спасибо вам за то, что потратили своё время и отписались! Как в воду глядели … так и есть, используемая материнка имеет только  2  х HDMI 1.4a и 1 х DisplayPort (mini-DP). При настройке системы я переместил роутер в большую комнату к LCD-телеку и подключил по HDMI, соответственно, не отключал по сей день. Таким образом, со включенным дисплеем имеем:

    $ vmstat -i
    interrupt total rate
    irq16: ehci0 2 0
    irq19: atapci0+ 2781 7
    irq23: ehci1 2 0
    cpu0: timer 771883 2004
    irq256: re0 9490 24
    irq257: re1 13635 35
    cpu1: timer 771680 2004
    Total 1569473 4076
    
    $ pciconf -lv
    hostb0@pci0:0:0:0:	class=0x060000 card=0xa19819da chip=0x01008086 rev=0x09 hdr=0x00
        class      = bridge
        subclass   = HOST-PCI
    vgapci0@pci0:0:2:0:	class=0x030000 card=0xa19819da chip=0x01028086 rev=0x09 hdr=0x00
        class      = display
        subclass   = VGA
    none0@pci0:0:22:0:	class=0x078000 card=0xa19819da chip=0x1c3a8086 rev=0x04 hdr=0x00
        class      = simple comms
    ehci0@pci0:0:26:0:	class=0x0c0320 card=0xa19819da chip=0x1c2d8086 rev=0x05 hdr=0x00
        class      = serial bus
        subclass   = USB
    pcib1@pci0:0:28:0:	class=0x060400 card=0xa19819da chip=0x1c108086 rev=0xb5 hdr=0x01
        class      = bridge
        subclass   = PCI-PCI
    pcib2@pci0:0:28:1:	class=0x060400 card=0xa19819da chip=0x1c128086 rev=0xb5 hdr=0x01
        class      = bridge
        subclass   = PCI-PCI
    pcib3@pci0:0:28:2:	class=0x060400 card=0xa19819da chip=0x1c148086 rev=0xb5 hdr=0x01
        class      = bridge
        subclass   = PCI-PCI
    pcib4@pci0:0:28:3:	class=0x060400 card=0xa19819da chip=0x1c168086 rev=0xb5 hdr=0x01
        class      = bridge
        subclass   = PCI-PCI
    ehci1@pci0:0:29:0:	class=0x0c0320 card=0xa19819da chip=0x1c268086 rev=0x05 hdr=0x00
        class      = serial bus
        subclass   = USB
    isab0@pci0:0:31:0:	class=0x060100 card=0xa19819da chip=0x1c448086 rev=0x05 hdr=0x00
        class      = bridge
        subclass   = PCI-ISA
    atapci0@pci0:0:31:2:	class=0x01018f card=0xa19819da chip=0x1c008086 rev=0x05 hdr=0x00
        class      = mass storage
        subclass   = ATA
    none1@pci0:0:31:3:	class=0x0c0500 card=0xa19819da chip=0x1c228086 rev=0x05 hdr=0x00
        class      = serial bus
        subclass   = SMBus
    atapci1@pci0:0:31:5:	class=0x010185 card=0xa19819da chip=0x1c088086 rev=0x05 hdr=0x00
        class      = mass storage
        subclass   = ATA
    re0@pci0:2:0:0:	class=0x020000 card=0x012319da chip=0x816810ec rev=0x06 hdr=0x00
        class      = network
        subclass   = ethernet
    re1@pci0:3:0:0:	class=0x020000 card=0x012319da chip=0x816810ec rev=0x06 hdr=0x00
        class      = network
        subclass   = ethernet
    none2@pci0:4:0:0:	class=0x0c0330 card=0xa19819da chip=0x34321106 rev=0x02 hdr=0x00
        class      = serial bus
        subclass   = USB
    

    Как видим, пока что Interrupts на 16-м нет, все в порядке. Выдернул HDMI и сразу загрузка CPU в 20% и шторм на irq16: ehci0. Сейчас перезагрузился с отключенным монитором, жду …



  • Update.
    Ещё раз спасибо werter и Bishounen. Со вчерашнего вечера на irq16 тихо, как в танке, загрузка CPU - 0-1%, отлегло.


Log in to reply