PfSense 150 vlan и Crash report с Panic String: double fault



  • Приветствую уважаемые!
    Развернул PfSense для доступа интернет (см. схему в атачменте). На один порт этажного коммутатора, один vlan, одна приватная сетка, dhcp. В общем все работает уже месяц, народ доволен, всех вроде все устраивает окромя меня. За время работы обнаружилось несколько проблем, далее в порядке значимости:
    1. PfSense время от времени падает в корку, в textdump.tar оставляет (см. атачмент). Сервер может работать стабильно неделю или дня 3, а потом подает в корку и переобувается. "Однояйцевый близнец" сервера (в аппаратном смысле конечно, задачи у него другие) стоит у меня в лаборатории с аптаймом:

     9:27PM  up 112 days, 10:48, 2 users, load averages: 0.00, 0.00, 0.00 
    

    так что это похоже не аппаратная проблема.
    Есть еще 2 проблемы, не такие критичные, но все же тоже хотелось бы их побороть:
    2. Система стоит на программном зеркале, настроил отправку сообщений мылом о состоянии рейда, так при синхронизации массива после корки на мыло прилетает около 100 писем, хотелось бы немного уменьшить говорливость сервера при синхронизации, потому как приятно узнать что:

    Mirror pfSenseMirror drive status changed. Old: (ada0 (SYNCHRONIZING, 98%), ada1 (ACTIVE)) New: (ada0 (SYNCHRONIZING, 98%), ada1 (ACTIVE))

    Mirror pfSenseMirror drive status changed. Old: (ada0 (SYNCHRONIZING, 98%), ada1 (ACTIVE)) New: (ada0 (SYNCHRONIZING, 99%), ada1 (ACTIVE))

    но 100 писем это реально многовато.
    3. Ну и что то бы такого сделать с дашбоард? Т.к. при 150 vlan, наличие в нем виджетов "System information" или "Interfaces" дает нагрузку на все 4 ядра по 100% при активированном виджете "Interfaces" и около 50% при активированном виджете "System information"(см.атачмент).




    17.07.2016_noname.txt



  • Доброе.
    Указывайте версию pf.



  • Version String: FreeBSD 10.3-RELEASE-p3 #1 3ef16fb(RELENG_2_3_1)



  • Доброе утро уважаемые.
    Сегодня ночью система еще раз упала. Частота "panic: double fault" увеличилась, последние 3-е суток, падение каждые сутки, один раз наблюдал как, система упала прямо во время ребилда зеркала. Картина сбоя та же, буква в букву. Ни у кого нет никаких идей?



  • @Костя:

    Доброе утро уважаемые.
    Сегодня ночью система еще раз упала. Частота "panic: double fault" увеличилась, последние 3-е суток, падение каждые сутки, один раз наблюдал как, система упала прямо во время ребилда зеркала. Картина сбоя та же, буква в букву. Ни у кого нет никаких идей?

    Доброе.
    В биос всё лишнее откл - com, lpt, audio etc ?
    Проверяйте\меняйте винты, сетевые , ОЗУ.

    P.s. Шальная мысль. Если железо позволяет (характеристики ?) - поднимите Proxmox на нем. Pf будет жить в кач-ве вирт. машины.
    И обновите биос до посл. возможного.

    P.p.s. https://forum.pfsense.org/index.php?topic=97028.0

    It Fixed !!! I reinstall in 64 bits and it work ! Thank you all

    https://forum.pfsense.org/index.php?topic=86794.0
    IPSEC у вас там не поднят ли ?

    http://forum.lissyara.su/viewtopic.php?t=38969

    Отпишусь, в чем была проблема и как решилась. Возможно, кто тоже наступит на те-же грабли.
    Виной всему оказались две сетевухи <marvell yukon="" 88e8056="" gigabit="" ethernet="">. Проблема известна, раньше использование таких сетевух без дополнительного шаманства приводило к их засыпанию, а в 9.1 amd64 - "имеем то, что имеем".
    Причем, обновление драйверов msk до совсем недавно пропатченых из ветки stable, к сожалению, тоже не решает проблему.
    Решение оказалось простое и тоже, давно известное: ifconfig_mskX="inet XX.XX.XX.XX/30 -tso -txcsum -rxcsum -vlanhwtag".</marvell>

    Т.е. на Hardware Checksum Offloading, Hardware TCP Segmentation Offloading, Hardware Large Receive Offloading ставим галки на Disable и проверяем.



  • Доброе.
    В биос всё лишнее откл - com, lpt, audio etc ?
    Проверяйте\меняйте винты, сетевые , ОЗУ.

    в биос ничего лишнего нет, это серверная плата. Но я обязательно все еще раз проверю.

    P.s. Шальная мысль. Если железо позволяет (характеристики ?) - поднимите Proxmox на нем. Pf будет жить в кач-ве вирт. машины.
    И обновите биос до посл. возможного.

    ну это уже совсем край… я потому и люблю иметь дело с freebsd, Потому что сделал и забыл. Были удачные решения когда аптайм измерялся годами, хотя в текущих реалиях это конечно вариант.

    It Fixed !!! I reinstall in 64 bits and it work ! Thank you all

    Попробую поднять систему на 64 битах, только боюсь памяти у сервера для тогда окажется маловато, у меня же народу за фиревалл много очень, таблицы состояний раздуты сильно, а тут в 2 раза больше станут, но буду пробовать. 64 битный вариант я наверное на HP ProLiant DL360 поставлю, там и памяти хватит и железо посерьезнее, но это уже если танцы с "атомом" не дадут результата.

    IPSEC у вас там не поднят ли ?

    Vpn нет, хотя раньше именно на этих серверах, я как раз vpn сервера и поднимал. Гоняли по vpn, voip трафик через паблик, между площадками. Аптайм у серверов был около пары лет. Правда, я туда "голую" freebsd с оптимизированным ядром ставил + openvpn собранный ручками.
    Может и тут ядро перекомпилить под "атомы" попробовать?

    Т.е. на Hardware Checksum Offloading, Hardware TCP Segmentation Offloading, Hardware Large Receive Offloading ставим галки на Disable и проверяем.

    попробую, но у меня вряд ли карточки "засыпают", через фиревалл непрерывно трафик льется. Я смотрю и загрузка канала постоянно 75-80 mB/sec, это я шейпером 100 мегабитный канал придавил.
    Вообщем, сейчас уже собираю в лаборатории стенд, практически копию того, что стоит на объекте и буду экспериментировать. Оптические линки между коммутаторами только будут заменены на медные, ну и центральный коммутатор другой, но я думаю это не существенно, т.к. проблема явно на стороне сервера.
    Благодарю за помощь, по результатам буду отписывать сюда.



  • ну это уже совсем край… я потому и люблю иметь дело с freebsd, Потому что сделал и забыл. Были удачные решения когда аптайм измерялся годами, хотя в текущих реалиях это конечно вариант.

    На дворе 2016 год. Виртуализация, контейнеризация etc давно шагают по планете. Просыпайтесь.

    P.s. Основная прибыль за 2015 год у той же MS - это прибыль от Azure, если что.
    P.p.s. У себя на работе на собеседовании, если претендент не работал с виртуализацией - сразу нет .



  • На дворе 2016 год. Виртуализация, контейнеризация etc давно шагают по планете. Просыпайтесь.

    Ну я наверное не совсем ясно выразился, "приватные облака" я сам уже давно использую в "продакшене".
    Я имел в виду что запихнуть в виртуалку машину из за того что она падает в корку, а не для того что бы оптимизировать инфраструктуру, я считаю неправильный подход, но это способ как то решить проблему согласен.
    Но в моем случае это ничего не даст, так как система стоит на зеркале, она и так поднимается автоматом с резервного диска в первоначальном виде. Задача не запустить упавшую машину, а в том что бы она не падала.


Log in to reply