Статистика без мусора. Как?



  • Здравствуйте! Пользуюсь связкой из 3-х PFSense через VPN, отлично работает, на двух из них установлен Squid в прозрачном режиме. Учёт web-трафика ведётся через LightSquid, настроены RealNames. Ранее, довольно давно, в центральном офисе был Kerio Control, у него был Kerio Star. В нём была особенность: он отображал статистику и активность по пользователям, причём в активности были не адреса сайтов, а адреса страниц, посещенных пользователем, с их заголовками, и его поисковые запросы, т.е история серфинга, без выделения сайтов с баннерами, картинками и т.д. Трафик по встроенному в страницу контенту агрегировался в трафик страницы.
    Пересмотрел много логаналайзеров для SQUID, максимум, что мне смогли предложить - это полные ссылки. Включая баннеры. Где-то в недрах вроде бы Free-SA нашёл убирание баннеров по составленным вручную спискам.
    Поискал проекты, работающие по ICAP - не нашёл ничего, что можно было бы хотя бы посмотреть из потенциально имеющего похожую функциональность. Да и, как я понял, из лога Squid такой информации не извлечь, потому что её там попросту нет.
    По другим proxy-серверам (смотрел 3proxy) чего-то особенного не нашёл.
    Посмотрел на NetAMS - опять - в разделе "Определение посещённых URL" в документации:

    обычно каждая открытая страница содержит в себе много внутренних ссылок (картинки, баннеры), ведущие на другие сайты. таким образом однозначно сопоставить "ссылку на сайт" с реально открытыми ссылками технически невозможно

    Действительно невозможно? Как же этого добились товарищи из Kerio? Неужели нет ни одного похожего проекта?
    Upd: Картинка для иллюстрации:



  • Skip url ?



  • +1