[Uneex] Сортировка спама

Alexander Gerasiov gq на cs.msu.su
Ср Апр 5 18:16:28 MSD 2006


Fr. Br. George wrote:
> On Wed, Apr 05, 2006 at 04:22:13PM +0400, Alexander Gerasiov wrote:
> 
> 
>># Обязательные правила.
>># Иначе письма на русском языке будут иметь слишком высокую оценку.
>>score SUBJ_FULL_OF_8BITS        0.2
>>score HEADER_8BITS              0.3
>>
>># В последней версии появились дополнительные проверки и некоторые из
>>них слишком
>># нервничают на на кривых русских письмах, поэтому уменьшим значение
>>этих правил:
>>score SUBJ_ILLEGAL_CHARS        1.0
>>score FROM_ILLEGAL_CHARS        1.5
>>score HEAD_ILLEGAL_CHARS        1.5
> 
> В документации по SA указаны эти и ещё несколько других настроек,
> которые при установке нужно выключать, если вы используете не английский
> язык. 
Ой, а линк можно? Раньше такого не было.

> Стоит ли считать эти рекомендации установками по умолчанию?
Это уже не настройки по-умолчанию ИМХО, т.к. практика показывает, что
встречаются люди, которые этим рекомендациям не следуют.

> В целом. Вероятностная контент-фильтрация _всегда_ будет иметь false
> positives.
Конечно, но ИМХО, оснавная задача это минимизировать эти false positive,
сохранив приемлимый false negative (один два порядка между отброшенным
спамом и пропущенным), а речь зашла как раз о том, что в СА
ненастроенном есть куда двигаться. Кстати required_score n.nn (default:
5) меня тоже весьма возбуждает (у меня 7 стоит).


> Есть (на мой взгляд) очень интересная и (кажется) нерешённая работа про
> прикручиванию байесовского анализатора к AssAssIn-овским фильтрам.
> Чтобы обучение отражалось на весах правил.
Примерно это делается в одном из подпроектов SARE разве не так? Правда
ты, вероятно, имеешь в виду обучение на локальном трафике данного
сервера, а не где-то там кем-то там.
> 
> Или это мне одному интересно?
Мысль интересная. Может предложить разработчикам хотя бы не обучение
(для начала), а возможность подключения сбора статистики сделать...


Подробная информация о списке рассылки Uneex