[Uneex] Сортировка спама
Alexander Gerasiov
gq на cs.msu.su
Ср Апр 5 18:16:28 MSD 2006
Fr. Br. George wrote:
> On Wed, Apr 05, 2006 at 04:22:13PM +0400, Alexander Gerasiov wrote:
>
>
>># Обязательные правила.
>># Иначе письма на русском языке будут иметь слишком высокую оценку.
>>score SUBJ_FULL_OF_8BITS 0.2
>>score HEADER_8BITS 0.3
>>
>># В последней версии появились дополнительные проверки и некоторые из
>>них слишком
>># нервничают на на кривых русских письмах, поэтому уменьшим значение
>>этих правил:
>>score SUBJ_ILLEGAL_CHARS 1.0
>>score FROM_ILLEGAL_CHARS 1.5
>>score HEAD_ILLEGAL_CHARS 1.5
>
> В документации по SA указаны эти и ещё несколько других настроек,
> которые при установке нужно выключать, если вы используете не английский
> язык.
Ой, а линк можно? Раньше такого не было.
> Стоит ли считать эти рекомендации установками по умолчанию?
Это уже не настройки по-умолчанию ИМХО, т.к. практика показывает, что
встречаются люди, которые этим рекомендациям не следуют.
> В целом. Вероятностная контент-фильтрация _всегда_ будет иметь false
> positives.
Конечно, но ИМХО, оснавная задача это минимизировать эти false positive,
сохранив приемлимый false negative (один два порядка между отброшенным
спамом и пропущенным), а речь зашла как раз о том, что в СА
ненастроенном есть куда двигаться. Кстати required_score n.nn (default:
5) меня тоже весьма возбуждает (у меня 7 стоит).
> Есть (на мой взгляд) очень интересная и (кажется) нерешённая работа про
> прикручиванию байесовского анализатора к AssAssIn-овским фильтрам.
> Чтобы обучение отражалось на весах правил.
Примерно это делается в одном из подпроектов SARE разве не так? Правда
ты, вероятно, имеешь в виду обучение на локальном трафике данного
сервера, а не где-то там кем-то там.
>
> Или это мне одному интересно?
Мысль интересная. Может предложить разработчикам хотя бы не обучение
(для начала), а возможность подключения сбора статистики сделать...
Подробная информация о списке рассылки Uneex