[Uneex] Сортировка спама
Fr. Br. George
george на po.cs.msu.su
Ср Апр 5 17:23:41 MSD 2006
On Wed, Apr 05, 2006 at 04:22:13PM +0400, Alexander Gerasiov wrote:
> # Обязательные правила.
> # Иначе письма на русском языке будут иметь слишком высокую оценку.
> score SUBJ_FULL_OF_8BITS 0.2
> score HEADER_8BITS 0.3
>
> # В последней версии появились дополнительные проверки и некоторые из
> них слишком
> # нервничают на на кривых русских письмах, поэтому уменьшим значение
> этих правил:
> score SUBJ_ILLEGAL_CHARS 1.0
> score FROM_ILLEGAL_CHARS 1.5
> score HEAD_ILLEGAL_CHARS 1.5
В документации по SA указаны эти и ещё несколько других настроек,
которые при установке нужно выключать, если вы используете не английский
язык. Стоит ли считать эти рекомендации установками по умолчанию?
В целом. Вероятностная контент-фильтрация _всегда_ будет иметь false
positives.
Есть (на мой взгляд) очень интересная и (кажется) нерешённая работа про
прикручиванию байесовского анализатора к AssAssIn-овским фильтрам.
Чтобы обучение отражалось на весах правил.
Или это мне одному интересно?
--
George V Kouryachy (aka Fr. Br. George)
mailto:george at po_cs_msu_su
Подробная информация о списке рассылки Uneex