[Uneex] Сортировка спама

Fr. Br. George george на po.cs.msu.su
Ср Апр 5 17:23:41 MSD 2006


On Wed, Apr 05, 2006 at 04:22:13PM +0400, Alexander Gerasiov wrote:

> # Обязательные правила.
> # Иначе письма на русском языке будут иметь слишком высокую оценку.
> score SUBJ_FULL_OF_8BITS        0.2
> score HEADER_8BITS              0.3
> 
> # В последней версии появились дополнительные проверки и некоторые из
> них слишком
> # нервничают на на кривых русских письмах, поэтому уменьшим значение
> этих правил:
> score SUBJ_ILLEGAL_CHARS        1.0
> score FROM_ILLEGAL_CHARS        1.5
> score HEAD_ILLEGAL_CHARS        1.5
В документации по SA указаны эти и ещё несколько других настроек,
которые при установке нужно выключать, если вы используете не английский
язык. Стоит ли считать эти рекомендации установками по умолчанию?

В целом. Вероятностная контент-фильтрация _всегда_ будет иметь false
positives.

Есть (на мой взгляд) очень интересная и (кажется) нерешённая работа про
прикручиванию байесовского анализатора к AssAssIn-овским фильтрам.
Чтобы обучение отражалось на весах правил.

Или это мне одному интересно?

-- 
			George V Kouryachy (aka Fr. Br. George)
			mailto:george at po_cs_msu_su


Подробная информация о списке рассылки Uneex