Введение
ГЛАВА 1. Концепции построения обучаемой серверной системы фильтрации почты 20
1.1 выбор базового метода классификации 20
1.1.1 Фильтрация почты, как задача классификации 20
1.1.2 Модели представления объектов для задачи классификации 21
1.1.2.1 Выделение признаков объектов 22
1.1.2.2 Определение весовых коэффициентов признаков 23
1.1.3 Методы классификации 24
1.1.3.1 Naive Bayes 25
1.1.3.2 Memory-Based (к ближайших соседей) 26
1.1.3.3 Линейный дискриминант Фишера 26
1.1.3.4 Нейронные сети 29
1.1.3.5 Метод опорных векторов 30
1.1.4 Оценка методов классификации 34
1.1.5 Выбор базового метода классификации 35
1.2 Выбор архитектуры системного решения 36
1.2.1 Архитектура серверных систем фильтрации спама 36
1.2.2 Архитектура персонатзированной обучаемой системы фильтрации почты серверного уровня 38
1.2.2.1 Функциональные стадии обучаемой системы классификации 38
1.2.2.2 Особенности архитектуры 39
1.3 Выводы и результаты 42
ГЛАВА 2. Модификация и организация использования метода опорных векторов 43
2.1 Модель представления данных 43
2.1.1 Выбор модели представления данных 43
2.1.2 Сокращение размерности пространства признаков 44
2.1.3 Экспериментальное обоснование метода сокращения пространства признаков 50
2.1.4 Выбор меры сходства (потенциальной функции) 52
2.2 Сокращение примеров тренировочного набора 53
2.2.1 Предлагаемое решение 54
2.2.2 Кластеризация тренировочного набора 55
2.2.3 Экспериментальная проверка 56
2.3 Борьба с шумом в тренировочном наборе 58
2.3.1 Постановка проблемы 58
2.3.2 Решение 59
2.3.3 Определение функции принадлежности 60
2.3.4 Эксперимент 61
2.4 Выводы и результаты 62
ГЛАВА 3. Программная реализация 64
3.1 Архитектура системы 64
3.2 Пользовательский интерфейс 72
3.2.1 Функциональные особенности 73
3.2.1.1 І Іастройки обучения 73
3.2.1.2 Настройки классификации 74
3.2.1.3 Обучение и дообучение 74
3.2.1.4 «Черные»/«белые» списки адресов отправителей 75
3.2.1.5 Статистика обучения 76
3.3 Программная реализация 76
3.3.1 Концепция интеграции системы фшьтрации с почтовыми системами 77
3.3.2 Примеры интеграции с почтовыми системами 78
3.3.2.1 Интеграция с Sendmail и Exim 78
3.3.2.2 Интеграция с CommuniGate Pro 79
3.3.2.3 Интеграция с Microsoft Exchange 200012003 79
3.3.3 Программные модули, статистика 81
3.3.4 Апробация экспериментальной системы 81
3.4 Выводы и результаты 82
ГЛАВА 4. Сравнительные эксперименты 83
4.1 Метрики оценки качества фильтрации 83
4.2 Наборы данных 85
4.2.1 LingSpam Corpus 85
4.2.2 Spamassassin Corpus 85
4.3 Сравнительные тесты 85
4.3.1 Сравнение Naive Bayes (SpamAssassin) 85
4.3.1.1 Тестовые наборы 86
4.3.1.2 Результаты тестирования 86
4.3.1.3 Выводы 90
4.3.2 Сравнение Naive Bayes (Лаборатория Касперского) 91
4.3.2.1 Тестовые наборы данных 91
4.3.2.2 Сценарий эксперимента 92
4.3.2.3 Результаты сравнения 92
4.3.2.4 Выводы 95
4.3.3 Сравнение с Kaspersky Anti-Spam 96
4.3.3.1 Организация входящего потока писем 96
4.3.3.2 Характеристики и настройки фильтров 97
4.3.3.3 Характеристики наборов для первоначального обучения 98
4.3.3.4 Характеристики настройки фильтров 98
4.3.3.5 Контролируемые параметры 99
4.3.3.6 Контроль и сбор результатов, дообучение 99
4.3.3.7 Результаты эксперимента 100
4.4 Оценка производительности 101
4.4.1 Оценка производительности ачгоритма классификации 101
4.4.2 Оценка производительности жсперимеитаїьной системы фильтрации почты 102
Заключение 103
Литература


