Введение
1. Задача текстовой классификации как задача обучения по прецедентам 12
1.1 Оценка качества методов классификации 15
1.1.1 Метрики точности и полноты 16
1.1.2 Метрика Accuracy 17
1.1.3 Метрика AUC 19
1.1.4 Комбинированные метрики 20
1.2 Методы решения задачи текстовой классификации 23
1.2.1 Наивный байесовский метод 23
1.2.2 Метод ближайших соседей 24
1.2.3 Оценка качества 25
2. Задача классификации текстов 27
2.1 Линейные методы классификации 27
2.1.1 Наивный байесовский метод и его модификации 27
2.1.2 Логистическая регрессия 32
2.2 Модельные деревья решений 35
2.2.1 Одномерная линейная регрессия 41
2.2.2 Инкрементальное обновление 47
2.2.3 Многомерная линейная регрессия 48
2.3 Алгоритмические композиции 54
2.3.1 Алгоритмические композиции в задаче регрессии 57
2.3.2 Алгоритмические композиции в задаче бинарной классификации 58
2.4 Матричное разложение как метод выделения признаков 59
2.5 Выводы 62
3. Экспериментальное исследование рассмотренных методов 65
3.1 Методика экспериментального исследования 65
3.1.1 Метод скользящего контроля 66
3.1.2 Стратификация 68
3.2 Исследуемые наборы данных 69
3.2.1 Коллекция Reuters-21578 69
3.2.2 Коллекция UCI 70
3.3 Результаты численных экспериментов 72
3.3.1 Линейные методы классификации 72
3.3.2 Линейные методы восстановления регрессии 75
3.3.3 Модельные деревья решений в задаче восстановления регрессии 77
3.3.4 Алгоритмические композиции на основе модельных деревьев в задачах классификации 84
3.4 Выводы 92
Заключение 93
4. Список сокращений и условных обозначений 94
Литература 96


