Введение
1. Задача классификации текстовых документов 18
1.1. Неформальная постановка задачи классификации текстовых документов 18
1.2. Задачи автоматической обработки текстов 19
1.2.1. Вопросы предварительной обработки текстов 20
1.2.1. Стеммипг и лемматизация 25
1.2.3. Алгоритм лемматизации 28
1.2.4. Способы представления текстовой информации 32
1.3. Формализация задачи классификации текстов в терминах задачи машинного обучения с учителем 35
2. Классификация текстовых документов методами машинного обучения 42
2.1. Классификация текстовых документов известными методами 42
2.1.1. Применение байесовских методов классификации 42
2.1.2. Применение метрических методов классификации 45
2.1.3. Применение линейных методов классификации 47
2.1.4. Применение логических методов классификации 53
2.1.5. Применение алгоритмических композиций 61
2.2. Метод градиентного бустинга па «невнимательных»деревьях решений 70
2.3. Сравнительный анализ качества классификации алгоритмов 80
2.4. Анализ алгоритмической сложности и затрат памяти алгоритмов классификации 82
3. Классификация текстовых документов с учетом некоторых структурных особенностей 86
3.1. О конструировании признаков текста 86
3.2. Применение принципа конечной топологии распознавания топологических форм в задаче классификации текстов 88
3.3. Результаты численных экспериментов 91
4. Методы снижения размерности признакового описания 99
4.1. Мотивация для снижения размерности СОДЕРЖАНИЕ 99
4.2. Лингвистический подход к снижению размерности признакового описания 100
4.3. Методы машинного обучения снижения размерности признакового описания 105
4.3.1. Метод главных компонент 105
4.3.2. Критерий отбора признаков по принципу минимальной избыточности и максимальной релевантности 109
4.3.3. Метод главных признаков 112
4.4. Сравнительный анализ качества классификации для методов снижения размерности 117
4.5. Анализ алгоритмической сложности и затрат памяти алгоритмов снижения размерности 118
5. Создание и исследование программного обеспечения задач классификации текстовых документов 122
5.1. Описание архитектуры системы классификации текстовых документов 122
5.2. Реализация лемматизатора 125
5.2.1. Представления словаря в виде сжатого префиксного дерева 126
5.3. Реализация алгоритма GBOT 127
5.3.1. Мета-алгоритм градиентного бустипга 127
5.3.2. Представление «певпимательных»деревьев решений в виде решающих таблиц 128
5.3.3. Алгоритм конструирования «невнимательного»дерева решений 130
5.3.4. Эффективное вычисление ансамбля «невнимательных»решающих деревьев 131
5.4. Реализация модифицированного метода главных признаков 133
5.4.1. Вычисление корреляционной матрицы 133
5.4.2. Вычисление собственных значений и собственных векторов 134
5.4.3. Параллельная реализация самоорганизующейся карты 135
5.5. Новая технология программирования задач машинного обучения 137
Заключение 139
Список литературы 141
Приложение 151


