Введение
ГЛАВА 1. Задача классификации многотемных документов 13
1.1 Постановка задачи и требования к решению 13
1.2 Обзор методов классификации многотемных документов 14
1.2.1 Критерии сравнения методов 14
1.2.2 Методы, основанные на оптимизационном подходе 16
1.2.2.1 Метод AdaBoost.MH 17
1.2.2.2 Метод ADTBoost.MII 18
1.2.2.3 Метод ML-kNN на основе алгоритма к-ближайших соседей и принципа максимизации апостериорных вероятностей 19
1.2.2.4 Метод на основе модели смешивания, обученной с помощью метода максимизации математического ожидания 21
1.2.3 Методы, основанные на декомпозиции в набор независимых бинарных проблем 22
1.2.4 Методы, основанные на подходе ранжирования с последующим отсечением нерелевантных классов 23
1.2.4.1 Метод Multiclass-Multilabel Perceptron 24
1.2.4.2 Метод k-ближайших соседей 26
1.2.4.3 Метод RankSVM 27
1.2.4.4 Методы отсечения нерелевантных классов 28
1.3 Выводы 29
ГЛАВА 2. Решение задачи классификации многотемных документов на основе подхода попарных сравнений 30
2.1 Структура предложенного решения 30
2.2 Традиционный подход на основе попарных сравнений для взаимно исключающих классов 33
2.3 Предложенный метод ранжирования на основе попарных сравнений для существенно пересекающихся классов 36
2.4 Предложенные методы отсечения нерелевантных классов 39
2.4.1 Метод, основанный на пороговой функции в пространстве релевантностей классов 40
2.4.2 Метод, основанный на предположении о существовании линейной зависимости функции классификации от функции ранжирования 41
2.5 Дообучение метода классификации 45
2.6 Экспериментальная оценка предложенного решения на эталонных наборах данных 48
2.6.1 Описание тестовых данных 48
2.6.2 Сравнение эффективности методов отсечения нерелевантных классов 49
2.6.3 Сравнение эффективности методов классификации многотемных документов 51
2.7 Выводы 53
ГЛАВА 3. Модель представления гипертекстовых документов 54
3.1 Постановка задачи и требования к решению 54
3.2 Обзор методов построения модели представления гипертекстовых документов 55
3.2.1 Критерии сравнения моделей представления 55
3.2.2 Выделение признаков в гипертекстовых документах 56
3.2.2.1 Метод ключевых слов 56
3.2.2.2 Метод N-грамм 58
3.2.2.3 Учёт окружения гипертекстовых документов 59
3.2.3 Меры сходства для документов 59
3.2.3.1 Частотная мера сходства 59
3.2.3.2 Мера сходства k-spectrum 61
3.2.4 Выводы 62
3.3 Модель представления гипертекстовых документов на основе частых комбинаций признаков с учетом гиперссылок 62
3.3.1 Предложенный метод учёта гиперссылок при представлении гипертекстовых документов 63
3.3.2 Предложенный метод построения модели представления на основе выделения частых эпизодов признаков 64
3.3.3 Дообучение метода построения модели представления документов 65
3.3.4 Экспериментальная оценка предложенного решения на эталонных наборах данных 66
3.3.4.1 Описание тестовых данных 67
3.3.4.2 Оценка эффективности предложенной модели представления 67
3.3.4.3 Сравнение эффективности методов выделения признаков 69
3.3.4.4 Оценка эффективности разработанного метода классификации с разработанной моделью представления документов 72
3.4 Выводы 74
ГЛАВА 4. Экспериментальный модуль классификации многотемных гипертекстовых документов 76
4.1 Требования к программным средствам классификации многотемных гипертекстовых документов 76
4.2 Архитектура экспериментального модуля 78
4.2.1 Компонент лексического анализа 79
4.2.2 Компонент вычисления меры сходства 82
4.2.3 Классификатор 83
4.2.4 Свойства разработанной архитектуры 85
4.3 Сценарии функционирования модуля 89
4.3.1 Обучение 90
4.3.2 Классификация 90
4.3.3 Дообучение и добавление темы 90
4.3.4 Удаление темы 91
4.4 Особенности программной реализации модуля классификации 91
4.5 Исследование производительности модуля и результаты экспериментов 94
4.6 Выводы 95
Заключение 96
Литература


