Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов

Глазкова Валентина Владимировна. Исследование и разработка методов построения программных средств классификации многотемных гипертекстовых документов : диссертация ... кандидата физико-математических наук : 05.13.11 / Глазкова Валентина Владимировна; [Место защиты: Моск. гос. ун-т им. М.В. Ломоносова].- Москва, 2008.- 103 с.: ил. РГБ ОД, 61 08-1/668
Автор
Глазкова Валентина Владимировна
Год
2008
  • 99 000 UZS

Оглавление диссертации
Введение
ГЛАВА 1. Задача классификации многотемных документов 13
1.1 Постановка задачи и требования к решению 13
1.2 Обзор методов классификации многотемных документов 14
1.2.1 Критерии сравнения методов 14
1.2.2 Методы, основанные на оптимизационном подходе 16
1.2.2.1 Метод AdaBoost.MH 17
1.2.2.2 Метод ADTBoost.MII 18
1.2.2.3 Метод ML-kNN на основе алгоритма к-ближайших соседей и принципа максимизации апостериорных вероятностей 19
1.2.2.4 Метод на основе модели смешивания, обученной с помощью метода максимизации математического ожидания 21
1.2.3 Методы, основанные на декомпозиции в набор независимых бинарных проблем 22
1.2.4 Методы, основанные на подходе ранжирования с последующим отсечением нерелевантных классов 23
1.2.4.1 Метод Multiclass-Multilabel Perceptron 24
1.2.4.2 Метод k-ближайших соседей 26
1.2.4.3 Метод RankSVM 27
1.2.4.4 Методы отсечения нерелевантных классов 28
1.3 Выводы 29
ГЛАВА 2. Решение задачи классификации многотемных документов на основе подхода попарных сравнений 30
2.1 Структура предложенного решения 30
2.2 Традиционный подход на основе попарных сравнений для взаимно исключающих классов 33
2.3 Предложенный метод ранжирования на основе попарных сравнений для существенно пересекающихся классов 36
2.4 Предложенные методы отсечения нерелевантных классов 39
2.4.1 Метод, основанный на пороговой функции в пространстве релевантностей классов 40
2.4.2 Метод, основанный на предположении о существовании линейной зависимости функции классификации от функции ранжирования 41
2.5 Дообучение метода классификации 45
2.6 Экспериментальная оценка предложенного решения на эталонных наборах данных 48
2.6.1 Описание тестовых данных 48
2.6.2 Сравнение эффективности методов отсечения нерелевантных классов 49
2.6.3 Сравнение эффективности методов классификации многотемных документов 51
2.7 Выводы 53
ГЛАВА 3. Модель представления гипертекстовых документов 54
3.1 Постановка задачи и требования к решению 54
3.2 Обзор методов построения модели представления гипертекстовых документов 55
3.2.1 Критерии сравнения моделей представления 55
3.2.2 Выделение признаков в гипертекстовых документах 56
3.2.2.1 Метод ключевых слов 56
3.2.2.2 Метод N-грамм 58
3.2.2.3 Учёт окружения гипертекстовых документов 59
3.2.3 Меры сходства для документов 59
3.2.3.1 Частотная мера сходства 59
3.2.3.2 Мера сходства k-spectrum 61
3.2.4 Выводы 62
3.3 Модель представления гипертекстовых документов на основе частых комбинаций признаков с учетом гиперссылок 62
3.3.1 Предложенный метод учёта гиперссылок при представлении гипертекстовых документов 63
3.3.2 Предложенный метод построения модели представления на основе выделения частых эпизодов признаков 64
3.3.3 Дообучение метода построения модели представления документов 65
3.3.4 Экспериментальная оценка предложенного решения на эталонных наборах данных 66
3.3.4.1 Описание тестовых данных 67
3.3.4.2 Оценка эффективности предложенной модели представления 67
3.3.4.3 Сравнение эффективности методов выделения признаков 69
3.3.4.4 Оценка эффективности разработанного метода классификации с разработанной моделью представления документов 72
3.4 Выводы 74
ГЛАВА 4. Экспериментальный модуль классификации многотемных гипертекстовых документов 76
4.1 Требования к программным средствам классификации многотемных гипертекстовых документов 76
4.2 Архитектура экспериментального модуля 78
4.2.1 Компонент лексического анализа 79
4.2.2 Компонент вычисления меры сходства 82
4.2.3 Классификатор 83
4.2.4 Свойства разработанной архитектуры 85
4.3 Сценарии функционирования модуля 89
4.3.1 Обучение 90
4.3.2 Классификация 90
4.3.3 Дообучение и добавление темы 90
4.3.4 Удаление темы 91
4.4 Особенности программной реализации модуля классификации 91
4.5 Исследование производительности модуля и результаты экспериментов 94
4.6 Выводы 95
Заключение 96
Литература

Рекомендуем вам товары

99 000 UZS
Автор
Гончар Дмитрий Русланович
Количество страниц
Год
2008
99 000 UZS
Автор
Бахтин Владимир Александрович
Количество страниц
Год
2008
99 000 UZS
Автор
Белеванцев Андрей Андреевич
Количество страниц
Год
2008
99 000 UZS
Автор
Болонкин Андрей Владимирович
Количество страниц
Год
2008
Модули для Opencart 2, Опенкарт 3