Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов

Агеев Михаил Сергеевич. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов : Дис. ... канд. физ.-мат. наук : 05.13.11 : Москва, 2004 136 c. РГБ ОД, 61:05-1/511
Автор
Агеев Михаил Сергеевич
Год
2004
  • 99 000 UZS

Оглавление диссертации
Введение
2 Обзор методов автоматической рубриісации текстов 10
2.1 Основные подходы к представлению текстов для компьютерной обработки 11
2.1.1 Использование морфологии 13
2.1.2 TF IDF. 14
2.1.3 Борьба с высокой размерностью: сокращение числа используемых атрибутов путем выделения наиболее значимых .15
2.1.4 Использование дополнительных атрибутов документа 17
2.2 Метрики качества рубрицирования 17
2.3 Метода машинного обучения на коллекции документов 20
2.4 Обзор публикаций, посвященных практическому сравнению методов машинного обучения Оценки 22
2.5 Обзор методов машинного обучения 24
2.5.1 Метод Байеса 25
2.5.2 Метод k-ближайших соседей 26
2.5.3 Rocchio classifier 27
2.5.4 Нейронные сети 28
2.5.5 Деревья решений 29
2.5.6 Построение булевых функций 31
2.5.7 Support Vector Machines 33
2.6 Обзор методов, основанных на знаниях 36
2.6.1 Технология классификации LexisNexis 37
2.6.2 Технология классификации Reuters 38
2.6.3 Технология классификации документов на основе тезауруса УИС РОССИЯ 39
2.7 Выводы 45
3 Моделировании логики рубрикатора 47
3.1 Описание алгоритма пфа (алгоритма построения формул) 49
3.1.1 Шаг 1: вычисление векторного представления 52
3.1.2 Шаг 2: построение конъюнктов 53
3.1.3 Шаг 3: построение дизъюнкции 56
3.1.4 Шаг 4: усечение формулы 59
3.1.5 Построение формулы с отрицаниями 60
3.2 Аналитическое исследование алгоритма 60
3.2.1 Описание алгоритма ПФБА 62
3.2.2 Свойства метрик полнота, точность, F-мера 63
3.2.3 Исследование сходимости алгоритма ПФБА для «идеальной» рубрики 68
3.3 Экспериментальное исследование алгоритма построения формул ПФА 78
3.3.1 Описание программной реализации алгоритма 79
3.3.2 Эксперименты на коллекции Reuters-21578 81
3.3.3 Эксперименты на коллекции РОМИП-2004 89
3.4 Выводы 100
4 Тематический анализ коллекции документов 102
4.1 Тематический анализ коллекции документов on-line 103
4.1.1 Анализ по тезаурусу 103
4.1.2 Анализ по метаданным 105
4.1.3 Анализ с использованием алгоритма построения формул 1 Об
4.1.4 Применение тематического анализа в ИС 106
4.2 Повышение эффективности рубрицирования, основанное на тематическом анализе 112
4.2.1 Общие проблемы ручной классификации для больших рубрикаторов. 113
4.2.2 Использование информеров при решении задач классификации.. 115
4.3 Выводы 124
5 Заключение 126
6 Список Литературы

Рекомендуем вам товары

99 000 UZS
Автор
Вежневец Владимир Петрович
Количество страниц
Год
2004
99 000 UZS
Автор
Веселов Николай Александрович
Количество страниц
Год
2004
99 000 UZS
Автор
Владимирова Юлия Сергеевна
Количество страниц
Год
2004
Модули для Opencart 2, Опенкарт 3