Купить диссертацию Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексико-терминологической информации

Оглавление диссертации

Введение
1 Анализ предметной области 13
1.1 Тематический анализ текстовых коллекций 13
1.1.1 Алгоритм K-Средних и его модификации 14
1.1.2 Иерархические алгоритмы кластеризации 16
1.1.3 Неотрицательная матричная факторизация 18
1.1.4 Метод Вероятностного Латентного Семантического Анализа 20
1.1.5 Метод Латентного Размещения Дирихле 22
1.1.6 Критерии оценки качества тематических моделей 23
1.2 Интеграция словосочетаний в тематические модели 26
1.2.1 Биграммная Тематическая Модель 26
1.2.2 Модель Словосочетаний LDA 27
1.2.3 N-граммная Тематическая Модель 29
1.2.4 Тематическая Модель Слово-Символ 30
1.2.5 Предварительное извлечение словосочетаний 32
1.3 Терминологический анализ текстовых коллекций 33
1.3.1 Признаки, основанные на частотности 34
1.3.2 Признаки, использующие контрастную коллекцию 36
1.3.3 Контекстные признаки 38
1.3.4 Ассоциативные меры 41
1.3.5 Гибридные признаки 45
1.3.6 Критерии оценки качества систем извлечения терминов 46
1.3.7 Применение методов машинного обучения 47
1.4 Выводы к первой главе 50
2 Тематические модели: учёт сходства между словами и словосо четаниями 52
2.1 Модель учёта словосочетаний в определении тематической структуры текстов 52
2.2 Итеративная модель учёта словосочетаний в определении тематической структуры текстов 59
2.3 Уровень согласия между экспертами 61
2.4 Текстовые коллекции и предобработка 62
2.5 Интеграция словосочетаний с помощью алгоритма PLSA-SIM 64
2.6 Интеграция словосочетаний с помощью алгоритма PLSA-ITER 71
2.7 Интеграция терминов в тематические модели 77
2.8 Выводы ко второй главе 78
3 Применение тематических моделей в задаче автоматического извлечения терминов 80
3.1 Модели извлечения терминов из текстов предметной области 80
3.2 Признаки, использующие тематическую информацию 85
3.3 Прочие признаки кандидатов в термины 87
3.4 Комбинирование признаков кандидатов в термины 89
3.5 Проверка статистической значимости результатов 89
3.6 Текстовые коллекции и предобработка 92
3.7 Выбор лучшей тематической модели для извлечения терминов 93
3.8 Вклад тематических признаков в модель извлечения терминов 95
3.9 Унифицированная модель извлечения терминов 101
3.10 Применение тематических моделей, полученных алгоритмом PLSA-SIM, для извлечения терминов 103
3.11 Выводы к третьей главе 106
4 Система построения вероятностных тематических моделей на
основе лексико-терминологической информации 107
4.1 Общее описание программного комплекса 107
4.1.1 Архитектурная схема 107
4.1.2 Внешний модуль морфологического анализатора 109
4.2 Пакет программ построения тематических моделей 110
4.2.1 Модуль преобразования входных данных 111
4.2.2 Модуль добавления словосочетаний в тематические модели 113
4.2.3 Модуль построения инвертированного индекса 114
4.2.4 Модуль построения тематических моделей 115
4.2.5 Вычислительная сложность алгоритмов PLSA-SIM и PLSA-ITER 115
4.3 Пакет программ извлечения терминов 120
4.3.1 Модуль извлечения кандидатов в термины 121
4.3.2 Модуль вычисления признаков 123
4.3.3 Модуль машинного обучения 123
4.4 Выводы к четвёртой главе 124
Заключение 125
Список литературы