Метод автоматического аннотирования новостных кластеров на основе тематического анализа

Алексеев Алексей Александрович. Метод автоматического аннотирования новостных кластеров на основе тематического анализа: диссертация ... кандидата физико-математических наук: 05.13.11 / Алексеев Алексей Александрович;[Место защиты: Московский государственный университет им. М.В.Ломоносова].- Москва, 2014.- 122 с.
Автор
Алексеев Алексей Александрович
Год
2014
  • 99 000 UZS

Оглавление диссертации
Введение
1. Автоматическое аннотирование 11
1.1 Задача автоматического аннотирования 11
1.2 Методы автоматического аннотирования 15
1.2.1 Общая классификация методов 15
1.2.2 Методы, основанные на частотных характеристиках слов 16
1.2.3 Тематические модели для автоматического аннотирования 18
1.2.4 Теория графов для построения автоматических аннотаций 23
1.2.5 Использование машинного обучения 25
1.2.6 Стратегии отбора предложений при подготовке аннотаций 27
1.3 Оценка качества автоматических аннотаций 31
1.3.1 Автоматические меры качества ROUGE 32
1.3.2 Метод «Пирамиды» (Pyramid Evaluation) 34
1.3.3 Сравнение различных методов оценки автоматических аннотаций 35
1.4 Выводы к первой главе 37
2. Лексическая вариативность и ее моделирование 39
2.1 Вариативность в текстах на естественном языке 39
2.2 Цепочные методы смысловой группировки языковых выражений 43
2.2.1 Алгоритм построения лексических цепочек на основе тезауруса WordNet для английского языка 44
2.2.2 Алгоритм построения лексических цепочек на основе тезауруса РуТез для русского языка 45
2.3 Локальная и глобальная связность текста 48
2.4 Предлагаемый метод построения тематических цепочек 51
2.4.1 Формальная постановка задачи построения тематических цепочек 53
2.4.2 Характеристики схожести языковых выражений для построения тематических цепочек 54
2.4.3 Алгоритм построения тематических цепочек 60
2.5 Алгоритмическая сложность и производительность алгоритма построения тематических цепочек 69
2.6 Влияние лексической вариативности на установление схожести 70
2.7 Выводы ко второй главе 75
3. Интеграция тематических цепочек в методы автоматического аннотирования 77
3.1 Интеграция в существующие методы аннотирования 78
3.1.1 Учет TF-IDF для многословных выражений 80
3.1.2 Интеграция в метод MMR 81
3.1.3 Интеграция в метод SumBasic 82
3.2 Новые методы аннотирования на основе построенных тематических цепочек 83
3.2.1 Построение аннотации по тематическим цепочкам 84
3.2.2 Построение аннотации по связям тематических цепочек 85
3.3 Оценка автоматических аннотаций и основные результаты 86
3.4 Выводы к третьей главе 88
4. Система автоматического аннотирования на основе тематических цепочек 90
4.1 Общее описание программного комплекса 90
4.1.1 Архитектурная схема 90
4.1.2 Входные данные: Структура и предварительная обработка 92
4.2 Модуль построения тематических цепочек 94
4.3 Модуль автоматического аннотирования 98
4.4 Модуль оценки автоматических аннотаций 101
4.5 Выводы к четвертой главе 103
Заключение 104
Список литературы 105

Рекомендуем вам товары

99 000 UZS
Автор
Базенков Николай Ильич
Количество страниц
Год
2014
99 000 UZS
Автор
Лукьянчиков Олег Игоревич
Количество страниц
Год
2015
99 000 UZS
Автор
Фролов Владимир Александрович
Количество страниц
Год
2015
Модули для Opencart 2, Опенкарт 3