Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей

Ильвовский Дмитрий Алексеевич. Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей: диссертация ... кандидата Технических наук: 05.13.18 / Ильвовский Дмитрий Алексеевич;[Место защиты: ФГУ «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»], 2017.- 250 с.
Автор
Ильвовский Дмитрий Алексеевич
Год
2017
  • 99 000 UZS

Оглавление диссертации
Введение
1. Теоретические основы моделирования 16
1.1 Моделирование текстовых данных 16
1.2 Анализ формальных понятий и решетки замкнутых описаний
1.2.1 Частично упорядоченные множества и решетки 19
1.2.2 Анализ формальных понятий 22
1.2.3 Решетки замкнутых описаний 24
1.2.4 Проекции решеток замкнутых описаний
1.3 Прикладные онтологии 25
1.4 Модели представления текста
1.4.1 Мешок слов 26
1.4.2 Деревья синтаксического разбора
1.4.2.1 Деревья составляющих 28
1.4.2.2 Деревья зависимостей 30
1.4.3 Представление дискурсивных отношений между предложениями текста 31
1.4.3.1 Дискурсивные теории и их применение в прикладных задачах 31
1.4.3.2 Теория риторических структур 32
1.4.3.3 Теория речевых актов 37
1.4.3.4 Семантическая организация данных 38
1.4.3.5 Теория представления дискурса
1.4.4 Чаща разбора 39
1.4.5 Теория «Смысл Текст» 40
1.5 Ядра в задаче машинного обучения 42
1.5.1 Применение ядерных функций в задачах машинного обучения 43
1.5.2 Некоторые виды ядер
1.5.2.1 Ядра для строк 44
1.5.2.2 Ядро на синтаксических деревьях 46
1.5.2.3 Неглубокое семантическое ядро 47
1.5.2.4 Ядро частичных поддеревьев 48
2. Модели и методы поиска ответов на сложные запросы 50
2.1 Введение 50
2.2 Обобщенная модель текстового абзаца 51
2.3 Применение чащ разбора для нахождения ответов на вопросы
2.3.1 Расширенные группы 53
2.3.2 Различные подходы к выявлению сходства между текстовыми абзацами 55
2.3.3 Несинтаксические связи, получаемые из дискурсивных теорий
2.3.3.1 Пример использования риторической структуры 59
2.3.3.2 Обобщение расширенных групп, использующих коммуникативные действия 60
2.3.3.3 Пример использования коммуникативных действий
2.4 Вычисление обобщения чащ разбора 63
2.5 Алгоритм вычисления приближенного обобщения чащ разбора
2.5.1 Проекции на чащах 64
2.5.2 Построение множества расширенных групп 66
2.5.3 Обобщение чащ на проекциях 67
2.6 Эксперименты по поиску с использованием сходства между абзацами 67
2.6.1 Схема эксперимента 67
2.6.2 Результаты экспериментов
2.7 Оценка вычислительной сложности 70
2.8 Кластеризация результатов поиска
2.8.1 Решетка замкнутых описаний на чащах 71
2.8.2 Алгоритм кластеризации
2.8.2.1 Кластеризация с использованием полного описания 74
2.8.2.2 Кластеризация с использованием проекций 74
2.8.3 Пример кластеризации с использованием проекций 75
2.9 Выводы 77
3. Применение ядер для классификации коротких текстов 79
3.1 Введение 79
3.2 Пример расширения деревьев разбора 81
3.3 Алгоритм построения расширенных деревьев 85
3.4 Оценка вычислительной сложности 87
3.5 Эксперименты
3.5.1 Поиск с помощью классификации 88
3.5.2 Классификация технических документов 94
3.6 Выводы 96
4. Поиск тождественных денотатов в онтологиях и формальных контекстах 99
4.1 Введение 99
4.2 Алгоритм поиска тождественных денотатов
4.2.1 Преобразование онтологии в формальный контекст 103
4.2.2 Построение множества формальных понятий 105
4.2.3 Критерии фильтрации формальных понятий 106
4.2.4 Формирование списков тождественных объектов 109
4.3 Альтернативные методы 111
4.3.1 Метод на основе экстенсиональной устойчивости понятия 111
4.3.2 Метод на основе меры абсолютного сходства 112
4.3.3 Метод на основе расстояния Хэмминга 113
4.4 Экспериментальные исследования 114
4.4.1 Эксперименты на формальных контекстах 114
4.4.1.1 Схема эксперимента 114
4.4.1.2 Результаты 117
4.4.2 Эксперименты на прикладной онтологии 122
4.4.2.1 Описание прикладной онтологии 122
4.4.2.2 Анализ результатов 123
4.5 Выводы 125
5. Программные комплексы обработки текстовых данных на основе решеток замкнутых описаний 127
5.1 Программный комплекс FCART 127
5.1.1 Введение 127
5.1.2 Базовые понятия
5.1.2.1 Аналитические артефакты 128
5.1.2.2 Решатели 129
5.1.2.3 Визуализаторы 129
5.1.2.4 Отчёты
5.1.3 Программная архитектура комплекса 132
5.1.4 Цикл работы на примере решеток замкнутых описаний 134
5.1.5 Использование плагинов и макросов 137
5.1.6 Основные возможности программного комплекса по работе с решетками замкнутых описаний 138
5.2 Программный комплекс, предназначенный для обработки чащ разбора 140
5.2.1 Архитектура комплекса 140
5.2.2 Модуль обработки чащ разбора 141
5.2.3 Ранжирование поисковых результатов 142
5.2.4 Обучение на абзацах 142
5.2.5 Модуль кластеризации с помощью решеток замкнутых описаний 142
5.2.6 Риторический парсер 142
5.2.7 Модуль для выявления и обработки коммуникативных действий 143
5.2.8 Модуль для построения кореферентных связей 143
Заключение 146
Литература

Рекомендуем вам товары

99 000 UZS
Автор
Курц Валентина Валерьевна
Количество страниц
Год
2017
99 000 UZS
Автор
Лазутченко Алексей Николаевич
Количество страниц
Год
2017
99 000 UZS
Автор
Калмыков Алекей Вадимович
Количество страниц
Год
2017
99 000 UZS
Автор
Луковенкова Ольга Олеговна
Количество страниц
Год
2017
Модули для Opencart 2, Опенкарт 3