Введение
1. Теоретические основы моделирования 16
1.1 Моделирование текстовых данных 16
1.2 Анализ формальных понятий и решетки замкнутых описаний
1.2.1 Частично упорядоченные множества и решетки 19
1.2.2 Анализ формальных понятий 22
1.2.3 Решетки замкнутых описаний 24
1.2.4 Проекции решеток замкнутых описаний
1.3 Прикладные онтологии 25
1.4 Модели представления текста
1.4.1 Мешок слов 26
1.4.2 Деревья синтаксического разбора
1.4.2.1 Деревья составляющих 28
1.4.2.2 Деревья зависимостей 30
1.4.3 Представление семантических отношений между предложениями текста 30
1.4.3.1 Теория риторических структур 31
1.4.3.2 Теория речевых актов 36
1.4.3.3 Теория K-представлений 37
1.4.3.4 Семантическая организация данных 39
1.4.3.5 Теория представления дискурса
1.4.4 Чаща разбора 40
1.4.5 Семантико-коммуникативное представление текста 41
1.5 Ядра в задаче машинного обучения 42
1.5.1 Применение функции ядра в задачах машинного обучения 43
1.5.2 Некоторые виды ядер
1.5.2.1 Ядра для строк 44
1.5.2.2 Ядро на синтаксических деревьях 46
1.5.2.3 Неглубокое семантическое ядро 47
1.5.2.4 Ядро частичных поддеревьев 48
2. Модели и методы поиска ответов на сложные запросы 50
2.1 Введение 50
2.2 Обобщенная модель представления текстовых абзацев 51
2.3 Применение чащ разбора для нахождения ответов на вопросы
2.3.1 Расширенные группы 53
2.3.2 Различные подходы к выявлению сходства между текстовыми абзацами 55
2.3.3 Несинтаксические связи, получаемые из семантических теорий
2.3.3.1 Пример использования риторической структуры 58
2.3.3.2 Обобщение расширенных групп, использующих коммуникативные действия 59
2.3.3.3 Пример использования коммуникативных действий
2.4 Вычисление обобщения чащ разбора 62
2.5 Алгоритм вычисления приближенного обобщения чащ разбора
2.5.1 Проекции на чащах 64
2.5.2 Построение множества расширенных групп 65
2.5.3 Обобщение чащ на проекциях 66
2.6 Эксперименты по поиску с использованием сходства между абзацами 67
2.6.1 Схема эксперимента 67
2.6.2 Результаты экспериментов
2.7 Оценка вычислительной сложности 69
2.8 Кластеризация результатов поиска
2.8.1 Решетка замкнутых описаний на чащах 71
2.8.2 Алгоритм кластеризации
2.8.2.1 Кластеризация с использованием полного описания 73
2.8.2.2 Кластеризация с использованием проекций 73
2.8.3 Пример кластеризации на проекциях 74
2.9 Выводы 76
3. Применение ядер для классификации коротких текстов 79
3.1 Введение 79
3.2 Пример расширения деревьев разбора 81
3.3 Алгоритм построения расширенных деревьев 85
3.4 Оценка улучшения качества классификации 87
3.5 Оценка вычислительной сложности 88
3.6 Эксперименты 89
3.7 Выводы 94
4. Поиск тождественных денотатов в онтологиях и формальных контекстах 97
4.1 Введение 97
4.2 Алгоритм поиска тождественных денотатов
4.2.1 Преобразование онтологии в формальный контекст 100
4.2.2 Построение множества формальных понятий 103
4.2.3 Критерии фильтрации формальных понятий 104
4.2.4 Формирование списков тождественных объектов 106 4.3 Альтернативные методы 109
4.3.1 Метод на основе экстенсиональной устойчивости понятия 109
4.3.2 Метод на основе меры абсолютного сходства 110
4.3.3 Метод на основе расстояния Хэмминга 111
4.4 Экспериментальные исследования 111
4.4.1 Эксперименты на формальных контекстах 111
4.4.1.1 Схема эксперимента 111
4.4.1.2 Результаты 114
4.4.2 Эксперименты на прикладной онтологии 119
4.4.2.1 Описание прикладной онтологии 119
4.4.2.2 Анализ результатов 120
4.5 Выводы 122
5. Программные комплексы обработки текстовых данных на основе решеток замкнутых описаний 124
5.1 Программный комплекс FCART 124
5.1.1 Введение 124
5.1.2 Базовые понятия
5.1.2.1 Аналитические артефакты 125
5.1.2.2 Решатели 126
5.1.2.3 Визуализаторы 126
5.1.2.4 Отчёты
5.1.3 Программная архитектура комплекса 129
5.1.4 Цикл работы на примере решеток замкнутых описаний 131
5.1.5 Использование плагинов и макросов 134
5.1.6 Основные возможности программного комплекса по работе с решетками замкнутых описаний 135
5.2 Программный комплекс, предназначенный для обработки чащ разбора 137
5.2.1 Архитектура комплекса 137
5.2.2 Модуль обработки чащ разбора 138
5.2.3 Ранжирование поисковых результатов 139
5.2.4 Обучение на абзацах 139
5.2.5 Модуль кластеризации с помощью решеток замкнутых описаний 139
5.2.6 Риторический парсер 139
5.2.7 Модуль для выявления и обработки коммуникативных действий 140
5.2.8 Модуль для построения кореферентных связей 140
Заключение 144
Литература


