ВВЕДЕНИЕ...................................................................................................................... 6
ГЛАВА 1. АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ
ЯЗЫКЕ............................................................................................................................ 17
1.1 Методы разноуровневого анализа текстов на естественном языке................ 20
1.1.1 Предварительный анализ. Выделение границ слов и предложений ........ 21
1.1.2 Морфологический анализ ............................................................................. 22
1.1.3 Синтаксический анализ................................................................................. 26
1.1.4 Семантический анализ................................................................................... 34
1.1.5 Дискурсивный анализ.................................................................................... 45
1.2 Показатели качества анализа текстов ................................................................ 48
1.3 Применение разноуровневых структур для интеллектуального анализа
текстов......................................................................................................................... 51
1.4 Выводы по главе................................................................................................... 55
ГЛАВА 2. СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ.... 58
2.1 Реляционно-ситуационная модель текста ......................................................... 64
2.1.1 Графематическая модель............................................................................... 64
2.1.2 Морфологическая модель ............................................................................. 67
2.1.3 Синтаксическая модель................................................................................. 68
2.1.4 Семантическая модель .................................................................................. 71
2.2 Метод реляционно-ситуационного анализа текстов ........................................ 74
2.2.1 Словарь предикатных слов ........................................................................... 76
2.2.2 Определение категориально-семантического класса синтаксемы ........... 79
2.2.3 Анализ клаузы, содержащей предикатное слово........................................ 82
2.2.4 Анализ клаузы, в которой отсутствует предикатное слово....................... 85
2.2.5 Анализ сложных предложений..................................................................... 89
2.2.6 Общий алгоритм реляционно-ситуационного анализа текста .................. 91
2.3 Семантико-синтаксический анализ текстов...................................................... 94
2.3.1 Принципы семантико-синтаксического анализа текстов .......................... 95
3
2.3.2 Корпус с семантико-синтаксической разметкой ........................................ 97
2.3.3 Синтаксический анализ................................................................................. 98
2.3.4 Семантический анализ................................................................................. 103
2.3.5 Совместный семантико-синтаксический анализ...................................... 106
2.4 Выводы по главе................................................................................................. 112
ГЛАВА 3. ДИСКУРСИВНЫЙ АНАЛИЗ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ .... 115
3.1 Теория риторических структур......................................................................... 116
3.2 Моделирование дискурсивной структуры текста........................................... 119
3.3 Русскоязычный дискурсивный корпус Ru-RSTreebank ................................. 121
3.4 Этапы и базовые методы дискурсивного анализа .......................................... 123
3.4.1 Выделение дискурсивных единиц.............................................................. 124
3.4.2 Построение неразмеченного дерева........................................................... 126
3.4.3 Классификация отношений и определение ядерности ............................ 129
3.5 Метод полного дискурсивного анализа текстов на русском языке.............. 133
3.5.1 Дискурсивная сегментация ......................................................................... 134
3.5.2 Алгоритм построения дискурсивного дерева ........................................... 134
3.5.3 Экспериментальные исследования метода ............................................... 137
3.6 Выводы по главе................................................................................................. 144
ГЛАВА 4. ИНФОРМАЦИОННЫЙ ПОИСК И ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ
ТЕКСТОВ НА ОСНОВЕ РАЗНОУРОВНЕВЫХ СТРУКТУР................................ 146
4.1 Семантический поиск на основе реляционно-ситуационной структуры текста
.................................................................................................................................... 147
4.1.1 Принципы семантического поиска ............................................................ 147
4.1.2 Алгоритмы семантического поиска ........................................................... 155
4.1.3 Экспериментальные исследования ............................................................ 160
4.2 Вопросно-ответный поиск на основе семантических структур.................... 164
4.2.1 Принципы вопросно-ответного поиска с учетом семантики .................. 165
4.2.2 Алгоритмы вопросно-ответного поиска с учетом семантики................. 169
4.2.3 Экспериментальные исследования ............................................................ 176
4.2.4 Вопросно-ответный поиск на основе открытого извлечения информации
из текстов ............................................................................................................... 181
4
4.3 Извлечение информации из научных текстов на основе семантических
структур..................................................................................................................... 197
4.3.1 Выявление дефиниций на основе семантических структур.................... 198
4.3.2 Решение проблемы трудоемкости разметки текстов ............................... 207
4.4 Выводы по главе................................................................................................. 215
ГЛАВА 5. ПСИХОЛИНГВИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА ОСНОВЕ
РАЗНОУРОВНЕВЫХ СТРУКТУР............................................................................ 218
5.1 Разноуровневые психолингвистические показатели...................................... 221
5.1.1 Морфо-стилистические показатели ........................................................... 221
5.1.2 Лексические показатели.............................................................................. 226
5.1.3 Синтаксические показатели........................................................................ 228
5.1.4 Семантические показатели ......................................................................... 230
5.1.5 Дискурсивные показатели........................................................................... 232
5.2 Определение психологического неблагополучия по текстам эссе............... 234
5.2.1 Схема исследования..................................................................................... 234
5.2.2 Анализ текстов психически больных ........................................................ 236
5.2.3 Анализ текстов больных депрессией......................................................... 238
5.2.4 Анализ текстов авторов с различным уровнем агрессивности............... 244
5.3 Определение личностных особенностей по текстам социальных сетей...... 248
5.3.1 Схема исследования и исходные данные .................................................. 249
5.3.2 Выявление депрессивности ........................................................................ 251
5.3.3 Выявление личностных черт ...................................................................... 254
5.4 Выводы по главе................................................................................................. 257
ГЛАВА 6. СИСТЕМЫ ТЕКСТОВОЙ АНАЛИТИКИ НА ОСНОВЕ МЕТОДОВ
РАЗНОУРОВНЕВОГО АНАЛИЗА ТЕКСТОВ........................................................ 259
6.1 TextAppliance – программно-аппаратный комплекс интеллектуального
поиска и анализа больших массивов текстов........................................................ 259
6.2 Машина РСА – инструмент лингво-статистических корпусных исследований
.................................................................................................................................... 264
6.3 TITANIS – инструмент психоэмоционального анализа текстов социальных
медиа.......................................................................................................................... 271
6.4 Выводы по главе................................................................................................. 278
ЗАКЛЮЧЕНИЕ ........................................................................................................... 280
5
СПИСОК ЛИТЕРАТУРЫ........................................................................................... 283
ПРИЛОЖЕНИЕ А. РЕЗУЛЬТАТЫ ИНТЕЛЛЕКТУАЛЬНОЙ ДЕЯТЕЛЬНОСТИ
....................................................................................................................................... 321
ПРИЛОЖЕНИЕ Б. АКТЫ ОБ ИСПОЛЬЗОВАНИИ ............................................... 331


