Введение
Глава 1. Существующие алгоритмы обработки естественного языка 20
1.1 .Задачи обработки естественного языка 20
1.2. Особенности алгоритмов обработки естественного языка 23
1.3. Алгоритмы морфологического анализа в системах автоматического обработки естественно языковых (ЕЯ) текстов 26
1.3.1. Принципы построения компьютерной морфологии 27
1.3.1.1. Система кодирования словаря словоизменения 27
1.3.1.2. Точный морфологический анализ 28
1.3.1.3. Морфологический анализ на основе правил 29
1.3.1.4. Вероятностный морфологический анализ 29
1.3.2. Использование морфоанализа при разборе текста 30
1.3.2.1. Настройки морфоанализатора 30
1.3.2.2. Формальные факторы, определяющие варианты разбора ч слова 31
1.3.2.3. Учет контекста при разборе слова 33 1.4.Анализ тональности текста 3 6
1.4.1 Лингвистическая модель для компьютерного анализа тональности публикаций СМИ 37
1.4.2 Фильтрация и разбор пропозиций для оценки тональности 40
1.4.3 Прямая эмоционально-коннотативная характеристика 41
1.4.4 Ассоциированный эмоциональный коннотат 42
1.4.5 Методика принятия решения о тональности 42
1.5. Референция обозначений персон и организаций в публицистическихтекстах 45
1.5.1 Особенности референции обозначений в тексте 47
1.5.2 Обобщенный алгоритм анализа референции 51
1.5.3 Поиск референтов известных объектов 54
1.6. Поиск и классификация фактов 56
1.6.1 Технология фактографического поиска 56
1.6.2 RCO Pattern Extractor: компонент выделения особых объектов в тексте 58
1.6.2.1 Модуль предобработки текста 59
1.6.2.2 Выделение объектов 60.
1.6.2.3 Словарный модуль 61
1.6.2.4. Модуль выделения объектов 62
1.7. Нейросетевая технология в обработке ЕЯ информации 66
1.7.1 Использование статистических методов 68
1.7.2 Ассоциативная семантическая сеть 69
1.7.3 Реализация прикладных функций тематического анализа текста 72
1.8. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза 74
1.8.1. Синтаксический анализ и эксплицирование отношений 75
1.8.2. Синтаксический синтез элементов смысла 7Ч6
1.8.3. Ранжирование элементов смысла и информационный портрет і, текста 79
1.9. Программные продукты для автоматического реферирования (Automatic Text Summarization) 81,
1.10 Выводы по Главе 1 88
Глава 2. Поуровневый анализ ЕЯ текста в системах автоматической обработки 90,
2.1. Знания о ЕЯ, необходимые для полного автоматического анализа 90
2.2. Общая схема автоматической обработки ЕЯ текста 91
2.3. Анализ отдельных слов 93
2.4. Проблема снятия омонимии 9$
2.4.1 Традиционные методы снятия лексико-семантической омонимии 98
2.4.2 Современные тенденции в решении проблемы автоматического снятия омонимии 103
2.4.3 Преимущества использования частотных коллокаций 105
2.4.4 Понятие частотных устойчивых коллокаций 107
2.4.5 Характеристика поверхностных фильтров 10
2.4.6 Оценка эффективности работы фильтров 109
2.5. Пример морфологического словаря («Открытые системы») 111
2.5.1 Структура морфологического словаря 111
2.5.2 Оболочка редактирования словаря 114
2.5.3 Бинарное представление словаря 116
2.5.4 Предсказание ненайденных слов 118
2.6. Анализ отдельных предложений 120
2.7. Анализ снизу вверх и сверху вниз 12J
2.7.1. Парсинг 123
2.7.2. Системы со встроенными правилами 125
2.7.3. Сравнение эффективности 126,
2.8. Классификация методов синтаксического анализа 128л
2.9. Синтаксический анализ в системе 130
2.9.1 Синтаксическое правило 132
2.9.2 Алгоритм работы 133
2.10. Использование семантических грамматик 141
2.11. Семантический анализ 144 2.11.1 Первичный семантический анализ 146 2Л1.2 Алгоритм поверхностного семантического анализа 148
2.12. Семантические сети и фреймы 149
2Л3. Выявление сверхфразовой структуры 154
2.14. Выводы 158
Глава 3. Модель алгоритма обработки ЕЯ текста 161
3.1. Некоторые методы автоматического анализа ЕЯ, используемые в ; о промышленных продуктах 161
3.1.1 Лексико-грамматический анализ (Part-of-Speech-tagging) 162
3.1.2 Синтаксический анализ (Text Parsing) 165
3.1.3 Автоматическое реферирование(Аи!отатіс Text Summarization) 169
3.2. Эксперимент v
3.2.1. Описание эксперимента 172
3.2.2. Результаты 179
3.2.3. Выводы 187
3.3.1 Модель текста 188
3.3.2 Схема обработки естественно-языкового текста 190
3.3.3 Первичная семантическая обработка 196
3.3.3.1 Инициализация семантических узлов и синтаксических вариантов фрагментов 196
3.3.3.2 Построение множества словарных интерпретации узлов 197
3.3.3.3 Построение групп времени 198-
3.3.3.4 Построение узлов в кавычках 200
3.3.3.5 Построение узлов типа «друг друга» 200
3.3.3.6 Подключение операторов типа не, только 201
3.3.3.7 Построение устойчивых словосочетаний 201
3.3.3.8 Построение лексических функций-параметров 202
3.3.3.9 Установление отношений между локативными узлами 203
3.3.3.10 Интерпретация тезаурусных должностей и организаций 204
3.3.3.11 Процедура инициализации валентной структуры 205
3.3.3.12 Процедура построения графа гипотетических связей 206
3.3.3.13 Построение множественных актантов 210
3.3.3.14 Процедура удаления длинных связей 212,
3.3.3.15 Процедура построения вариантов деревьев 212
3.3.3.16 Оценка деревьев 213
3.3.3.17 Проверка отношений по семантическим характеристикам 216
3.3.3.18 Проективность деревьев 216
3.3.3.19 Нарушение первой валентности и валентности из добавочных статей 217
3.3.3.20 Построение отношений по умолчанию 217
3.3.3.21 Межклаузные связи 21&
3.3.3.22 Правило восстановления анафорических местоимений 220
3.3.4. Алгоритм обработки текста после первичного семантического анализа 221
3.3.5 Основные принципы связей 224
3.3.6 Выявление тематического узла 227
3.3.7 Совместная встречаемость в предложениях 228
3.3.8 Семантическая сеть 229
3.3.9 Синтез информации из сети 230
3.4. Выводы по Главе 3 23 \
Заключение 233
Список литературы


