Купить диссертацию Модели и методы автоматической обработки неструктурированной информации на основе базы данных онтологического типа

Оглавление диссертации

Введение
Глава 1. Использование знаний в приложениях информационного поиска 16
1.1. Формальные и лингвистические онтологии 16
1.1.1. Информационно-поисковые тезаурусы 19
1.1.2. Тезаурусы типа WordNet 22
1.2. Методы применения лингвистических онтологий в приложениях обработки неструктурированной информации 28
1.2.1. Автоматическое концептуальное индексирование на основе информационно-поисковых тезаурусов 28
1.2.2. Автоматическое разрешение многозначности 30
1.2.3. Тезаурусы типа WordNet в информационном поиске 37
1.2.4. Лингвистические онтологии в вопросно-ответных системах 51
1.2.5. Лингвистические онтологии в системах автоматической рубрикации текстов 60
Заключение к главе 1 68
Глава 2. Модель лингвистической онтологии для автоматической обработки текстов 69
2.1. Основные принципы разработки лингвистических ресурсов для автоматического концептуального индексирования 69
2.2. Модель отношений в ЛО 76
2.2.1. Таксономическое отношение выше-ниже 77
2.2.2. Отношение онтологической зависимости 83
2.2.3. Отношение часть-целое 92
2.2.4. Отношение внешней онтологической зависимости в модели ЛО 106
2.2.5. Отношение симметричной ассоциации 108
2.3. Группировки понятий и отношений в ЛО 109
2.4. Лингвистические онтологии, созданные на основе описанной модели 111
Заключение к главе 2 116
Глава 3. Лингвистическая онтология как средство моделирования структуры связного текста 118
3.1. Моделирование структуры связного текста 119
3.1.1. Тематическая структура и тематическая связность текста 120
3.1.2. Когезия как структурная связность текста 121
3.2. Моделирование лексической связности на основе тезаурусов 123
3.3. Автоматическое аннотирование 133
3.4. Проблемы автоматического построения лексических цепочек 141
3.4.1. Субъективность выделения лексических цепочек 142
3.4.2. Построение лексических цепочек с учетом ситуативных отношений 143
3.5. Модель тематического представления текста 145
3.5.1. Лексические цепочки и тематическая структура текста 145
3.5.2. Примеры разбора лексических цепочек с учетом тематической структуры текста 152
3.5.3. Автоматическое построение тематического представления 155
3.5.4. Сопоставление метода построения тематического представления текстов и вероятностных тематических моделей 167
Заключение к главе 3 169
Глава 4. Автоматическая обработка текстов на основе лингвистической онтологии и приложения информационного поиска 170
4.1. Этапы обработки текстов на основе ЛО 170
4.2. Автоматическое разрешение многозначности 172
4.2.1. Метод глобального подтверждения разрешения лексической многозначности 174
4.2.2. Метод взвешивания подтверждения от локального и глобального контекстов 177
4.2.3. Организация тестирования алгоритмов разрешения многозначности 184
4.3. Информационный поиск на базе ЛО 189
4.3.1. Концептуальный индекс, веса понятий и отношений 189
4.3.2. Тестирование эффективности информационного поиска на основе ЛО 191
4.3.3. Лингвистическая онтология и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП 195
4.3.4. Использование комбинированных моделей для поиска документов по запросам типа «формулировка проблемы» 199
4.4. Лингвистическая онтология как ресурс для автоматической рубрикации текстов 213
4.4.1. Технология автоматического рубрицирования на основе ЛО 213
4.4.2. Описание смысла рубрики понятиями ЛО 214
4.4.3. Автоматическое рубрицирование на основе тематического представления 216
4.4.4. Эксперимент по автоматической рубрикации текстов в рамках семинара РОМИП 2007 218
4.5. Методы автоматического аннотирования текстов на основе лингвистической онтологии 220
4.5.1. Метод автоматического аннотирования отдельного текста на основе тематического представления 221
4.5.2. Построение структурной тематической аннотации текста 227
4.5.3. Построение аннотации для новостного кластера на основе тематического представления текстов кластера 230
4.6. Применение предложенных методов для автоматической обработки текстов в различных проектах 245
4.6.1.Программный комплекс АЛОТ 245
4.6.2. АЛОТ в УИС РОССИЯ 246
4.6.3. Общественно-политический тезаурус как поисковое средство в УИС РОССИЯ 248
Заключение к главе 4 249
Глава 5. Многофакторная модель автоматического извлечения терминов предметной области 251
5.1. Необходимость разработки многофакторной модели для извлечения терминов 251
5.2. Особенности многофакторной модели извлечения терминов 255
5.2.1. Основные типы признаков для извлечения терминов 255
5.2.2. Математические методы для комбинирования факторов 256
5.2.3. Логистическая регрессия как метод машинного обучения 258
5.3. Постановка эксперимента по оценке качества извлечения словосочетаний. Используемые терминологические ресурсы 259
5.4. Метод отбора однословных терминов 260
5.4.1. Признаки, полученные на коллекции текстов предметной области 261
5.4.2. Признаки, полученные на основе выдачи глобальной поисковой машины 263
5.4.3. Признак встречаемости слова в терминах тезауруса 264
5.4.4. Оценка качества извлечения терминологических слов 264
5.5. Алгоритм комбинирования признаков для извлечения двухсловных терминов 266
5.5.1. Признаки, полученные по коллекции документов предметной области 266
5.5.2. Признаки, полученные по сниппетам глобальной поисковой машины 267
5.5.3. Признаки, полученные на основе лингвистической онтологии 270
5.5.4. Оценка качества извлечения двухсловных терминов 271
Заключение к главе 5 274
Заключение и основные результаты 276
Список литературы 280