Методы и программные средства извлечения терминов из коллекции текстовых документов предметной области

Астраханцев Никита Александрович. Методы и программные средства извлечения терминов из коллекции текстовых документов предметной области: диссертация ... кандидата физико-математических наук: 05.13.11 / Астраханцев Никита Александрович;[Место защиты: Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук].- Москва, 2015.- 148 с.
Автор
Астраханцев Никита Александрович
Год
2015
  • 99 000 UZS

Оглавление диссертации
Введение
1 Извлечение терминов 10
1.1 Определение термина 10
1.1.1 Дискуссии о статусе термина 12
1.1.2 Признаки термина 14
1.1.3 Рабочие определения термина
1.2 Сценарии извлечения терминов 19
1.3 Обзор существующих работ
1.3.1 Существующие обзоры и экспериментальные сравнения 20
1.3.2 Общая схема методов извлечения терминов 23
1.3.3 Методы на основе статистики вхождений 24
1.3.4 Методы на основе внешних ресурсов 30
1.3.5 Методы на основе Википедии 33
1.3.6 Методы вывода на основе признаков
1.4 Методы оценки эффективности 38
1.5 Выводы 40
2 Методы извлечения терминов на основе Википедии 42
2.1 Метод «Вероятность быть гиперссылкой» 43
2.2 Метод «Близость к ключевым концептам»
2.2.1 Определение концептов предметной области 47
2.2.2 Вычисление семантической близости 48
2.2.3 Описание алгоритма 50
2.3 Экспериментальное исследование разработанных методов 52
2.3.1 Описание экспериментальной установки 52
2.3.2 Выбор параметров 56
2.3.3 Сравнение с существующими методами
2.4 Выводы
3 Метод извлечения терминов на основе алгоритма частичного обучения 66
3.1 Общая схема подхода 66
3.2 Автоматическое извлечение положительных примеров
3.2.1 Специфичность терминов 70
3.2.2 Описание метода извлечения положительных примеров 73
3.3 Обучение на положительных и неразмеченных примерах 78
3.3.1 Обзор существующих алгоритмов PU-learning 78
3.3.2 Адаптация алгоритмов PU-learning 82
3.3.3 Выбор признаков 84
3.4 Экспериментальное исследование разработанного подхода 85
3.4.1 Выбор параметров 85
3.4.2 Сравнение разработанного подхода с существующими методами 96
3.4.3 Проверка статистической значимости 97
3.4.4 Сравнение разработанного метода с методом на основе обучения с учителем 99
3.5 Выводы 101
4 Программная система извлечения терминов 103
4.1 Общая архитектура программной системы 103
4.2 Анализ вычислительной сложности алгоритмов 108
4.3 Особенности программной системы
4.3.1 Примененные технологии 117
4.3.2 Использованные оптимизации 118
4.4 Выводы 119
Заключение 120
Литература

Рекомендуем вам товары

99 000 UZS
Автор
Бармин Александр Александрович
Количество страниц
Год
2015
99 000 UZS
Автор
АНТИПОВ ОЛЕГ ВЛАДИМИРОВИЧ
Количество страниц
Год
2015
99 000 UZS
Автор
Батюков Александр Михайлович
Количество страниц
Год
2015
Модули для Opencart 2, Опенкарт 3