Введение
1 Извлечение терминов 10
1.1 Определение термина 10
1.1.1 Дискуссии о статусе термина 12
1.1.2 Признаки термина 14
1.1.3 Рабочие определения термина
1.2 Сценарии извлечения терминов 19
1.3 Обзор существующих работ
1.3.1 Существующие обзоры и экспериментальные сравнения 20
1.3.2 Общая схема методов извлечения терминов 23
1.3.3 Методы на основе статистики вхождений 24
1.3.4 Методы на основе внешних ресурсов 30
1.3.5 Методы на основе Википедии 33
1.3.6 Методы вывода на основе признаков
1.4 Методы оценки эффективности 38
1.5 Выводы 40
2 Методы извлечения терминов на основе Википедии 42
2.1 Метод «Вероятность быть гиперссылкой» 43
2.2 Метод «Близость к ключевым концептам»
2.2.1 Определение концептов предметной области 47
2.2.2 Вычисление семантической близости 48
2.2.3 Описание алгоритма 50
2.3 Экспериментальное исследование разработанных методов 52
2.3.1 Описание экспериментальной установки 52
2.3.2 Выбор параметров 56
2.3.3 Сравнение с существующими методами
2.4 Выводы
3 Метод извлечения терминов на основе алгоритма частичного обучения 66
3.1 Общая схема подхода 66
3.2 Автоматическое извлечение положительных примеров
3.2.1 Специфичность терминов 70
3.2.2 Описание метода извлечения положительных примеров 73
3.3 Обучение на положительных и неразмеченных примерах 78
3.3.1 Обзор существующих алгоритмов PU-learning 78
3.3.2 Адаптация алгоритмов PU-learning 82
3.3.3 Выбор признаков 84
3.4 Экспериментальное исследование разработанного подхода 85
3.4.1 Выбор параметров 85
3.4.2 Сравнение разработанного подхода с существующими методами 96
3.4.3 Проверка статистической значимости 97
3.4.4 Сравнение разработанного метода с методом на основе обучения с учителем 99
3.5 Выводы 101
4 Программная система извлечения терминов 103
4.1 Общая архитектура программной системы 103
4.2 Анализ вычислительной сложности алгоритмов 108
4.3 Особенности программной системы
4.3.1 Примененные технологии 117
4.3.2 Использованные оптимизации 118
4.4 Выводы 119
Заключение 120
Литература


