Введение
Глава 1 . Основные методы интеллектуального анализа текстов 13
1.1 Модели представления знаний 13
1.1.1 Векторная модель представления знаний 13
1.1.2 Терм-документная матрица 15
1.1.3 Наивная байесовская модель 15
1.1.4 Семантическая сеть 16
1.2 Методы интеллектуального анализа текстов 18
1.2.1 Байесовский классификатор 19
1.2.2 Латентное размещение Дирихле 21
1.2.3 Нейронные сети 22
1.2.4 Векторные методы 24
1.2.5 Латентно-семантический анализ 25
1.2.6 Деревья решений 26
1.2.7 Эволюционный анализ и генетическое программирование
1.3 Процесс обнаружения знаний 29
1.4 Проблема лексической неоднозначности
1.4.1 Подходы к устранению лексической многозначности 35
1.4.2 Использование семантических сетей для устранения лексической многозначности
1.5 Обзор работ по теме диссертации 39
1.6 Выводы по первой главе 42
Глава 2. Интеллектуальный метод подбора персональных рекомендаций гарантирующий получение непустого результата 43
2.1 Постановка задачи 43
2.2 Выбор модели представления знаний 44
2.3 Схема алгоритма з
2.4 Подготовка данных к анализу 46
2.5 ЛСА и сингулярное разложение 49
2.6 Вычисление сингулярного разложения 52
2.7 Выделение семантического ядра с помощью матрицы корреспонденций термов
2.7.1 Матрица корреспонденций термов 54
2.7.2 Разложение матрицы корреспонденций термов 56
2.8 Свойства матрицы корреспонденций термов 60
2.8.1 Свойства собственных чисел 60
2.8.2 Влияние длины документа на сингулярное разложение матрицы 64
2.8.3 Переход к новому базису 69
2.9 Алгоритм подбора персональных рекомендаций 73
2.9.1 Обучение (получение векторов термов и списка категорий) 74
2.9.2 Построение векторной модели обучающей выборки 76
2.9.3 Получение векторных моделей анализируемых текстов 78
2.9.4 Свойства категориальных векторов
2.10 Выбор рекомендаций 80
2.11 Свойства коэффициентов близости 81
2.12 Выводы по второй главе 83
Глава 3. Векторная модель представления знаний использующая семантическую близость термов 84
3.1 Расширенный метод Леска 85
3.2 Учет семантической близости при вычислении веса терма 86
3.3 Анализ возможности применения тезаурусов и словарей
3.3.1 Обзор существущих словарей русского языка 88
3.3.2 Анализ русскоязычных тезаурусов 90
3.3.3 Анализ применимости баз данных интернета
3.4 Анализ проблемы синонимии и полисемии 93
3.5 Алгоритм построения контекстного множества терма 96
3.5.1 Пример построения контекстного множества 98
3.6 Предлагаемый метод вычисления семантической близости 101
3.6.1 Пример расчета семантической близости 103
3.7 Выводы по третьей главе 105
Глава 4. Вычислительные эксперименты 107
4.1 Выбор порогового значения сингулярных коэфициентов 107
4.2 Сравнение с другими алгоритмами 108
4.3 Оценка результатов работы алгоритма с переопределением весов термов 110
4.4 Оценка результатов работы алгоритма вычисления семантической близости термов 113
4.5 Сравнение работы на известных наборах данных 115
4.6 Выводы по четвертой главе 118
Заключение 120
Список литературы


