Введение
2 Обзор методов автоматической рубриісации текстов 10
2.1 Основные подходы к представлению текстов для компьютерной обработки 11
2.1.1 Использование морфологии 13
2.1.2 TF IDF. 14
2.1.3 Борьба с высокой размерностью: сокращение числа используемых атрибутов путем выделения наиболее значимых .15
2.1.4 Использование дополнительных атрибутов документа 17
2.2 Метрики качества рубрицирования 17
2.3 Метода машинного обучения на коллекции документов 20
2.4 Обзор публикаций, посвященных практическому сравнению методов машинного обучения Оценки 22
2.5 Обзор методов машинного обучения 24
2.5.1 Метод Байеса 25
2.5.2 Метод k-ближайших соседей 26
2.5.3 Rocchio classifier 27
2.5.4 Нейронные сети 28
2.5.5 Деревья решений 29
2.5.6 Построение булевых функций 31
2.5.7 Support Vector Machines 33
2.6 Обзор методов, основанных на знаниях 36
2.6.1 Технология классификации LexisNexis 37
2.6.2 Технология классификации Reuters 38
2.6.3 Технология классификации документов на основе тезауруса УИС РОССИЯ 39
2.7 Выводы 45
3 Моделировании логики рубрикатора 47
3.1 Описание алгоритма пфа (алгоритма построения формул) 49
3.1.1 Шаг 1: вычисление векторного представления 52
3.1.2 Шаг 2: построение конъюнктов 53
3.1.3 Шаг 3: построение дизъюнкции 56
3.1.4 Шаг 4: усечение формулы 59
3.1.5 Построение формулы с отрицаниями 60
3.2 Аналитическое исследование алгоритма 60
3.2.1 Описание алгоритма ПФБА 62
3.2.2 Свойства метрик полнота, точность, F-мера 63
3.2.3 Исследование сходимости алгоритма ПФБА для «идеальной» рубрики 68
3.3 Экспериментальное исследование алгоритма построения формул ПФА 78
3.3.1 Описание программной реализации алгоритма 79
3.3.2 Эксперименты на коллекции Reuters-21578 81
3.3.3 Эксперименты на коллекции РОМИП-2004 89
3.4 Выводы 100
4 Тематический анализ коллекции документов 102
4.1 Тематический анализ коллекции документов on-line 103
4.1.1 Анализ по тезаурусу 103
4.1.2 Анализ по метаданным 105
4.1.3 Анализ с использованием алгоритма построения формул 1 Об
4.1.4 Применение тематического анализа в ИС 106
4.2 Повышение эффективности рубрицирования, основанное на тематическом анализе 112
4.2.1 Общие проблемы ручной классификации для больших рубрикаторов. 113
4.2.2 Использование информеров при решении задач классификации.. 115
4.3 Выводы 124
5 Заключение 126
6 Список Литературы


