Введение
Глава1. Постановка задачи 11
1.1. Предобработка документов 13
1.2. Составление словаря коллекции 14
1.3. Представление слов из словаря в виде векторов 15
1.4. Представление документа в виде вектора 20
1.5. Жесткие иерархические модели 22
1.6. Вероятностные модели 26
1.7. Иерархические вероятностные модели 31
1.8. Описательно-вероятностные модели и смеси моделей 33
1.9. Иерархическая классификация документов 35
Глава 2. Отбор признаков и метрическая кластеризация 40
2.1. Выбор взвешенной метрики 40
2.2. Алгоритм оптимизации весов метрики 42
2.3. Сравнение экспертной и алгоритмической модели 43
2.4. Анализ метрических свойств описаний документов 44
2.5. Анализ алгоритмов иерархической кластеризации 46
Глава 3. Иерархическая классификация неразмеченных документов 49
3.1. Иерархическая функция сходства 49
3.2. Оператор релевантности 53
3.3. Энтропийная модель важности слов 55
3.4. Учет векторного представления слов в функции сходства 56
3.5. Оптимизация параметров иерархической функции сходства 58
3.6. Оптимизация правдоподобия модели 60
3.7. Байесовские оценки параметров иерархической функции сходства. 63
3.8. Построение тематической модели конференции 79
Глава 4. Верификация тематической модели 83
4.1. Построение иерархической модели схожей с экспертной 83
4.2. Верификация тематической модели конференции 86
Глава5. Анализ прикладных задач 89
5.1. Иерархическая классификация тезисов крупной конференции 89
5.2. Визуализация иерархической тематической модели на плоскости 96
5.3. Иерархическая классификация веб-сайтов индустриального сектора 100
Заключение 104
Список основных обозначений 106
Список иллюстраций 108
Список таблиц 110
Список литературы


