Введение
1 Аналитический обзор современных индустриальных решений управления контентной информацией организации 18
1.1 Системы управления корпоративным контентом (ECM) 18
1.1.1 Классификация документов 21
1.1.2 Анализ отдельных документов 23
1.1.3 Поиск и анализ документов 24
1.1.4 Методы анализа контентных данных eDiscovery
1.2 Системы предотвращения утечек данных (DLP) 28
1.3 Выводы 32
2 Моделирование поведения пользователя 34
2.1 Модель представления «мешок слов» 36
2.1.1 Предварительная обработка текста 36
2.1.2 Вычисление весовых коэффициентов термов 37
2.2 Тематическое представление документов 38
2.2.1 Сингулярное разложение матрицы (SVD) 40
2.2.2 Неотрицательная матричная факторизация (NMF) 41
2.2.3 Ортонормированная неотрицательная матричная факторизация (ONMF) 2.3 Построение и применение тематической модели поведения пользователя 43
2.4 Удаление информационного шума из документа 2.4.1 Методы на основе сингулярного разложения 47
2.4.2 Методы на основе неотрицательной матричной факторизации 47
2.4.3 Экспериментальное исследование 49
2.5 Выводы 53
3 Методы обнаружения аномального поведения пользователя 54
3.1 Базовый сценарий проведения экспериментальных исследований 56
3.2 Прогнозирование тематической направленности пользователя
3.2.1 Методы прогнозирования временных рядов 61
3.2.2 Экспериментальные исследования 66
3.3 Оценка принадлежности документа к характерным тематикам пользователя 72
3.3.1 Формирование экспериментальных данных 75
3.3.2 Экспериментальное исследование метода обнаружения аномального поведения пользователя 77
3.3.3 Экспериментальное исследование применения метода удаления информационного шума 79
3.4 Выводы 82
4 Программная реализация экспериментального образца программного комплекса 83
4.1 Сценарии функционирования 83
4.1.1 Сбор поведенческой информации 83
4.1.2 Построение индивидуальных поведенческих моделей 85
4.1.3 Применение индивидуальных поведенческих моделей 85
4.2 Программная реализация 86
4.2.1 Архитектура системы 87
4.2.2 DCOM-объект анализа поведенческой информации 89
4.2.3 Агент мониторинга поведенческой информации 94
4.2.4 Модуль консолидации поведенческой информации 107
4.2.5 Автоматизированное рабочее место 107
4.3 Оценка производительности 119
4.3.1 Оценка производительности агента мониторинга 120
4.3.2 Оценка производительности методов обнаружения аномального поведения пользователя 1 4.4 Апробация экспериментальной системы 126
4.5 Выводы
5 Заключение 129
6 Список литературы 131


