Введение
1.1 Актуальность темы 3
1.2 Цель и задачи работы 3
1.3 Научная новизна 4
1.4 Практическая значимость 4
1.5 Апробация работы и публикации 5
1.6 Структура работы 5
1.7 Краткое содержание работы б
17.1 Предметная область 6
17.2 Предлагаемые решения 7
1.7.3 Обсуждение результатов 13
1.8 Основные выводы и результаты исследования 14
1.9 Список работ опубликованных по теме диссертации 15
2 Предметная область 16
2.1 Практическая значимость 16
2.2 Основные принципы анализа 19
2.3 Сбор информации 21
2.3.1 Сбор данных на уровне клиента 21
2.3.2 Сбор данных на уровне прокси-сервера 22
2.3.3 Сбор данных на узлах сети 22
2.3.4 Сбор данных на уровне сервера 23
2.3.5 Ограничения в сборе данных 24
2.4 Подготовка данных 25
2.5 Статистический анализ 25
2.6 Визуализация данных 27
2.7 Поиск ассоциативных правил и частых последовательностей 29
2.8 Алгоритмы кластеризации 31
2.9 Кластеризация пользовательских сессий 32
2.10 Верификация результатов анализа 35
2.11 Заключение 38
3 Предлагаемая методика 40
3.1 Выбор оптимальной метрики 41
3.1.1 Метрика Манхэттена 42
3.1.2 Метрика Левенштейна, Модификации метрики 42
3.1.3 Предлагаемая метрика 43
3.2 Выделение выбросов 45
3.3 Определение оптимального распределения 46
3.4 Структура прототипа 49
3.5 Модуль очистки данных 51
3.6 Модуль выделения сессий доступа 52
3.7 Модуль кластеризации 54
3.8 Модуль поиска ассоциативных правил 57
3.9 Выводы 59
4 Результаты и обсуждение 60
4.1 Тестовый набор , 60
4.2 Результаты кластеризации 61
4.2.1 Распределение пользователей по кластерам 62
4.2.2 Распределение страниц по кластерам 63
4.2.3 Распределение каталогов го кластерам 63
4.2.4 Распределение сессий различной длины по кластерам 65
4.2.5 Внутри кластерное и межкластерное расстояния бб
4.2.6 Количество выбросов 67
4.2.7 Ассоциативные правила 67
4.3 Сравнительный анализ предлагаемых методов 67
4.4 Статистические индексы разбиения 68
4.5 Индексы, основанные на характеристической функции 69
4.6 Индекс на основании количества уникальных правил 70
4.7 Обсуждение результатов 74
4.7.1 Алгоритмы кластеризации 74
4.7.2 Метрики 75
4.7.3 Определение лучшего разбиения 76
5 Выводы 78
6 Библиография (69 наименований)


