Введение
1 Модели и методы идентификации веб-сообществ 15
1.1 Основные задачи, решаемые современными информационно-поисковыми системами 15
1.2 Анализ гиперссылочной структуры Сети 23
1.2.1 Концентраторы (hubs) и авторитеты (authorities) 23
1.2.2 Цитируемость и степенной закон распределения гиперссылок 24
1.2.3 Анализ веб-графа на наличие организованных структур 26
1.2.4 Комплексные методы и алгоритмы учёта цитируемости: HITS и PageRank 30
1.3 Потоковые методы идентификации веб-сообществ 35
1.3.1 Метод FLG 36
1.3.2 Модифицированный поиск веб-сообществ на базе метода FLG с настраиваемыми ёмкостями рёбер 44
ВЫВОДЫ ПО ГЛАВЕ 53
2 Разработка моделей и совершенствование методов эффективной идентификации веб-сообществ 55
2.1 Модель имитации веб-графа и алгоритм машинной генерации искусственного веб-графа 55
2.1.1 Модель имитации веб-фафа на основе принципа хронологического возникновения ресурсов 56
2.1.2 Анализ искусственно сгенерированных веб-фафов и их применение для исследований Сети 66
2.2 Типизация веб-фафов и оценка достижимости узлов 71
2.2.1 Типизация веб-фафов 71
2.2.2 Оценка достижимости узлов 75
2.3 Многоэтапная процедура идентификации веб-сообществ на основе сильно связанных компонент и контентного анализа 78
2.4 Алгоритм автоматической численной оценки качества веб-сообществ84
Выводы по главе
3 Принципы построения алгоритмов и программного обеспечения для обработки информации в интересах исследования процессов самоорганизации в сети 92
3.1 Общая структура разработанного программного комплекса для обработки данных при решении задачи информационного поиска и выявления веб-сообществ 92
3.1.1 Программные модули, реконструирующие (или генерирующие) веб-граф 96
3.1.2 Программные модули, преобразующие веб-граф 98
3.1.3 Программные модули, обрабатывающие веб-граф 100
3.1.4 Вспомогательные программные модули 104
3.2 Используемые структуры данных 105
3.2.1 Формат хранения данных веб-графа в файловой системе 105
3.2.2 Размещение веб-графа в оперативной памяти 106
3.3 Алгоритмы обработки веб-графа 109
3.3.1 Алгоритм генерации искусственного веб-графа 109
3.3.2 Алгоритм поиска максимального потока минимальной стоимости ПО
3.3.3 Алгоритм поиска связанных компонент 112
ВЫВОДЫ ПО ГЛАВЕ 113
4 Экспериментальные исследования веб-графа и веб-сообществ 116
4.1 Анализ алгоритмов идентификации веб-сообществ на основе метода FLG для различных типов веб-графов 116
4.2 Результаты экспериментальных исследований при идентификации веб-сообществ на основе разработанной многоэтапной процедуры 119
4.2.1 Оценка эффективности разработанной многоэтапной процедуры идентификации веб-сообществ 119
4.2.2 Сравнительный анализ разработанной многоэтапной процедуры идентификации веб-сообществ и метода FLG 125
4.3 Экспериментальные исследования алгоритма автоматической численной оценки качества веб-сообществ 128
4.4 Исследование Мобильного Интернета 132
4.5 Применение разработанных алгоритмов обработки информации в информационно-поисковых системах 139
4.5.1 Уточнение результатов поиска 139
4.5.2 Автоматическое пополнение и оценка веб-каталогов 145
4.5.3 Интеграция в вертикальные информационно-поисковые системы 147
Выводы по главе 150
Заключение 153
Литература


