Введение
1 Кластеризация и бикластеризация 16
1.1 Постановка задачи и основные определения 16
1.2 Типы данных 19
1.3 Типы бикластеров 19
1.4 Структура бикластеров 20
1.5 Алгоритмические стратегии поиска 21
1.6 Классификация методов бикластеризации 22
1.7 Программные средства бикластеризации 46
1.8 Прикладные задачи 49
1.9 Обсуждение 53
2 Прикладные задачи и их вычислительные модели 56
2.1 Поиск сходства текстовых документов с помощью частых замкнутых множеств признаков 56
2.1.1 Постановка задачи 56
2.1.2 Описание вычислительной модели 58
2.1.3 Методика оценки качества поиска 63
2.2 Анализ данных о посещаемости сайтов с помощью АФП 63
2.2.1 Постановка задачи и математическая модель 64
2.2.1.1 Пути решения и возникающие проблемы 65
2.2.1.2 Критерии отбора шумоустойчивых и релевантных понятиий 66
2.2.2 Методика оценки качества шумоустойчивых свойств способов отбора релевантных понятий 70
2.3 Формирование бикластеров для рекомендательной системы Интернет-рекламы 72
3 Разработка и исследование методов и алгоритмов бикластеризации на основе замкнутых множеств и их программная реализация 78
3.1 Ассоциативные правила в контексте бикластеризации 78 -
3.1.1 Ассоциативные правила: общий взгляд 78
3.1.2 Связь ассоциативных правил и бикластеризации 79
3.2 Связь опеределения бикластера в моделях бикластеризации для задач генной экспрессии и АФП 81
3.3 Алгоритм бикластеризации на основе объектных и признаковых замыканий 82
3.4 Эмпирический анализ эффективности алгоритма бикластеризации на основе объектных и признаковых замыканий 91
4 Машинные эксперименты и результаты 95
4.1 Поиск сходства Интернет-документов с помощью частых замкнутых
множеств признаков 95
4.1.1 Программная реализация и компьютерные эксперименты 98
4.1.1.1 Оценка результатов с точки зрения полноты и точности поиска 107
4.1.1.2 Сравнение результатов работы метода FPmax с результатами, полученными с помощью системы Cluto 108
4.1.2 Выводы и направления дальнейшей работы 112
4.2 Разработка и апробация системы поиска дубликатов в текстах проектной документации 113
4.2.1 Постановка задачи и актуальность 113
4.2.2 Описание системы 114
4.2.3 Методы поиска дубликатов 115
4.2.4 Реализация поиска дубликатов в системе 119
4.2.4.1 Проведение анализа документов в Системе 120
4.2.5 Подбор параметров и тестирование 121
4.2.6 Направления дальнейшей работы 124
4.3 Построение таксономии групп посетителей сайтов с помощью АФП . 126
4.3.1 Построение таксономии аудиторий веб-сайтов 126
4.3.2 Исследование шумоустойчивых свойств индексов отбора релевантных понятий 127
4.3.3 Выводы 131
4.4 Формирование бикластеров для рекомендательной системы Интернет-рекламы 133
Заключение 141
Литература 143


