Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей

Неелова, Наталия Валериевна. Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей : диссертация ... кандидата технических наук : 05.13.11 / Неелова Наталия Валериевна; [Место защиты: Тул. гос. ун-т].- Тула, 2011.- 168 с.: ил. РГБ ОД, 61 12-5/517
Автор
Неелова, Наталия Валериевна
Год
2011
  • 99 000 UZS

Оглавление диссертации
Введение
Глава 1. Проблема обнаружения и определения авторства схожих web-документов 14
1.1 Информационный поиск и задача распознавания дублей 14
1.2 Задача распознавания схожих документов 15
1.3 Определение понятия схожих документов 17
1.4 Источники схожих web-документов 18
1.5 Основные метрики подобия web-документов 20
1.6 Методы обнаружения схожих документов 22
1.7 Предварительная обработка документов 29
1.8 Варианты классификации поисковых запросов 30
1.9 Кластеризация и классификация документов 32
1.10 Структурно-семантическое разбиение 33
1.11 Борьба с плагиатом 34
1.12 Постановка задачи обнаружения дублей и выделения первичного web-документа 37
1.13 Выводы 38
Глава 2. Разработка модели оценки схожести документов и определения первичного документа в кластере дублей 40
2.1 Модель представления web-документов блоками 40
2.2 Модель классификации запросов и степень фильтрации дублей 43
2.3 Метод экспертных оценок для градации online фильтрации дублей 45
2.4 Метод определения дублей при online фильтрации 47
2.5 Методы offline фильтрации дублей 50
2.6 Структурная схема модели определения дублей 59
2.7 Методы оценки эффективности алгоритмов поиска дубликатов 60
2.8 Определение первичного документа в кластере web-дублей 61
2.9 Выводы 67
Глава 3. Алгоритмизация процессов детектирования web-дублей и определения первичного документа 68
3.1 Алгоритмы разбиения web-страниц на семантические блоки 68
3.2 Классификация запросов 71
3.3 Алгоритм градации при online фильтрации 77
3.4 Алгоритм определения дублей при online фильтрации 81
3.5 Алгоритмы для offline фильтрации 85
3.6 Алгоритмы определения первичного документа 98
3.7 Выводы 108
Глава 4. Программная реализация методов фильтрации дублей и определения первичного web-документа 110
4.1 Структура программного обеспечения 110
4.2 Программная реализация 112
4.3 Графический интерфейс 116
4.4 Последовательность работы с программой 123
4.5 Результаты практической апробации разработанных подходов 125
4.6 Выводы 136
Заключение 138
Литература 139
Приложение 1 155

Рекомендуем вам товары

99 000 UZS
Автор
Новиков, Сергей Владимирович
Количество страниц
Год
2011
99 000 UZS
Автор
Макарова Екатерина Сергеевна
Количество страниц
Год
2013
99 000 UZS
Автор
Новиков, Фёдор Александрович
Количество страниц
Год
2011
Модули для Opencart 2, Опенкарт 3