Исследование и разработка методов построения программных средств обнаружения текстового спама

Павлов, Антон Сергеевич. Исследование и разработка методов построения программных средств обнаружения текстового спама : диссертация ... кандидата физико-математических наук : 05.13.11 / Павлов Антон Сергеевич; [Место защиты: Моск. гос. ун-т им. М.В. Ломоносова].- Москва, 2011.- 133 с.: ил. РГБ ОД, 61 12-1/450
Автор
Павлов, Антон Сергеевич
Год
2011
  • 99 000 UZS

Оглавление диссертации
Введение
Глава 1. Анализ предметной области 11
1.1. Разновидности поискового спама 11
1.1.1. Текстовый спам 12
1.1.1.1. Генераторы текстов на основе цепей Маркова 14
1.1.2. Ссылочный спам 16
1.1.3. Техники маскировки поискового спама 18
1.2. Методы обнаружения поискового спама 20
1.2.1. Критерии оценки качества алгоритмов обнаружения поискового спама 21
1.2.1.1. Коллекция веб-страниц WebspamUK 24
1.2.2. Алгоритмы классификации 25
1.2.2.1. Алгоритм построения деревьев решений С4.5 26
1.2.2.2. Метод опорных векторов 28
1.2.2.3. Методы построения ансамбля классификаторов 31
1.2.3. Методы обнаружения текстового спама 32
1.2.3.1. Алгоритм обнаружения текстового спама на основе эвристик 32
1.2.3.2. Метод на основе анализа тематик текста, моделируемых с помощью скрытого распределения Дирихле 35
1.2.3.3. Алгоритм на основе обнаружения редких пар слов 40
1.2.4. Методы обнаружения ссылочного спама 42
1.2.4.1. Алгоритм Tгustrank 42
1.2.4.2. Алгоритм обнаружения ссылочных ферм 43
1.2.4.3. Алгоритм на основе комбинации ссылочных признаков 45
1.2.5. Методы обнаружения дубликатов 47
1.2.6. Комбинированные методы обнаружения поискового спама 49
1.2.6.1. Методы на основе объединения текстовых и ссылочных признаков 49
1.2.6.2. Алгоритм обнаружения продажных ссылок 50
1.3. Выводы к первой главе 52
Глава 2. Алгоритм обнаружения текстового спама на основе оценки разнообразия тематик документа 54
2.1. Модель массово порождаемых неестественных текстов 54
2.1.1. Обзор методов порождения неестественных текстов 56
2.1.1.1. Модель мешок слов 56
2.1.1.2. Генераторы на основе цепей Маркова 56
2.1.1.3. Метод на основе фрагментов текстов 58
2.1.1.4. Обобщенная модель генератора текстов на основе образцов 59
2.1.2. Тематическая структура текстов 66
2.1.3. Свойства тематической структуры порожденных текстов 67
2.2. Метод обнаружения неестественных текстов 68
2.2.1. Моделирование тематик с помощью модели скрытое распределение Дирихле (СРД) 68
2.2.2. Критерии обнаружения неестественных текстов 69
2.2.2.1. Нарушение тематической структуры текстов 69
2.2.2.2. Критерий Пирсона 71
2.2.2.3. Закон Ципфа для тематической структуры 73
2.3. Выводы ко второй главе 74
Глава 3. Комбинированный алгоритм обнаружения тексотвого спама 76
3.1. Метод на основе трудноконтролируемых характеристик текстов 76
3.1.1. Характеристики читаемости текста 78
3.1.2. Особенности жанра и авторского стиля 79
3.1.3. Глобальные статистические характеристики текстов 82
3.1.4. Характеристики тематического разнообразия текстов 85
3.2. Метод машинного обучения на основе деревьев решений 87
3.2.1. Построение базового классификатора 88
3.2.2. Построение ансамбля классификаторов 89
3.3. Выводы к третьей главе 91
Глава 4. Программная система классификации поискового спама 92
4.1. Архитектура системы обнаружения поискового спама 92
4.1.1. Сценарии использования системы 93
4.1.2. Основные модули системы 94
4.2. Экспериментальная оценка предложенного решения 100
4.2.1. Численное подтверждение модели массово порождаемых неестественных текстов 100
4.2.1.1. Методология исследования 101
4.2.1.2. Зависимость скорости сходимости от количества документов образцов 102
4.2.1.3. Зависимость скорости сходимости от количества слов в документе 103
4.2.1.4. Применимость критериев для различных генераторов на основе цепей Маркова 104
4.2.2. Эксперименты на модельных данных 108
4.2.2.1. Эксперимент по обнаружению текстов, порожденных различными генераторами дорвеев 109
4.2.2.2. Сравнение методов машинного обучения 110
4.2.2.3. Анализ качества предлагаемых характеристик 113
4.2.2.4. Устойчивость алгоритма обнаружения поискового спама 114
4.2.2.5. Применимость алгоритма для различных языков 116
4.2.3. Апробация предложенного решения на реальных данных 117
4.2.3.1. Эксперимент по обнаружению сиама в блогах 118
4.2.3.2. Эксперимент но обнаружению поискового спама на коллекции WebspamUK-2007 120
4.2.3.3. Сравнение эффективности предложенного решения с существующими аналогами 121
4.3. Выводы к четвертой главе 124
Заключение 125
Литература 126

Рекомендуем вам товары

99 000 UZS
Автор
Турсунбай кызы, Ырысгул
Количество страниц
Год
2011
99 000 UZS
Автор
Павлова, Елена Анатольевна
Количество страниц
Год
2011
99 000 UZS
Автор
Фам Ван Тап
Количество страниц
Год
2011
99 000 UZS
Автор
Целуйко Дмитрий Сергеевич
Количество страниц
Год
2023
99 000 UZS
Автор
Туркин, Андрей Владимирович
Количество страниц
Год
2011
Модули для Opencart 2, Опенкарт 3