Разработка и исследование алгоритмов сравнения стилей текстовых произведений

Шевелев Олег Геннадьевич. Разработка и исследование алгоритмов сравнения стилей текстовых произведений : Дис. ... канд. техн. наук : 05.13.18 Томск, 2006 176 с. РГБ ОД, 61:06-5/1882
Автор
Шевелев Олег Геннадьевич
Год
2006
  • 99 000 UZS

Оглавление диссертации
Введение
1. Обзор методов и программ количественного анализа текстов и постановка задач исследований и разработок 10
1.1. Проверка текстов на близость стилей или однородность по стилю 10
1.2. Кластеризация текстов 14
1.3. Классификация текстов 18
1.4. Программные продукты 27
1.5. Постановка задач исследований и разработок 32
2. Методы и алгоритмы сравнения стилей текстов по частотным признакам 35
2.1. Сравнение стилей текстов по частотам появления признаков на основе статистических критериев 35
2.1.1. Гипергеометрический критерий (двусторонний точный критерий Фишера) 35
2.1.2. Критерий хи-квадрат 37
2.1.3. Сравнение распределений по критерию хи-квадрат 39
2.1.4. Метод кластеризации текстов по частотным признакам 39
2.1.5. Примеры анализа текстов 42
2.2. Классификация текстов с помощью деревьев решений 45
2.2.1. Алгоритм построения дерева решений 46
2.2.2. Оверфиттинг и отсечение 48
2.2.3. Классификация по авторству. Влияние объемов фрагментов 50
2.2.4. Классификация по авторству. Влияние порога отсечения 59
2.2.5. Классификация по жанровым типам 62
2.2.6. Классификация по источникам газет 66
2.2.7. Оценка информативности признаков 68
2.3. Классификация текстов с помощью метода Хмелева и его модификаций 72
2.3.1. Проверка марковости текстов 73
2.3.2. Мера Хмелева и альтернативные ей меры 80
2.3.3. Классификация по авторству. Влияние объема фрагментов 82
2.3.4. Классификация по жанровым типам 92
2.3.5. Классификация по источникам газет 96
2.4. Классификация текстов с помощью нейронных сетей прямого распространения 100
2.4.1. Нормализация данных 101
2.4.2. Алгоритм обучения 102
2.4.3. Классификация по авторству. Вычислительные эксперименты 104
2.5. Сравнение рассмотренных методов классификации 112
2.6. Выводы 116
3. Инструментарий анализа стилей текстов «СтилеАнализатор» 120
3.1. Язык задания частотных признаков 120
3.1.1. Схема извлечения частотных признаков текстов 121
3.1.2. Формат запроса. Язык задания частотных признаков 124
3.1.3. Устройство интерпретатора языка 128
3.2. Общая схема количественного анализа текстов в программе «СтилеАнализатор» 135
3.3. Работа с вертикальным текстом 137
3.4. Предварительная обработка текстов 140
3.5. Извлечение частотных признаков текстов 140
3.5.1. Пользовательский интерфейс 141
3.5.2. Привязка количественных данных к фрагментам текстов 143
3.6. Предварительная обработка количественных данных 144
3.7. Анализ частотных данных 146
3.8. Выводы 150
Заключение 151
Список использованной литературы

Рекомендуем вам товары

99 000 UZS
Автор
Чистяков Сергей Павлович
Количество страниц
Год
2006
99 000 UZS
Автор
Хлопин Сергей Владимирович
Количество страниц
Год
2006
99 000 UZS
Автор
Шерменева Мария Александровна
Количество страниц
Год
2006
99 000 UZS
Автор
Чекал Елена Георгиевна
Количество страниц
Год
2006
99 000 UZS
Автор
Шлюпкин Александр Сергеевич
Количество страниц
Год
2006
Модули для Opencart 2, Опенкарт 3