Методика и программный комплекс для идентификации автора неизвестного текста

Романов Александр Сергеевич. Методика и программный комплекс для идентификации автора неизвестного текста : диссертация ... кандидата технических наук : 05.13.18 / Романов Александр Сергеевич; [Место защиты: Том. гос. ун-т систем упр. и радиоэлектроники (ТУСУР) РАН].- Томск, 2010.- 149 с.: ил. РГБ ОД, 61 10-5/3015
Автор
Романов Александр Сергеевич
Год
2025
  • 99 000 UZS

Оглавление диссертации
Введение
1 Обзор подходов к идентификации автора неизвестного текста 15
1.1 Первые количественные методы 16
1.2 Методы статистического анализа 18
1.2.1 Статистические критерии 18
1.2.2 Методы теории информации 22
1.2.3 Метод накопительных сумм 26
1.2.4 Метод главных компонент и линейный дискриминантный анализ 28
1.3 Методы машинного обучения 30
1.3.1 Генетические алгоритмы 31
1.3.2 Метод к ближайших соседей 31
1.3.3 Деревья решений 32
1.3.4 Наивный байесовский классификатор 32
1.3.5 Искусственные нейронные сети 33
1.3.6 Машина опорных векторов 41
1.4 Сравнительный анализ методов идентификации автора 47
1.5 Выводы по главе 1 49
1.6 Постановка задач исследований и разработок 50
2 Методика идентификации автора неизвестного текста 52
2.1 Обобщенная методика идентификации автора текста и формирования модели авторского стиля 52
2.2 Модели представления текста в виде наборов признаков 55
2.2.1 Модель «Мешок слов» 55
2.2.2 yV-граммные модели 56
2.2.3 Сглаживающие модели 58
2.3 Анализ структуры и характеристик текста 62
2.3.1 Характеристики текста, использующиеся для идентификации автора 62
2.3.2 Модель иерархической структуры текста 63
2.4 Параметры классификаторов 66
2.5 Выводы по главе 2 67
3 Моделирование параметров авторского стиля 69
3.1 Общее описание экспериментов. Алгоритм проведения экспериментов 69
3.2 Влияние количества и частотности признаков на точность идентификации автора 71
3.3 Выбор типа ядрового преобразования машины опорных векторов 72
3.4 Исследование характеристик текста в случае двух альтернатив 72
3.5 Исследование характеристик текста в многоклассовых задачах 74
3.6 Сравнение времени обучения классификаторов 76
3.7 Исследование точности идентификации на основе сочетаний характеристик текста 77
3.8 Исследование техник сглаживания 78
3.9 Объединение полученных результатов. Использование ансамблей классификаторов 79
3.10 Решение практических задач на основе разработанной методики (результаты внедрения). Идентификация автора короткого электронного сообщения 81
3.10.1 Идентификация автора короткого электронного сообщения 81
3.10.2 Пример решения частной задачи идентификации автора 83
3.11 Рекомендации по практическому применению методики 85
3.12 Выводы по главе 3 87
4 Программный комплекс для идентификации автора письменной речи «Авторовед» 90
4.1 Структура программного комплекса 90
4.1.1 Подсистема сбора статистической информации 91
4.1.2 База данных для хранения текстов и их характеристик 92
4.1.3 Подсистема формирования файлов для исследований 95
4.1.4 Аналитическая подсистема 98
4.1.5 Подсистема представления результатов 100
4.2 Алгоритмическое обеспечение 101
4.2.1 Общий алгоритм работы подсистемы сбора статистической информации 101
4.2.2 Алгоритм автоматического определения кодировки текста 102
4.2.3 Алгоритм корректировки текста 103
4.2.4 Алгоритмы разбора текста 105
4.2.4.1 Алгоритмы определения границ предложения 105
4.2.4.2 Алгоритм разбора предложения 109
4.2.5 Алгоритм морфологического анализа 111
4.2.6 Алгоритмическое обеспечение Подсистемы формирования файлов 113
4.2.6.1 Алгоритм выполнения подготовленных запросов для извлечения характеристик текста из БД 113
4.2.6.2 Алгоритм формирования подготовленных для исследований файлов 114
4.3 Сравнение программного комплекса «Авторовед» с аналогами 116
4.3.1 Анализ программного обеспечения в области определения авторства текстов 116
4.3.2 Сравнение программного комплекса «Авторовед» с аналогами 124
4.4 Выводы по главе 4 126
Заключение 128
Список литературы 130

Рекомендуем вам товары

99 000 UZS
Автор
Русинов, Игорь Александрович
Количество страниц
Год
2010
99 000 UZS
Автор
Руднев Антон Сергеевич
Количество страниц
Год
2010
99 000 UZS
Автор
Селиванов, Константин Михайлович
Количество страниц
Год
2010
99 000 UZS
Автор
Селин, Илья Александрович
Количество страниц
Год
2010
Модули для Opencart 2, Опенкарт 3