Введение
ГЛАВА 1. Математические методы для выделения групп текстов 20
1 Использование кластерного анализа 20
1.1 Метод кластеризации 20
1.2 Метод иерархической кластеризации 21
1.3 Классификация на основе полученных кластеров 22
2 Методы для исследования переходов между составляющими единицами текста 23
2.1 Метод "сильного графа" 23
2.2 Метод подсчета отличий между матрицами переходов 25
3 Методы, основанные на проверке статистических гипотез 26
3.1 Общее распределение частей речи 28
3.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 500 слов 30
3.3 Общее распределение длины слова 31
3.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений 32
3.5 Общее распределение длины предложения 33
3.6 Лексический спектр текста на уровне словаря 33
3.7 Лексический спектр текста на уровне текста 34
3.8 Индекс разнообразия лексики 34
4 Метод, основанный на индуктивном построении классификаторов 35
4.1 Описание метода 35
5 Сравнение методов и их совместное применение 37
5.1 Комитеты классификаторов 38
5.2 Методика построения статистического критерия на основе классификатора 39
ЗАКЛЮЧЕНИЕ К ПЕРВОЙ ГЛАВЕ 42
ГЛАВА 2. Описание информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений 44
1 Цели и задачи разработки информационно-аналитической системы 44
1.1 Описание ПК "СМАЛТ". 44
1.2 Информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений47
2 Описание информационной системы 48
2.1 Организация и основные принципы работы информационно-аналитической системы 48
2.2 Описание архитектуры информационно-аналитической системы 51
2.3 Интерфейс пользователя 54
2.3 Описание модулей 57
2.4 Описание структуры базы данных 59
2.5 Описание использованного программного обеспечения 60
3 Описание спецификации на основе языка XML 61
3.1 Цели разработки спецификации 61
3.2 Описание спецификации на основе языка XML 62
3.3 Выводы и дальнейшее использование формата 66
Заключение ко второй главе 67
ГЛАВА 3. Результаты применения информационно-аналитической системы 68
1 Описание материала для исследования 68
2 Использование методов кластерного анализа 69
2.1 Метод кластеризации 71
2.2 Метод иерархической кластеризации 73
2.3 Дальнейшая обработка данных 74
2.4 Заключение 75
3 Использование методов для исследования переходов между составляющими единицами текста 76
3.1 Выбор характеристик для анализа 76
3.2 Построение "сильных графов" произведений и их анализ 77
3.3 Метод подсчета отличий между матрицами переходов синтаксических классов 81
3.4 Заключение 82
4 Использование методов, основанных на проверке статистических гипотез 83
4.1 Общее распределение частей речи на различных позициях предлооїсения 84
4.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 500 слов 87
4.3 Общее распределение длины слова 88
4.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений 91
4.5 Общее распределение длины предложения 92
4.6 Лексический спектр на уровне словаря и на уровне текста 92
4.7 Индекс разнообразия лексики 93
4.9 Заключение 94
5 Использование метода, основанного на индуктивном построении классификаторов 94
5.1 Рассматриваемые лингвостатистические характеристики 94
5.2 Формирование обучающей и тестовой выборок 97
5.3 Построение классификатора 98
5.4 Проверка гипотез об авторстве на основе построенного классификатора 100
5.5 Заключение 101
Заключение к третьей главе 102
Основные выводы и рекомендации 103
Список использованных источников


