Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик

Суровцова Татьяна Геннадьевна. Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик : диссертация ... кандидата технических наук : 05.13.18 / Суровцова Татьяна Геннадьевна; [Место защиты: Петрозавод. гос. ун-т].- Петрозаводск, 2008.- 134 с.: ил. РГБ ОД, 61 09-5/572
Автор
Суровцова Татьяна Геннадьевна
Год
2008
  • 99 000 UZS

Оглавление диссертации
Введение
ГЛАВА 1. Математические методы для выделения групп текстов 20
1 Использование кластерного анализа 20
1.1 Метод кластеризации 20
1.2 Метод иерархической кластеризации 21
1.3 Классификация на основе полученных кластеров 22
2 Методы для исследования переходов между составляющими единицами текста 23
2.1 Метод "сильного графа" 23
2.2 Метод подсчета отличий между матрицами переходов 25
3 Методы, основанные на проверке статистических гипотез 26
3.1 Общее распределение частей речи 28
3.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 500 слов 30
3.3 Общее распределение длины слова 31
3.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений 32
3.5 Общее распределение длины предложения 33
3.6 Лексический спектр текста на уровне словаря 33
3.7 Лексический спектр текста на уровне текста 34
3.8 Индекс разнообразия лексики 34
4 Метод, основанный на индуктивном построении классификаторов 35
4.1 Описание метода 35
5 Сравнение методов и их совместное применение 37
5.1 Комитеты классификаторов 38
5.2 Методика построения статистического критерия на основе классификатора 39
ЗАКЛЮЧЕНИЕ К ПЕРВОЙ ГЛАВЕ 42
ГЛАВА 2. Описание информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений 44
1 Цели и задачи разработки информационно-аналитической системы 44
1.1 Описание ПК "СМАЛТ". 44
1.2 Информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений47
2 Описание информационной системы 48
2.1 Организация и основные принципы работы информационно-аналитической системы 48
2.2 Описание архитектуры информационно-аналитической системы 51
2.3 Интерфейс пользователя 54
2.3 Описание модулей 57
2.4 Описание структуры базы данных 59
2.5 Описание использованного программного обеспечения 60
3 Описание спецификации на основе языка XML 61
3.1 Цели разработки спецификации 61
3.2 Описание спецификации на основе языка XML 62
3.3 Выводы и дальнейшее использование формата 66
Заключение ко второй главе 67
ГЛАВА 3. Результаты применения информационно-аналитической системы 68
1 Описание материала для исследования 68
2 Использование методов кластерного анализа 69
2.1 Метод кластеризации 71
2.2 Метод иерархической кластеризации 73
2.3 Дальнейшая обработка данных 74
2.4 Заключение 75
3 Использование методов для исследования переходов между составляющими единицами текста 76
3.1 Выбор характеристик для анализа 76
3.2 Построение "сильных графов" произведений и их анализ 77
3.3 Метод подсчета отличий между матрицами переходов синтаксических классов 81
3.4 Заключение 82
4 Использование методов, основанных на проверке статистических гипотез 83
4.1 Общее распределение частей речи на различных позициях предлооїсения 84
4.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 500 слов 87
4.3 Общее распределение длины слова 88
4.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений 91
4.5 Общее распределение длины предложения 92
4.6 Лексический спектр на уровне словаря и на уровне текста 92
4.7 Индекс разнообразия лексики 93
4.9 Заключение 94
5 Использование метода, основанного на индуктивном построении классификаторов 94
5.1 Рассматриваемые лингвостатистические характеристики 94
5.2 Формирование обучающей и тестовой выборок 97
5.3 Построение классификатора 98
5.4 Проверка гипотез об авторстве на основе построенного классификатора 100
5.5 Заключение 101
Заключение к третьей главе 102
Основные выводы и рекомендации 103
Список использованных источников

Рекомендуем вам товары

99 000 UZS
Автор
Отоцкий Петр Леонидович
Количество страниц
Год
2008
99 000 UZS
Автор
Петров Олег Николаевич
Количество страниц
Год
2008
99 000 UZS
Автор
Петров Юрий Юрьевич
Количество страниц
Год
2008
Модули для Opencart 2, Опенкарт 3