Модели и методы автоматической классификации текстовых документов

Шабанов Владислав Игоревич. Модели и методы автоматической классификации текстовых документов : Дис. ... канд. техн. наук : 05.13.11 : Москва, 2003 227 c. РГБ ОД, 61:04-5/2134
Автор
Шабанов Владислав Игоревич
Год
2003
  • 99 000 UZS

Оглавление диссертации
Введение
1. Постановка задачи 11
1.1. Формулировки задач классификации и распознавания образов 11
1.2. Методы оценки эффективности системы классификации текстов... 15
1.2.1. Определение меры эффективности классификации 17
1.2.2. Возможные виды меры эффективности классификации 19
1.2.3. Тестовые наборы 22
1.3. Анализ требований, предъявляемых к обучающим выборкам 23
1.4. Жизненный цикл системы автоматической классификации 25
2. Обзор методов распознавания образов и классификации 29
2.1. Основные группы методов распознавания и классификации 29
2.1.1. Предъявление обучающего множества 30
2.1.2. Варианты описаний объектов 31
2.1.3. Правила классификации 34
2.2. Математические модели для одноуровневых рубрикаторов 36
2.2.1. Классификаторы, основанные на правиле Байеса 37
2.2.2. Сжатие словаря терминов байесовского классификатора 41
2.2.3. Метод максимизации энтропии 42
2.2.4. Классификация методом поиска К-ближайших соседей (kNN) 48
2.2.5. Метод центроид 51
2.2.6. Нейронные сети 52
2.2.7. Ассоциативные сети 56
2.3. Математические модели для иерархических рубрикаторов 59
2.3.1. Метод вложенных классификаторов 59
2.3.2. Метод стягивания параметров классификатора 60
2.4. Учет гиперссылок 63
2.5. Сравнение методов классификации 69
3. Математическая модель автоматического классификатора текстовых документов 74
3.1. Математическая модель представления текстового документа 74
3.1.1. Выбор вида терминов 74
3.1.2. Выбор методы сопоставления терминов 76
3.1.3. Критерии выбора вида терминов и функции нормализации... 78
3.1.4. Алгоритм приближенного выделения словосочетаний 81
3.2. Математические модели для оценки значимости терминов 88
3.2.1. Собственная (морфологическая) значимость терминов 89
3.2.2. Контекстная значимость терминов 92
3.2.3. Статистическая значимость терминов 98
3.2.4. Вычисление значимости выделенных из текста дат, денежных сумм и т. д 101
3.3. Математическая модель документов и рубрик, метод классификации 102
3.3.1. Модель семантического образа рубрики 104
3.3.2. Модель классифицируемого документа 105
3.3.3. Метод классификации, основанный на полнотекстовом поиске 107
3.4. Математическая модель документов обучающей выборки, метод обучения 112
3.4.1. Формирование семантических образов рубрик одного уровня иерархии 116
3.4.2. Вычисление пороговых весов терминов и рубрик 119
3.5. Детальное описание алгоритма обучения классификатора 122
3.5.1. Структура базы данных системы автоматической классификации 122
3.5.2. Алгоритм обучения классификатора 126
3.5.3. Вычисление весов терминов 135
3.5.4. Формирование оптимального покрытия 136
3.5.5. Формирование семантических образов рубрик 138
3.6. Структура программного комплекса 145
4. Автоматическое выявление ассоциативных связей между словами и словосочетаниями 149
4.1. Метод построения ассоциативных связей 149
4.1.1. Виды ассоциаций 150
4.1.2. Автоматический показ ассоциативных запросов 150
4.1.3. Алгоритм формирования ассоциативных связей 151
4.2. Расширение семантических образов рубрик ассоциативными терминами 153
4.3. Дальнейшее развитие метода 157
5. Автоматическое распознавание текстовых метаконструкции 158
5.1. Структура системы распознавания 160
5.2. Алгоритм работы системы распознавания 163
5.2.1. Этапы обработки текста 163
5.2.2. Разбиение входного текста на фрагменты 166
5.2.3. Операции над распознанными конструкциями 166
5.2.4. Параметры, передаваемые процедурам обработки шаблонов 167
5.3. Алгоритм модификации очереди фрагментов шаблонами 168
5.4. Язык описания шаблонов 169
6. Результаты экспериментов 186
6.1. Описания тестовых наборов 189
6.2. Описание тестов и результаты 190
6.2.1. Влияние вида выделяемых из документа терминов на эффективность классификации 190
6.2.2. Вклад алгоритма сопоставления, использующего полнотекстовый поиск 193
6. 2.3. Вклад алгоритма расчета контекстной значимости 195
6.2.4. Эффективность классификации при увеличении объема обучающей выборки и ручной настройке 196
6.2.5. Использование ассоциативных связей для повышения качества классификации 198
6.2.6. Использование объектов для повышения качества классификации 199
6.2.7. Скорость обучения и классификации 200
6.3. Выводы 201
Заключение 202
Основные результаты 202
Направления дальнейшей работы 203
Литература 204
Приложения 215

Рекомендуем вам товары

99 000 UZS
Автор
Коренев Игорь Валерьевич
Количество страниц
Год
2002
99 000 UZS
Автор
Захарова Алена Александровна
Количество страниц
Год
2002
99 000 UZS
Автор
Леженко Анатолий Иванович
Количество страниц
Год
2002
99 000 UZS
Автор
Ли Хе Ран
Количество страниц
Год
2002
Модули для Opencart 2, Опенкарт 3