Метод классификации библиографической информации на основе комбинированных профилей классов с учетом структуры документов

Мохов Андрей Сергеевич. Метод классификации библиографической информации на основе комбинированных профилей классов с учетом структуры документов: диссертация ... кандидата Технических наук: 05.13.01 / Мохов Андрей Сергеевич;[Место защиты: ФГБОУ ВО Нижегородский государственный технический университет им. Р.Е. Алексеева], 2017.- 180 с.
Автор
Мохов Андрей Сергеевич
Год
2017
  • 99 000 UZS

Оглавление диссертации
Введение
ГЛАВА 1. Методы обработки и анализа двуязычной текстовой информации 16
1.1. Постановка задачи классификации текстовых документов 16
1.2. Библиографический двуязычный текстовый документ 22
1.3. Использование системного анализа для разработки методов обработки текстовой информации 25
1.4. Предварительная обработка текстовых данных 27
1.5. Модели представления документов 30
1.6. Математические модели представления двуязычных документов 31
1.7. Взвешивание терминов 34
1.7.1 Способы взвешивания терминов при статистическом подходе 35
1.7.2 Выявление информативных терминов на основе таблиц сопряженности 36
1.8. Способы оценки точности классификатора 37
1.9. Основные направления исследований в области поиска, обработки и анализа многоязычной информации 39
1.10. Cистематизация методов классификации многоязычной информации 41
1.11. Наивный байесовский классификатор 49
1.12. Метод опорных векторов 50
1.13. Метод ближайшего соседа 51
1.14. Профильные методы 52
1.15. Выводы по главе 53
ГЛАВА 2. Разработка алгоритмов комбинирования различных профилей и метода классификации с учетом структуры библиографических документов 54
2.1. Подходы к составлению профилей классов 54
2.1.1 Статистический подход выявления информативных терминов 55
2.1.2 Теоретико-информационный подход выявления информативных терминов 57
2.1.3 Эвристический подход 58
2.2. Обучение профильных методов и построение решающего правила 59
2.3. Анализ характерных особенностей профильных методов 61
2.4. Разработка новых алгоритмов классификации двуязычных документов 69
2.4.1 Алгоритм классификации двуязычных документов UNI1 70
2.4.2 Алгоритмы классификации двуязычных документов UNI2 и UNI3 72
2.4.3 Алгоритмы классификации двуязычных документов UNI4 и UNI5 75
2.4.4 Алгоритм классификации двуязычных документов UNI6 76
2.5. Способы учета структуры текстовых документов 78
2.5.1 Известные подходы поиска, обработки и анализа текстовых данных с учетом структуры документов 78
2.5.2 Разработка метода классификации с учетом структуры библиографических документов 80
2.6. Выводы по главе 86
ГЛАВА 3. Исследование алгоритмов UNI и метода Struct на двуязычных выборках 87
3.1. Формирование выборок двуязычных текстовых документов 87
3.2. Предварительная обработка текстовых данных 89
3.3. Настройка параметров методов 90
3.4. Анализ точности методов классификации на одноязычных и двуязычных выборках 95
3.5. Исследование новых профильных методов 97
3.5.1 Непараметрический критерий Уилкоксона 100
3.6. Выбор профилей для структурного метода Struct-1 101
3.6.1 Алгоритм метода классификации двуязычных библиографических документов Struct-1 105
3.7. Выбор профилей для структурного метода Struct-2 105
3.7.1 Алгоритм классификации двуязычных библиографических документов Struct-2 106
3.7.2 Процедура настройки весовых коэффициентов для метода Struct-2 107
3.7.3 Результаты настройки весовых коэффициентов 109
3.8. Исследование разработанных методов на дополнительных контрольных выборках 111
3.8.1 Исследование методов на контрольных выборках. 111
3.8.2 Исследование методов на выборках с большим числом классов 112
3.8.3 Исследование методов на выборках с классами разных размеров 113
3.9. Сравнение различных методов классификации по ресурсозатратности 114
3.10. Применение коллективов решающих правил для классификации двуязычных текстовых документов 118
3.11. Выводы по главе 123
ГЛАВА 4. Практическое применение разработанных методов 125
4.1. Обзор современных систем обработки текстовой информации 125
4.2. Программный комплекс TextCat 127
4.2.1 Методика использования ПК TextCat для построения высокоточных классификаторов 134
4.2.2 Использование TextCat для учебных целей 136
4.2.3 Применение ПК TextCat для решения прикладных задач 137
4.3. Модуль JournalFiltering 138
4.3.1 Основные этапы задачи мониторинга и фильтрации статей 139
4.3.2 Настройка порога отсечения статей, относящихся к документам «общей» тематики 140
4.4. Классификация статей и отчетов по НИР для ИПХФ РАН 143
4.4.1 Результаты классификации статей 146
4.4.2 Выявление и удаление полных дубликатов в БД ИПХФ РАН 147
4.5. Обобщение результатов исследований 148
4.6. Выводы 149
Заключение 151
Обозначения 154
Список литературы 155

Рекомендуем вам товары

99 000 UZS
Автор
Мохаммед Мамдух Мохаммед Гомаа
Количество страниц
Год
2017
99 000 UZS
Автор
Муртазов Андрей Константинович
Количество страниц
Год
2017
99 000 UZS
Автор
Назмутдинова Айгуль Илсуровна
Количество страниц
Год
2017
Модули для Opencart 2, Опенкарт 3