ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Глава 1. Современное состояние методов и средств обработки и
структуризации библиографических записей (БЗ) . . . . . . . . . 13
1.1 Структура основных представлений БЗ . . . . . . . . . . . 14
1.1.1 Логические структурные элементы БЗ . . . . . . . 14
1.1.2 Распространенные стандарты представления БЗ . . 17
1.1.3 Машиночитаемые форматы БЗ . . . . . . . . . . . 22
1.2 Основные функциональные возможности программных
средств классификации БЗ . . . . . . . . . . . . . . . . . . 27
1.3 Анализ основных параметров, достоинств и недостатков
современных программных средств классификации БЗ . . 29
1.4 Исследование современных методов классификации БЗ . . 31
1.4.1 Применение регулярных выражений для решения
задачи классификации БЗ . . . . . . . . . . . . . . 31
1.4.2 Машинное обучение в задаче классификации БЗ . 36
1.4.3 Применение нейронных сетей при решении задачи
классификации БЗ . . . . . . . . . . . . . . . . . . 39
1.4.4 Графовые модели в задаче классификации БЗ . . . 42
1.5 Постановка цели и задач диссертационных исследований . 57
Выводы к главе 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Глава 2. Разработка методики и алгоритма классификации БЗ на
основе условно-случайных полей . . . . . . . . . . . . . . . . . . . 60
2.1 Формализация задачи классификации БЗ . . . . . . . . . 60
2.1.1 Логистическая регрессия как основа условно-случайных
полей . . . . . . . . . . . . . . . . . . . . . 60
2.1.2 Логарифмически-линейные модели . . . . . . . . . 65
2.1.3 Функции признаков в логарифмически-линейных
моделях . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.4 Метод условно-случайных полей . . . . . . . . . . . 67
2.1.5 Формализованное представление задачи классификации
БЗ на основе условно-случайных полей . . . 72
2.2 Разработка методики классификации БЗ . . . . . . . . . . 73
2
2.2.1 Подбор данных для обучения модели . . . . . . . . 73
2.2.2 Подготовка и нормализация данных . . . . . . . . 74
2.2.3 Разработка признакового представления и обучение
модели . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.2.4 Проверка адекватности обучения модели . . . . . . 84
2.2.5 Использование обученной модели . . . . . . . . . . 88
2.2.6 Методика классификации библиографических записей
на основе условно-случайных полей . . . . . . . 88
2.3 Разработка алгоритма классификации библиографических
записей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.3.1 Предварительная обработка данных . . . . . . . . . 89
2.3.2 Вычисление функций признакового представления 89
2.3.3 Классификация с помощью обученной модели . . . 90
2.3.4 Группировка классов библиографических записей . 92
2.3.5 Алгоритм классификации библиографических записей
на основе условно-случайных полей . . . . . 92
Выводы к главе 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Глава 3. Разработка программного комплекса обработки и структуризации
библиографических записей . . . . . . . . . . . . . . . 95
3.1 Программная реализация алгоритма и методики классификации
библиографических записей . . . . . . . . . . . . . . 95
3.1.1 Разработка архитектуры программного комплекса 95
3.1.2 Структура входных и выходных данных . . . . . . 100
3.2 Разработка и программная реализация нереляционной базы
данных . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.3 Разработка и программная реализация дополнительного
модуля отбора функций признаков . . . . . . . . . . . . . 106
3.4 Разработка протокола межкомпьютерного взаимодействия 111
Выводы к главе 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Глава 4. Оценка эффективности разработанных методики и алгоритма
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.1 Оценка эффективности методики классификации библиографических
записей . . . . . . . . . . . . . . . . . . . . . 115
3
4.1.1 Оценка точности, полноты и


