Введение
ГЛАВА 1. Актуальные задачи интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга 10
1.1. Развитие процессов интеграции в неоднородных информационных системах ... 10
1.2. Холдинг как организационно-производственная структура на современном металлургическом рынке 14
1.3. Проблемы построения системы управления нормативно-справочной информацией металлургического холдинга 16
1.4. Характеристика полнотекстового документооборота на металлургическом предприятии 21
1.5. Интеграция данных при создании КИС 23
1.6. Проблемы интеграции разнородных данных 24
1.7. Интеграция данных приложений : 26
1.8. Решение проблем интеграции данных на основе федеративных хранилищ данных 29
1.9. Управление неоднородным контентом в системе корпоративного документооборота 36
1.10. MDM системы 37
1.10.1. Типы MDM-систем 40
1.10.2. Зарубежные системы MDM-класса 41
1.10.3. Отечественные системы MDM-класса . 45
1.10.4. Сертификация данных на соответствие ISO 8000 48
1.11. Корпоративная поисковая система и ее предназначение 52
1.12. Современные подходы к автоматической классификации текстов 53
1.13. Анализ методов построения мер близости текстовых реквизитов 54
1.13.1. Принцип оптимальности в задаче динамического программирования 54
1.13.2. Понятие редакционного расстояния между двумя строками 56
1.13.3. Метод выравнивания строк vs редакционного предписания 57
1.13.4. Алгоритмы анализа строк 57
1.14. Модели оптимизации, построенные на эволюционных принципах 62
1.15. Генетические алгоритм и его особенности 63
1.16. Выводы 66
ГЛАВА 2. Методы и модели интеграции, улучшения качества и координации данных в неоднородных системах 68
2.1. Выявление двойников в справочных информационных массивах металлургического холдинга 68
2.1.1. Проблемная постановка задачи 68
2.1.2. Содержательная постановка задачи 69
2.1.3. Математическая постановка задачи 71
2.1.4. Метод вычисления минимального редакционного расстояния 73
2.1.5. Методы решения с использованием N-грамм 75
2.1.6. Формальный синтаксический анализ 79
2.1.7. Алгоритм построения модели с учетом формального синтаксического анализа 80
2.1.8. Задача принятия решений и обучение алгоритма 84
2.1.9. Алгоритм определения коэффициентов сходства строк 88
2.1.10. Проверка адекватности построенной модели 89
2.1.11. Результаты работы программы 91
2.2. Задача классификации документов в MDM-системе холдинга 95
2.2.1. Проблема классификации текстов в СЭД 95
2.2.2. Общая постановка задачи классификации 96
2.2.3. Технология классификации по методу Rubryx 97
2.2.4. Описание коллекции Reuters-21578 101
2.2.5. Поиск оптимальных значений весовых коэффициентов wl, w2, w3. для меры близости по методу Rubryx 104
2.3. Решение задачи выбора весовых коэффициентов с использованием генетических алгоритмов 111
2.3.1. Исходная постановка 111
2.3.2. Описание модификации генетического алгоритма 111
2.3.2.1. Методы отбора 112
2.3.2.2. Кроссинговер и мутация 115
2.3.3. Программное обеспечение 117
2.3.4. Описание основных модулей программы 117
2.3.5. Пользовательский интерфейс 117
2.4. Выводы 120
ГЛАВА 3. Практическая реализация модели расчета сводного коэффициента релевантности при решении задач повышения качества основных данных в металлургическом холдинге 122
3.1. Описание проблемной ситуации 122
3.2. Содержательная постановка задачи 122
3.3. Автоматизированное рабочее место «Контроль контрагентов» 123
3.3.1. Основные функции АРМ «Контроль контрагентов 123
3.3.2. Поисковая система АРМ «Контроль контрагентов» 124
3.3.3. Организация системы поиска 125
3.3.4. Варианты поиска 127
3.3.4.1. Точный поиск (LIKE-поиск) 127.
3.3.4.2. НОМ-поиск 129
3.3.4.3. Особенности НОМ-поиска. Ранг и коэффициент релевантности 131
3.3.4.4. Особенности НОМ-поиска. Вспомогательные справочники 134
3.3.5. Сценарий автоматического поиска двойников в АРМ «Контроль контрагентов» 137
3.3.6. Ручной поиск двойников в АРМ «Контроль контрагентов» 139
3.3.7. Методология работы АРМ «Контроль контрагентов» 143
3.4. Результат доработки АРМ «Контроль контрагентов» 144
3.5. Программный комплекс «Брэдфорд» 147
3.6. Выводы 148
Заключение 149
Список литературы 151
Список сокращений 164
Приложения 167


