Введение
Глава 1 Исследование и анализ методов и систем обработки текстовой информации и информационного поиска 13
1.1 Исследование математических методов статистической обработки текстов 14
1.1.1 Признаки в задачах статистической обработки текстов 14
1.1.2 Методы классификации текстов 21
1.1.3 Методы информационного поиска текстовых документов 27
1.1.4 Методы автоматической генерации запросов к ИПС 29
1.2 Анализ программных средств информационного поиска и сбора информации в сети Интернет 31
1.2.1 ИПС Интернет 32
1.2.2 Интернет-каталоги 37
1.2.3 Метапоисковые системы 38
1.2.4 Индивидуальные поисковые агенты 39
1.2.5 Системы Интернет-мониторинга 44
Постановка задачи исследования 48
Выводы 50
Глава 2 Разработка моделей и методов получения и обработки документов 51
2.1 Разработка модели информационной потребности при решении задачи информационного поиска 53
2.1.1 Использование разделяющих гиперплоскостей при моделировании информационной потребности 54
2.1.2 Пополнение знаний при помощи инкрементной модификации алгоритма SVM 57
2.1.3 Представление категорий в виде иерархии 61
2.2 Разработка модели контекстного представления документов 63
2.3 Разработка метода формирования множества понятий предметной области 68
2.4 Разработка метода классификации контекстных групп 73
2.5 Разработка метода контекстного поиска документов 78
2.6 Разработка метода автоматического формирования тематических
запросов к ИПС 79
Выводы 85
Глава 3 Разработка архитектуры системы автоматизированного сбора информации 86
3.1 Разработка программных компонентов системы и интерфейсов их взаимодействия 88
3.2 Модуль управления 90
3.3 Формирование потока документов 94
3.4 Модули сбора информации 97
3.4.1 Асинхронное взаимодействие модулей сбора информации 98
3.4.2 Модуль формирования поисковых задач 101
3.4.3 Модули формирования запросов 102
3.4.4 Модули поиска 104
3.4.5 Модули получения документов 105
3.4.6 Модуль обработки документов 107
3.4.7 Модули сохранения документов ПО
3.5 Модули вычислений 111
3.5.1 Модуль уточнения параметров SVM 111
3.5.2 Модуль обновления понятий предметной области 113
3.6 Модули пользовательских интерфейсов 113
3.6.1 Интерфейс администратора 114
3.6.2 Главный интерфейс системы 115
3.7 Организация хранения данных 115
3.7.1 Главная база данных 116
3.7.2 Подчиненные базы данных 119
Выводы 123
Глава 4 Практические аспекты реализации системы автоматизированного сбора тематической информации 124
4.1 Использование архитектуры DCOM для реализации программных компонентов системы 124
4.2 Реализация очередей и механизмов передачи данных 127
4.3 Разработка хранимых процедур для работы с данными 129
4.3.1 Хранимая процедура индексации 130
4.3.2 Хранимая процедура информационного поиска 131
4.4 Реализация алгоритмов обучения 134
4.5 Реализация обработки документов 140
4.6 Реализация пользовательских интерфейсов 141
4.7 Экспериментальная оценка аспектов функционирования системы сбора информации 146
Выводы 152
Заключение 154
Литература 158


