Введение
Глава 1. Общая характеристика проблемы автоматической обработки входного потока текстовой информации и статистического анализа полученных результатов 11
1.1. Проблема автоматической классификации и статистического анализа 11
1.2. Развитие технологий обработки текстовой информации в МИД России 21
1.3. Общие требования к средствам автоматической классификации и статистического анализа входного потока текстовой информации 25
1.4. Показатели универсальности системы и основные требования к их реализации 27
1.5. Общая характеристика предлагаемой методики решения задачи автоматической классификации и статистического анализа входного потока текстовой информации 36
Глава 2. Методика автоматической классификации входного потока текстовой информации с применением конструктивных решений СПО «Автоклассификация» 45
Раздел 2.1. Принцип построения морфологического анализа в программе«Автоклассификация» 45
2.1.1. Программа «Автоклассификация». Основные понятия и допущения 45
2.1.2. Таблица классов слов 48
2.1.3. Таблица окончаний 49
2.1.4. Таблица особых условий 51
2.1.5. Таблица последних букв основ слов 52
2.1.6. Основные действия с кодами 52
2.1.7. Предварительный анализ слова словаря. Разбивка на основу и окончание 53
2.1.8. Определение возможной беглой гласной 56
2.1.9. Чередование согласных 58
2.1.10. Изменение буквы «Е» на «Ь» при склонении слов 59
2.1.11. Чередование смягчающей гласной - «И» 60
2.1.12. Проверка падежного согласования комбинаций 62
2.1.13. Полное сравнение слов 64
Раздел 2.2. Структура ключевых словосочетаний словарей. Принцип индексирования словарей 70
2.2.1. Основные понятия 70
2.2.2. Структура ключевых словосочетаний 71
2.2.3. Сведение поисковых запросов других поисковых систем к формату ключевых словосочетаний СПО «Автоклассификация». Дизъюнкивная нормальная форма запросов. Объяснение структуры ключевых словосочетаний СПО «Автоклассификация» 74
2.2.4. Комбинации «прилагательное + существительное» 81
2.2.5. Реестр комбинаций 83
2.2.6. Корректировка результата вхождения ключевого словосочетания в предложение при наличии комбинаций «прилагательное + существительное» 84
2.2.7. Алгоритм принятия решения о вхождении ключевого словосочетание в обрабатываемое предложение текста 86
2.2.8. Синтаксические правила ввода словосочетаний в СПО «Автоклассификация» 87
2.2.9. Построение и структура индексных файлов словаря 93
2.2.10. Поля, используемые в индексных файлах словаря 98
2.2.11. Некоторые особенности программы «Автоклассификация» по работе с классификаторами и словарями 102
Раздел 2.3. Обработка текстов и принятие решений о присвоении классов в СПО«Автоклассификация» 106
2.3.1. Основные понятия 106
2.3.2. Формат исходных данных и результатов обработки 107
2.3.3. Особенности построения текстовых файлов и параметры настроек 108
2.3.4. Обработка предложений 109
2.3.5. Определение численной характеристики (веса) вхождения ключевого словосочетания в текст 110
2.3.6. Основные параметры настроек, связанные с принятием решения 112
2.3.7. Общие и частные параметры настроек 114
2.3.8. Результаты автоматической обработки текстов 114
2.3.9. Перспективы использования программы «Автоклассификация» 116
ГЛАВА 3. Методика статистического анализа, формирования и ведения аналитических задач с применением конструктивных решений СПО «Судак» 119
Раздел 3.1. Постановка аналитической задачи, проведение предварительных расчетов статистических данных в процессе выполнения автоматической классификации СПО «Автоклассификация» 119
3.1.1. СПО «Судак». Основные функции и предназначение 119
3.1.2. Понятие аналитической задачи 120
3.1.3. Методика определения предварительных численных характеристик 122
3.1.4. Основные параметры настроек, связанные с определением веса класса 129
3.1.5. Использование предварительных результатов статистики для формирования статистических баз данных 130
Раздел 3.2. Формирование и ведение аналитических задач с применением конструктивных решений СПО «Судак» 132
3.2.1. Статистическая запись в базу. Принцип двойной записи 132
3.2.2. Построение статистической базы данных аналитической задачи 134
3.2.3. Учетная политика. Принцип ввода данных в статистическую базу данных 137
3.2.4. Физический смысл итоговых значений весов статистических записей по всем классам и по отдельно взятому классу 143
3.2.5. Таблица значимости классов 144
3.2.6. Форма представления данных статистического анализа 148
3.2.7. Анализ документов по их значимости 158
3.2.8. Методы автоматической идентификации событий 160
3.2.9. Абсолютные и относительные величины значимости классов 162
3.2.10. Уточнение результатов идентификации событий путем разбиения входной информации на потоки 169
3.2.11. Построение аналитических задач по трем определяющим классификаторам. Работа с промежуточным классификатором 171
3.2.12. Многоклассификаторные аналитические задачи 178
Заключение 185
Список литературы 188


