Введение
1. Проблема структурного анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур 15
1.1. Роль и место рассматриваемой проблемы и ее значение в сфере информационно-телекоммуникационных систем 15
1.1.1. Задачи анализа и обработки текстовых данных 16
1.1.2 Системы анализа и обработки текстовых данных 22
1.2. Сравнительный анализ известных работ в области анализа, моделирования и синтеза текстовых структур . 28
1.2.1. Интеллектуальный анализ текстов (Text Mining) 28
1.2.2. Компьютерная лингвистика. Статистические методы обработки текстов 34
1.2.3. Компьютерная лингвистика. Семантический анализ текстов. Онтологии. 36
1.2.4. Информационный поиск 41
1.2.5. Анализ и обработка текстовых данных в интеллектуальных системах 42
1.2.6. Специальные прикладные аспекты анализа и обработки текстов 43
1.3. Обоснование нового обобщенного подхода к решению проблемы структурного
анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур. 59
1.3.1. Задачи классификации 59
1.3.2. Задачи кластеризации 61
1.3.3. Задачи идентификации 64
1.4. Выводы к главе 1 70
2. Текстовые структуры и их анализ 71
2.1. Текст как система 71
2.1.1. Основные понятия и определения 71
2.1.2. Структурно-иерархические модели текста 79
2.1.3. Вероятностные модели текстов 83
2.1.4. Модели текстов на основе статистической лексикографии
2.2.1. Потоковое представление текста 95
2.2.2. Информационные модели текста 98
2.3. Текст как многомерный объект 105
2.3.1. Многомерная модель текстов 105
2.3.2. Структурные инварианты текстов 109
2.4. Выводы к главе 2 113
3. Основные теоретические положения моделирования текстовых структур 114
3.1. Концепция скрытых параметров 114
3.1.1. Предпосылки к концепции скрытых параметров 114
3.1.2. Формирование концепции скрытых параметров 117
3.2. Принципы моделирования и анализа текстовых структур 120
3.2.1. Принцип снижения размерности 120
3.2.2. Принцип нечеткости 127
3.2.3. Принцип обучающихся систем 133
3.2.4. Обобщающий принцип, основанный на концепции скрытых параметров 139
3.3. Выводы к главе 3 145
4. Оптимизация алгоритмов синтеза текстовых структур 146
4.1. Параметрический синтез текстовых структур 146
4.1.1. Классификация текстовых структур как аспект параметрического синтеза 147
4.1.2. Алгоритмы классификации текстовых данных 155
4.2. Непараметрический синтез текстовых структур 164
4.2.1. Кластеризация текстовых структур как аспект непараметрического синтеза 164
4.2.2. Колмогоровская сложность. Количественная мера подобия текстов 168
4.2.3. Алгоритмы кластеризации текстовых данных 174
4.3. Информационный синтез текстовых структур 190
4.3.1. Количественная мера взаимной информации 191
4.3.2. Алгоритмы идентификации текстовых данных
4.4.1. Особенности анализа и обработки текстов разной природы 202
4.4.2. Процедура выбора моделей и алгоритмов синтеза текстовых структур 209 4.5. Выводы к главе 4 219
5. Практическая реализация результатов работы 220
5.1. Практическая реализация общетеоретических положений 220
5.1.1. «Кластеризация слабоструктурированных данных» 220
5.1.2. Методика «Кластеризация потоковых данных » 221
5.1.3. Методика «Анализ текстов исходных кодов программ» 226
5.1.4. Описание структуры библиотеки программ «Моделирование текстовых структур» и принципов работы с ней 229
5.2 Практическая реализация результатов работы 237
5.2.1. Идентификация текстов исходных кодов программ 237
5.2.2. Иерархическая кластеризация текстовых данных 243
5.2.3. Классификация текстовых данных
5.3. Перспективы развития теоретических и практических результатов работы 265
5.4. Выводы к главе 5 2 6.
Заключение 268
7. Список сокращений и условных обозначений 270
8. Список литературы 271


