Введение
Глава 1. Аналитический обзор современных методов автоматического анализа потоков текстовых сообщений. Постановка задачи 15
1.1 Современные методы информационного поиска 15
1.1.1 Метод информационного поиска на основе булевой алгебры 16
1.1.2 Оценка веса терминов в документе 16
1.1.3 Оценка схожести документов 19
1.2 Современные методы анализа потоков новостных сообщений 21
1.2.1 Современные средства представления и доставки потоков новостных сообщений в сети Интернет 22
1.2.2 Методы кластеризации потоков новостных сообщений 23
1.3 Лингвистические методы анализа текста 29
1.3.1 Методы синтаксического анализа основе экспертных знаний 36
1.3.2 Представление информации о языке на основе размеченных корпусов текстов 38
1.4 Методы синтаксического анализа на основе машинного обучения 39
1.4.1 Синтаксический анализ предложения с использованием алгоритма
максимальных остовных деревьев 40
1.4.2 Метод синтаксического анализа предложения на основе системы переходов 42
1.5 Постановка задачи диссертационного исследования 46
Глава 2. Разработка гибридного алгоритма синтаксического анализа 49
2.1 Алгоритм снятия морфологической омонимии для русского языка 50
2.2 Модификация алгоритма Ковингтона для задачи анализа потоков новостных сообщений 56
2.3 Дополнение модифицированного алгоритма Ковингтона априорной информацией, извлеченной из системы ЭТАП-3 60
2.4 Уточненная математическая модель признаков для синтаксического анализа русского языка 64
2.5 Краткие выводы 67
Глава 3. Разработка функциональной структуры комплекса и алгоритмов анализа потоков новостных сообщений 69
3.1 Математическая модель многоуровнего представления документа 69
3.2 Алгоритм кластеризации потоков новостных сообщений на модели признаков на основе обобщенной векторной модели документа 73
3.3 Базовые уровни представления новостного сообщения 77
3.4 Дополнительные уровни представления новостного сообщения на основе лингвистического анализа 79
3.5 Функциональная структура комплекса обработки новостных сообщений 83
3.5.1 Модуль первичного сбора и предварительной обработки новостей 85
3.5.2. Модуль индексирования 85
3.5.3 Модуль синтаксического анализа 87
3.5.4 Модуль кластеризации новостных сообщений 88
3.6 Краткие выводы 88
Глава 4. Экспериментальное исследование качества кластеризации потоков новостных сообщений и основных параметров синтаксического анализа 90
4.1 Задачи экспериментального исследования 90
4.2 Оценка качества снятия морфологической омонимии 90
4.3 Метрики оценки качества синтаксического анализа 93
4.4 Построение экспериментального корпуса новостных сообщений 96
4.5 Метрики оценки качества кластеризации новостных сообщений 97
4.6 Оценка качества кластеризации новостных сообщений 98
4.7 Оценка влияния различных уровней представления на точность и полноту кластеризации новостных сообщений 100
4.8 Экспериментальное определение зависимости точности и полноты кластеризации потоков новостных сообщений от точности синтаксического анализа 101
4.9 Вклад синтаксических групп в качество кластеризации новостных сообщений 103
4.10 Оценка влияния метрики расстояния именованных сущностей на качество кластеризации 104
4.11 Оценка влияния алгоритма кластеризации на качество кластеризации 105
4.12 Краткие выводы 106
Заключение 108
Библиография 113


