Введение
Глава 1. Анализ существующих словарей и текстовых корпусов 15
1.1 Понятие корпуса 15
1.2 Типы корпусов 17
1.3 Конструирование и применение корпусов 19
1.3.1. Национальный корпус русского языка 19
1.3.2 Корпус ХАНКО 21
1.3.3. Корпус русского литературного языка 23
1.3.4. Открытый корпус OpenCorpora 24
1.4 Краткое сравнение корпусов 24
1.5 Область применения лингвистических корпусов 26
1.6 Построение корпуса СМАЛТ 29
1.6 1 Морфологическая разметка 30
1.6.2 Синтаксическая разметка 32
1.7 Лингвистический корпус финноязычных текстов газеты «Karjalan sanomat» 36
1.8 Модель построения корпуса с грамматической разметкой 37
1.9 Модель построения корпуса с синтаксической разметкой 40
Глава 2 Автоматизация грамматического и синтаксического разбора 43
2.1 Программа грамматической разметки 43
2 1.1 Этап преформатирования 44
2.1.2 Этап разметки 46
2.2 Программа синтаксической разметки 48
2 2 1 Этап преформатирования 48
2.2 2 Этап разметки 49
2.3 Автоматическая грамматическая разметка 50
2.4 Автоматизированная синтаксическая разметка 52
Глава 3 Структуры данных для хранения и предоставления информации 54
3.1 Использование сети Интернет 54
3.2 Создание web-интерфейса 60
3.3 Отличие локального доступа от доступа через Интернет 69
3 4 Оптимизация структур данных под поиск 70
3.5 Критерий оптимальности по скорости поиска 70
3.6 Оптимизация по объёму хранимой информации 76
3.7 Оптимизация количества информации предоставляемой пользователю 76
3.8 Результаты оптимизации по скорости поиска 77
3.9 Результаты оптимизации по объёму хранимой информации 78
3.10 Количество информации предоставляемой пользователю 79
3.11 Доступ к системе и основные характеристики 80
Глава 4. Применение размеченного корпуса для анализа однородностей 81
4.1 Поиск неоднородных фрагментов на основе методов атрибуции текстов 84
4.2 Метод сильного графа связности для поиска неоднородных фрагментов 86
4.3 Использование наивного байесовского классификатора 87
4.4 Поиск неоднородных фрагментов на основании последовательностей частей речи 89
4.4.1 Алгоритм поиска неоднородности фрагмента текста 89
4.4.2 Пример выявления наиболее информативных признаков 90
4.4.3 Примеры неоднородных фрагментов текстов 91
4.4.4 Применение алгоритма к атрибуции текстов 94
4.5 Использование компонентного анализа для поиска неоднородных фрагментов 96
Заключение 98
Список литературы: 100
Приложения 111
Приложение №1 Список структурных схем синтаксического разбора 111
Приложение №2 Поиск информации через web-ресурс 113


