Математические модели, методы и алгоритмы построения размеченных корпусов текстов

Седов, Алексей Владимирович. Математические модели, методы и алгоритмы построения размеченных корпусов текстов : диссертация ... кандидата технических наук : 05.13.18 / Седов Алексей Владимирович; [Место защиты: Петрозавод. гос. ун-т].- Петрозаводск, 2013.- 113 с.: ил. РГБ ОД, 61 14-5/444
Автор
Седов, Алексей Владимирович
Год
2013
  • 99 000 UZS

Оглавление диссертации
Введение
Глава 1. Анализ существующих словарей и текстовых корпусов 15
1.1 Понятие корпуса 15
1.2 Типы корпусов 17
1.3 Конструирование и применение корпусов 19
1.3.1. Национальный корпус русского языка 19
1.3.2 Корпус ХАНКО 21
1.3.3. Корпус русского литературного языка 23
1.3.4. Открытый корпус OpenCorpora 24
1.4 Краткое сравнение корпусов 24
1.5 Область применения лингвистических корпусов 26
1.6 Построение корпуса СМАЛТ 29
1.6 1 Морфологическая разметка 30
1.6.2 Синтаксическая разметка 32
1.7 Лингвистический корпус финноязычных текстов газеты «Karjalan sanomat» 36
1.8 Модель построения корпуса с грамматической разметкой 37
1.9 Модель построения корпуса с синтаксической разметкой 40
Глава 2 Автоматизация грамматического и синтаксического разбора 43
2.1 Программа грамматической разметки 43
2 1.1 Этап преформатирования 44
2.1.2 Этап разметки 46
2.2 Программа синтаксической разметки 48
2 2 1 Этап преформатирования 48
2.2 2 Этап разметки 49
2.3 Автоматическая грамматическая разметка 50
2.4 Автоматизированная синтаксическая разметка 52
Глава 3 Структуры данных для хранения и предоставления информации 54
3.1 Использование сети Интернет 54
3.2 Создание web-интерфейса 60
3.3 Отличие локального доступа от доступа через Интернет 69
3 4 Оптимизация структур данных под поиск 70
3.5 Критерий оптимальности по скорости поиска 70
3.6 Оптимизация по объёму хранимой информации 76
3.7 Оптимизация количества информации предоставляемой пользователю 76
3.8 Результаты оптимизации по скорости поиска 77
3.9 Результаты оптимизации по объёму хранимой информации 78
3.10 Количество информации предоставляемой пользователю 79
3.11 Доступ к системе и основные характеристики 80
Глава 4. Применение размеченного корпуса для анализа однородностей 81
4.1 Поиск неоднородных фрагментов на основе методов атрибуции текстов 84
4.2 Метод сильного графа связности для поиска неоднородных фрагментов 86
4.3 Использование наивного байесовского классификатора 87
4.4 Поиск неоднородных фрагментов на основании последовательностей частей речи 89
4.4.1 Алгоритм поиска неоднородности фрагмента текста 89
4.4.2 Пример выявления наиболее информативных признаков 90
4.4.3 Примеры неоднородных фрагментов текстов 91
4.4.4 Применение алгоритма к атрибуции текстов 94
4.5 Использование компонентного анализа для поиска неоднородных фрагментов 96
Заключение 98
Список литературы: 100
Приложения 111
Приложение №1 Список структурных схем синтаксического разбора 111
Приложение №2 Поиск информации через web-ресурс 113

Рекомендуем вам товары

99 000 UZS
Автор
Семенов Борис Васильевич
Количество страниц
Год
2013
99 000 UZS
Автор
Си Ту Хтет
Количество страниц
Год
2013
99 000 UZS
Автор
Синякова, Ирина Анатольевна
Количество страниц
Год
2013
99 000 UZS
Автор
Скороходов, Алексей Викторович
Количество страниц
Год
2013
Модули для Opencart 2, Опенкарт 3