Система поиска текстовых документов на основе автоматически формируемого электронного каталога

Борисюк, Федор Владимирович. Система поиска текстовых документов на основе автоматически формируемого электронного каталога : диссертация ... кандидата технических наук : 05.13.18 / Борисюк Федор Владимирович; [Место защиты: Нижегор. гос. ун-т им. Н.И. Лобачевского].- Нижний Новгород, 2010.- 120 с.: ил. РГБ ОД, 61 11-5/724
Автор
Борисюк, Федор Владимирович
Год
2010
  • 99 000 UZS

Оглавление диссертации
Введение
Глава I. Общая характеристика проблемы тематического ранжирования, на основе автоматически построенного электронного каталога текстовых документов 18
1.1 Предлагаемая математическая модель поиска по ключевым словам с тематическим ранжированием 18
1.2 Предлагаемая математическая модель автоматического построения электронного каталога 20
1.3 Постановка задачи текстовой кластеризации 22
1.4 Обзор существующих алгоритмов текстовой кластеризации 24
1.4.1 Алгоритмы кластеризации, использующие критерий квадратичной ошибки 25
1.4.2 Алгоритмы основанные на технологии нейронных сетей 26
1.4.3 Алгоритмы кластеризации, основанные на концепции плотности 28
1.4.4 Алгоритмы, основанные на теории графов 29
1.4.5 Иерархические алгоритмы, строящие бинарное дерево 30
1.4.6 Алгоритм кластеризации основанный на суффиксном дереве 32
1.4.7 Методы нечеткой кластеризации 33
1.5 Оценка качества кластеризации текстовой коллекции 39
1.6 Оценка качества ранжирования поисковых результатов 41
1.7 Постановка задачи формирования информационных образов текстовых документов 42
1.8 Морфологический анализ 45
1.9 Обзор методов статического анализа формирования информационных образов документов 46
1.9.1 Критерий порога частоты встречаемости слова в документах коллекции 47
1.9.2 Критерий информационного веса слова в рубрике 48
1.9.3 Критерий прироста информации 48
1.10 Оценка важности терминов по формуле TF-IDF 49
Выводы по главе 1 50
Глава II Разработка математической модели поиска по ключевым словам с тематическим ранжированием на основании автоматического построения электронного каталога текстовых документов 53
2.1 Подготовка информационных образов текстовых документов 53
2.2 Построение инвертированного индекса 55
2.3 Иерархическая кластеризация по областям текстовых документов 56
2.3.1 Инициализация алгоритма иерархической кластеризации по областям. 60
2.3.2 Этап обработки входящего потока документов 60
2.3.3 Критерий качества уровня дерева 62
2.3.4 Операция разделения области 64
2.3.5 Операция интеграции подобластей 66
2.3.6 Анализ вычислительной сложности алгоритма иерархической кластеризации по областям 67
2.4 Преобразование иерархии кластеров в иерархию электронного каталога 68
2.5 Построение вербального описания иерархического каталога 68
2.6 Описание выбранной технологии распределенного программирования MapReduce 71
2.7 Параллельная реализация построения информационных образов текстовых документов 74
2.8 Параллельная реализация алгоритма иерархической кластеризации по областям текстовых документов 76
2.9 Поиск по ключевым словам с тематическим ранжированием, на основе электронного каталога 78
Выводы по главе II 81
Глава III. Программная реализация системы поиска с тематическим ранжированием, на основе автоматически построенного электронного каталога 82
3.1 Структура программного комплекса поисковой системы с тематическим ранжированием, на основе автоматически построенного электронного каталога 82
3.1.1 Компонент построения иерархической структуры каталога 84
3.1.2 Компонент построения образов текстовых документов 85
3.1.3 Компонент поиска с тематическим ранжированием результатов... 86
3.1.4 Компонент алгоритмов параллельного построения электронного каталога 88
3.2 Описание тестовых текстовых коллекций 89
3.3 Выбор параметров алгоритма иерархической кластеризации по областям 92
3.4 Результаты испытаний предлагаемой математической модели автоматического построения электронного каталога 93
3.4.1 Результаты испытаний последовательных версий разработанных алгоритмов 93
3.4.2 Исследование предлагаемого способа формирования описания кластеров 96
3.4.3 Результаты испытаний параллельных версий разработанных алгоритмов 98
3.5 Результаты испытаний качества работы предлагаемого алгоритма тематического ранжирования 101
Выводы по главе III 104
Выводы 105
Список литературы 107

Рекомендуем вам товары

99 000 UZS
Автор
Васильева Марина Юрьевна
Количество страниц
Год
2025
99 000 UZS
Автор
Вашукевич, Елена Валериевна
Количество страниц
Год
2010
99 000 UZS
Автор
Егоров, Сергей Михайлович
Количество страниц
Год
2010
99 000 UZS
Автор
Елаева, Мария Сергеевна
Количество страниц
Год
2010
Модули для Opencart 2, Опенкарт 3