Модели и методы представления текстового документа в системах информационного поиска

Губин Максим Вадимович. Модели и методы представления текстового документа в системах информационного поиска : диссертация ... кандидата физико-математических наук : 05.13.11 / Губин Максим Вадимович; [Место защиты: ГОУВПО "Санкт-Петербургский государственный университет"].- Санкт-Петербург, 2005.- 89 с.: ил.
Автор
Губин Максим Вадимович
Год
2005
  • 99 000 UZS

Оглавление диссертации
Введение
1 Введение 4
1.1 Задачи информационного поиска 4
1.2 Оценка качества информационного поиска 6
1.3 Основные вопросы, рассмотренные в данной работе . 9
2 Модели и методы информационного поиска 11
2.1 Описание моделей представления документа 14
2.2 Модель „множество слов" (bag-of-words) 14
2.2.1 Бинарная модель 14
2.2.2 Модель с „весами" слов 20
2.3 Учет взаимного положения слов 24
2.3.1 Формирование многословных терминов 26
2.3.2 Разбиение документа на фрагменты 28
2.4 Гипертекстовые ссылки между документами 32
2.5 Перспективы 38
2.6 Выводы 38
3 Реализация модели документа 39
3.1 Использование пар слов 40
3.1.1 Обоснование выбора 40
3.1.2 Особенности реализации 41
3.2 „Скользящее" по тексту окно 42
3.2.1 Обоснование выбора 42
3.2.2 Реализация информационного поиска с использованием данной модели 43
3.2.3 Выбор и обоснование функции взвешивания документа 43
3.2.4 Использование индексной информации 46
3.3 Выводы
4 Индексные структуры 50
4.1 Организация инвертированного файла 51
4.2 Сжатие инвертированного файла 53
4.2.1 Алгоритмы сжатия инвертированных файлов 54
4.2.2 Сжатие пост-листов редко встречающихся слов . 56
4.2.3 Сжатие инвертированного файла, построенного на базе В+дерева 57
4.3 Эффективность операций с индексными структурами 58
4.3.1 Эффективность поиска 59
4.3.2 Изменение индекса 61
4.4 Индексирование многоверсионных документов 62
4.4.1 Постановка задачи 62
4.4.2 Реализация 63
4.5 Выводы 66
5 Экспериментальная часть 67
5.1 Использование пар 67
5.1.1 Используемые коллекции 67
5.1.2 Описание эксперимента 68
5.1.3 Результаты эксперимента 68
5.2 Использование „скользящего окна" 70
5.2.1 Данные для эксперимента 71
5.2.2 Результаты 72
5.3 Сжатие инвертированного файла 74
5.3.1 Характеристики коллекций 74
5.3.2 Методика исследования статистики слов и пар слов 75
5.3.3 Размеры словарей 76
5.3.4 Исследование характеристик пост-листов 78
5.3.5 Исследование алгоритма сжатия 81
5.4 Индексирование изменяющихся документов 84
5.4.1 Использованные коллекции 84
5.4.2 Описание эксперимента 84
5.5 Выводы по экспериментальной части 85
Заключение

Рекомендуем вам товары

99 000 UZS
Автор
Иванов Александр Николаевич
Количество страниц
Год
2005
99 000 UZS
Автор
Булаев Владислав Викторович
Количество страниц
Год
2004
99 000 UZS
Автор
Конушин Антон Сергеевич
Количество страниц
Год
2005
99 000 UZS
Автор
Грибовская Наталия Сергеевна
Количество страниц
Год
2004
99 000 UZS
Автор
Ефанов Дмитрий Валерьевич
Количество страниц
Год
2004
Модули для Opencart 2, Опенкарт 3