Введение
1 Введение 4
1.1 Задачи информационного поиска 4
1.2 Оценка качества информационного поиска 6
1.3 Основные вопросы, рассмотренные в данной работе . 9
2 Модели и методы информационного поиска 11
2.1 Описание моделей представления документа 14
2.2 Модель „множество слов" (bag-of-words) 14
2.2.1 Бинарная модель 14
2.2.2 Модель с „весами" слов 20
2.3 Учет взаимного положения слов 24
2.3.1 Формирование многословных терминов 26
2.3.2 Разбиение документа на фрагменты 28
2.4 Гипертекстовые ссылки между документами 32
2.5 Перспективы 38
2.6 Выводы 38
3 Реализация модели документа 39
3.1 Использование пар слов 40
3.1.1 Обоснование выбора 40
3.1.2 Особенности реализации 41
3.2 „Скользящее" по тексту окно 42
3.2.1 Обоснование выбора 42
3.2.2 Реализация информационного поиска с использованием данной модели 43
3.2.3 Выбор и обоснование функции взвешивания документа 43
3.2.4 Использование индексной информации 46
3.3 Выводы
4 Индексные структуры 50
4.1 Организация инвертированного файла 51
4.2 Сжатие инвертированного файла 53
4.2.1 Алгоритмы сжатия инвертированных файлов 54
4.2.2 Сжатие пост-листов редко встречающихся слов . 56
4.2.3 Сжатие инвертированного файла, построенного на базе В+дерева 57
4.3 Эффективность операций с индексными структурами 58
4.3.1 Эффективность поиска 59
4.3.2 Изменение индекса 61
4.4 Индексирование многоверсионных документов 62
4.4.1 Постановка задачи 62
4.4.2 Реализация 63
4.5 Выводы 66
5 Экспериментальная часть 67
5.1 Использование пар 67
5.1.1 Используемые коллекции 67
5.1.2 Описание эксперимента 68
5.1.3 Результаты эксперимента 68
5.2 Использование „скользящего окна" 70
5.2.1 Данные для эксперимента 71
5.2.2 Результаты 72
5.3 Сжатие инвертированного файла 74
5.3.1 Характеристики коллекций 74
5.3.2 Методика исследования статистики слов и пар слов 75
5.3.3 Размеры словарей 76
5.3.4 Исследование характеристик пост-листов 78
5.3.5 Исследование алгоритма сжатия 81
5.4 Индексирование изменяющихся документов 84
5.4.1 Использованные коллекции 84
5.4.2 Описание эксперимента 84
5.5 Выводы по экспериментальной части 85
Заключение


