Введение
1 Обзор подходов к анализу текстов 9
1.1 Развитие информационного сервиса 9
1.2 Классы задач 12
1.3 Подходы к анализу текстов 14
1.4 Системы анализа текстов 17
2 Представление знаний 24
2.1 Онтология 24
2.1.1 Понятие онтологии 24
2.1.2 Определение онтологии 25
2.1.3 Назначение онтологии 27
2.2 Модель информационного пространства системы 28
2.2.1 Информационный объект: структура, контекст, контент 28
2.2.2 Определение информационною пространства системы 29
2.2.3 Текстовый ресурс 30
2.3 Лингвистическая база знаний 30
2.3.1 Формальное представление структуры текста 31
2.3.1.1 Сегмент 31
2.3.1.2 Модель документа 33
2.3.2 Словарь 36
2.3.2.1 Представіение словарной статьи 37
2.3.2.2 Морфоюгические типы словаря лексем 41
2.3.2.3 Иерархия классов словаря 42
2.3.2.4 Тезаурус 42
2.3.3 Описание фактов 43
2.3.3.1 Семантические ограничения 43
2.3.3.2 Структурные ограничения 46
2.3.3.3 Схема факта 47
2.3.3.4 Типизация схем фактов 49
2.4 Особенности представления знаний 50
3 Технология извлечения информации 52
3.1 Словарный компонент 53
3.1.1 Архитектура модуля словаря 54
3.1.2 Сборка словокомплексов 56
3.1.3 Модули автоматизированной настройки словаря 57
3.1.3.1 Общая схема обучения 57
3.1.3.2 Модуль классификации 58
3.1.3.3 Тематизация 58
3.1.3.4 Вьіявіение стоп-терминов 60
3.2 Конструктор онтологии 60
3.3 Конструкюр схем фактов 62
3.3.1 Методология создания схем фактов 63
3.3.2 Формирование внутреннего представления схем фактов 64
3.3.2.1 Обеспечение корректности и сходимости 64
3.3.2.2 Планирование 65
3.4 Фактографический анализ текста 67
3.4.1 Сегментация текста 67
3.4.2 Сборка фактов 68
3.4.2.1 Удовіетворение структурным ограничениям 70
3.4.2.2 Удовлетворение семантическим ограничениям 75
3.4.3 Формирование контента текстового ресурса 77
3.4.3.1 Идентификация объектов 78
3.4.3.2 Контроль корректности данных 81
3.5 Поддержка актуальности данных 82
4 Реализация и практические приложения 85
4.1 Особенности программной реализации 85
4.1.1 Архитектура системы анализа документов 85
4.1.2 Словарный компонент 87
4.1.2.1 Система классов 87
4.1.2.2 Пользовательский интерфейс 88
4.1.3 Модуль анализа документов 89
4.1.4 Качество работы системы анализа 90
4.2 Практические приложения технологии 91
4.2.1 InDoc 92
4.2.1.1 Модель делового письма 94
4.2.1.2 Система знаний InDoc 94
4.2.1.3 Общая схема анализа InDoc 99
4.2.2 Портал знаний по археологии и этнографии 100
4.2.2.1 Система знаний портала 101
4.2.2.2 Техно югия сбора онтологической информации о ресурсах 102
4.2.2.3 Индексирование новостных сообщений 102
4.2.2.4 Индексирование научных статей 105
Заключение


