Технология извлечения табличной информации из электронных документов разных форматов

Шигаров Алексей Олегович. Технология извлечения табличной информации из электронных документов разных форматов : диссертация ... кандидата технических наук : 05.25.05 / Шигаров Алексей Олегович; [Место защиты: Ин-т вычисл. технологий СО РАН].- Иркутск, 2010.- 142 с.: ил. РГБ ОД, 61 10-5/1450
Автор
Шигаров Алексей Олегович
Год
2010
  • 99 000 UZS

Оглавление диссертации
Введение
Глава 1. Анализ процесса извлечения табличной информации 11
1.1. Таблицы в документах 11
1.2. Статистические таблицы 13
1.3. Форматы входных данных 15
1.4. Метафайлы 20
1.5. Известные методы и системы 23
1.6. Технология извлечения табличной информации 29
Глава 2. Обработка страниц документов 33
2.1. Обрабатываемые таблицы 33
2.2. Система координат 34
2.3. Модель страницы документа 35
2.4. Выделение вертикальных промежутков 42
2.5. Выделение горизонтальных промежутков 49
2.6. Обработка метафайлов 49
2.7. Предобработка страницы 53
2.8. Обнаружение таблиц на странице документа 56
Глава 3. Анализ и обработка таблиц 71
3.1. Модель таблицы 71
3.2. Предобработка таблицы 73
3.3. Анализ функций ячеек таблицы 73
3.4. Сегментация таблицы 82
3.5. Модель структурного описания таблицы 91
3.6. Структурный анализ таблицы 93
Глава 4. Практическое применение результатов 99
4.1. Информационная система извлечения табличной информации 99
4.2. Представление структурных описаний таблицы в XML 104
4.3. Экспериментальная оценка 106
4.4. Автоматизация ввода информации в базу данных 110
Заключение 119
Литература 121
Приложение

Рекомендуем вам товары

99 000 UZS
Автор
Иванов Александр Юрьевич
Количество страниц
Год
2009
99 000 UZS
Автор
Фареа Султан Габер
Количество страниц
Год
2011
Модули для Opencart 2, Опенкарт 3