Введение
Глава 1. Анализ процесса извлечения табличной информации 11
1.1. Таблицы в документах 11
1.2. Статистические таблицы 13
1.3. Форматы входных данных 15
1.4. Метафайлы 20
1.5. Известные методы и системы 23
1.6. Технология извлечения табличной информации 29
Глава 2. Обработка страниц документов 33
2.1. Обрабатываемые таблицы 33
2.2. Система координат 34
2.3. Модель страницы документа 35
2.4. Выделение вертикальных промежутков 42
2.5. Выделение горизонтальных промежутков 49
2.6. Обработка метафайлов 49
2.7. Предобработка страницы 53
2.8. Обнаружение таблиц на странице документа 56
Глава 3. Анализ и обработка таблиц 71
3.1. Модель таблицы 71
3.2. Предобработка таблицы 73
3.3. Анализ функций ячеек таблицы 73
3.4. Сегментация таблицы 82
3.5. Модель структурного описания таблицы 91
3.6. Структурный анализ таблицы 93
Глава 4. Практическое применение результатов 99
4.1. Информационная система извлечения табличной информации 99
4.2. Представление структурных описаний таблицы в XML 104
4.3. Экспериментальная оценка 106
4.4. Автоматизация ввода информации в базу данных 110
Заключение 119
Литература 121
Приложение


