Я просто использовал программное обеспечение OCR для сканирования документа, состоящего из 20+ страниц, в Word 2007. В результате получается куча страниц с собственными полями и отступами. Похоже, мне удалось сбросить поля, но такие вещи, как отступы, кажутся относительно полей. Поэтому уменьшение размера поля привело к тому, что некоторые абзацы покинули левую часть страницы, поскольку для отступа было установлено отрицательное значение. Я хотел бы очистить все форматирование страницы и сохранить визуальное форматирование, например, начертание шрифта, размер шрифта, цвет шрифта, полужирный шрифт, подчеркивание, курсив и т.д. Таким образом, я могу начать с нуля и переформатировать макеты страниц так, как я хочу.

1 ответ1

0

Я не уверен, что это вариант для вас, но вы можете использовать другой текстовый формат (например, TeX или HTML) и попытаться отфильтровать информацию с помощью языка сценариев, такого как Perl или Python (или, при условии, что вывод достаточно "простой", даже с использованием интеллектуального текстового редактора и регулярных выражений можно выполнить эту работу).

Обратите внимание, что хотя вы можете использовать Word для экспорта в этот формат, но если вы можете использовать формат сразу в программном обеспечении OCR, я определенно попробую сначала. Как правило, для редакторов WYSIWYG файлы, экспортируемые в форматах разметки, имеют тенденцию быть чрезвычайно сложными.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .