6

Я использовал высокоскоростной сканер в моем университете, чтобы отсканировать некоторые разделы книги в PDF. PDF-файл, создаваемый сканером, представляет собой просто изображения, снятые камерой для документов и сохраненные как есть. Другими словами, у нас есть 30 страниц PDF, которые представляют 60 страниц печати.

Аппарат способен выполнять масштабное сканирование, поэтому его область сканирования намного больше, чем у обычной книги. Это означает, что изображения также имеют много границ. Таблица черная, а страницы, очевидно, белые, поэтому может показаться, что программное обеспечение должно автоматически обрезаться.

Я ищу какое-то решение, которое может пройти через PDF-файл и извлечь две страницы, а также удалить границы вокруг них и создать новый PDF-файл с фиксированными результатами. Другими словами, я хочу PDF на 60 страниц с удаленными границами. Я планирую передать обработанный PDF через ABBYY FineReader for OCR.

У кого-нибудь есть идеи относительно того, как это можно сделать?

1 ответ1

1

Эти бесплатные инструменты выглядят многообещающе для ваших целей: Scantailor или Bookscanner.

Если у вас есть доступ к Adobe Acrobat, я так и сделал. Основной рабочий процесс будет состоять в том, чтобы объединить изображения в PDF, обрезать дополнительное черное пространство сразу со всех страниц, продублировать каждую из страниц, обрезать четные и нечетные в две партии, чтобы разрезать их пополам, а затем OCR.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .