12

Возможный дубликат:
Какое бесплатное программное обеспечение можно использовать для сканирования отсканированных изображений

У меня есть несколько PDF-файлов, составленных из сканов страниц книги. Сканирование выполняется с двух страниц одновременно, и некоторые из этих сканов перекошены, что делает текст слегка наклоненным.

Я ищу инструмент, который позволил бы мне выполнить автоматическую оптимизацию, переместив сканы без потери читабельности. Я нашел программу GPL Briss для обрезки сканов, чтобы иметь соотношение страниц 1:1 вместо 2:1, но у меня нет никакого инструмента для выравнивания страниц.

Я наткнулся на unpaper, еще один инструмент с открытым исходным кодом, который, кажется, идеально подходит для того, что я хочу сделать, но этот инструмент только для Linux, и он не работает напрямую с PDF-файлами.

Любая подсказка приветствуется.

2 ответа2

9

Посмотрите на стол. Это инструмент командной строки. Загрузочный zip-архив включает в себя двоичные файлы для Windows, MacOSX и Linux.

Лицензия - MPL (Mozilla) или LPGL (GNU), что вы предпочитаете.

Единственным недостатком для вас, кажется, является то, что он не использует PDF-файлы, только изображения в формате PNG и TIFF (AFAICS). Это означает, что вам придется настроить рабочий процесс s.th. лайк:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Я не проверял это сам (пока), я только недавно наткнулся на сайт и добавил его в закладки.

5

О, позвольте мне добавить еще один ответ. Я только что вспомнил netpbm. Не пользовался им годами, но думаю, мне стоит взглянуть по-новому ...

netpbm - очень мощный инструментарий для командной строки для работы с графическими изображениями. Он отправляет около 300 отдельных инструментов. Включает конвертеры для около 100 графических форматов.

И он также имеет инструмент командной строки, который может вращать изображения:

pnmrotate

И у него есть еще один инструмент, который пытается обнаружить угол поворота изображения:

pamtilt

pamtilt возвращает плавающее число своего предположения о повороте изображения. Таким образом, автоматическое удаление изображений должно быть в пределах досягаемости. Для этого может быть написан сценарий оболочки. Это потребовало бы разных шагов:

  1. Конвертируйте PDF-страницу в подходящий для netpbm формат изображения с помощью Ghostscript.
  2. Используйте pamtilt для автоматического определения угла наклона изображения.
  3. Используйте pnmrotate чтобы снять перекос изображения.
  4. Повторно преобразовать изображение в PDF.

Если вы предоставите мне доступ к небольшому образцу ваших PDF-файлов, я мог бы попытаться придумать сценарий оболочки, чтобы выполнить этот подвиг.


(Мне очень интересно, что [netpbm] не имеет здесь тега на superuser+stackoverflow.)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .