Я пытаюсь заставить Unpaper работать, это очень мощный инструмент для пост-обработки отсканированных страниц книг. Я прочитал документ, но до сих пор не могу заставить его работать ни на Windows, ни на Linux. Моя картинка - растровое изображение, которое я конвертировал в формат .pbm с помощью Gimp (также пробовал pgm и pnm). Затем я использую эту команду:

unpaper -l double --pre-rotate -90 inputFile.pbm outputFile.pbm

(-l double означает, что у меня есть 2 страницы на одном листе, а --pre-rotate -90 поворачивает изображение влево)

Это должно сделать что-то вроде этого:

Но мой выходной файл не имеет различий между входными данными, просто повернут.

1 ответ1

0

Я наконец выяснил проблему. Проблема заключалась в преобразовании в формат .pbm, выполненном Gimp (v2.6.11). Преобразованный файл не был двоичным (только белые или черные пиксели), в то время как Википедия говорит:« PBM предназначена для растровых изображений (черно-белые, без серых) ». Поэтому я использовал ImageMagick для конвертации, и теперь unpaper работает отлично, и у меня отличные результаты с tesseract 3.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .