5

Я преобразовал PDF в TIF файл, используя следующие команды на терминале

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Затем я попытался запустить команду makebox ,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

который произвел следующую ошибку:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

И, предполагая, что это что-то связанное с libtiff , запустил команду tesseract tesseract -v и обнаружил (или предположил), что оно отсутствует

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Это производит то же самое, даже если я удаляю и переустанавливаю lib tiff. Не уверен, что мне здесь не хватает. Пожалуйста посоветуй!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Вывод команды brew info leptonica Вот

Правка № 1

Произвел этот tiff-файл, используя GhostScript который возвращает ту же ошибку, когда я пытаюсь запустить команду makebox . Может быть, что-то еще мне не хватает? Я установил размер шрифта 50+, это нормально?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip (~ 4 МБ)

Редактировать № 2

Я создал одну страницу TIF с помощью GhostScript , даже он не работает ??

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip (~ 60 КБ)

1 ответ1

3

Я предполагаю, что вы читаете пост Михаэля Лисснера, чтобы добавить собственный шрифт в Tesseract.

Я попробовал то же самое (команда convert ) и получил сломанный TIFF, который нельзя было открыть ни в одном приложении.

Поэтому я выбрал альтернативу GUI. Я написал свой текст в Scribus (потому что это позволило мне увеличить расстояние между символами), а затем экспортировал его непосредственно как TIFF из меню Файл - Экспорт - Сохранить как изображение . Я выбрал разрешение 300 DPI.

Что еще вы можете попробовать:

  • GIMP открывает PDF-файлы, которые можно сохранить в формате TIFF
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf> (в этом случае он преобразует все страницы)

С какими еще проблемами вы можете столкнуться:

  • Linux: если вы установили версию Tesseract для репозитория (по крайней мере, в Ubuntu), у вас не будет необходимых исполняемых файлов: unicharset_extractor и mftraining (или они не в пути, потому что пакет должен включать их).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .