Смешная OCR-ситуация

Question

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04.

Когда я запускаю следующую команду:

pdfocr -t -l swe -i *.pdf -o newfile.pdf

В результате получается файл, полностью читаемый OCR. Каждое слово доступно для поиска независимо от размера и формы шрифтов.

Однако следующим шагом в процессе является преобразование этого PDF в PDF/A-1b. Это сделано Ghostscript 9.18 с помощью команды:

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i

Полученный файл проверяется как правильный PDF/A-1b-файл, но его возможности поиска сильно изменились. Кажется, будто Ghostscript уничтожает OCR.

У кого-нибудь есть идея, что происходит?

Спасибо заранее.

/Павел

Смешная OCR-ситуация

0

Знаете кого-то, кто может ответить? Поделитесь ссылкой на этот вопрос по почте, через Твиттер или Facebook.

Похожие