У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04.
Когда я запускаю следующую команду:
pdfocr -t -l swe -i *.pdf -o newfile.pdf
В результате получается файл, полностью читаемый OCR. Каждое слово доступно для поиска независимо от размера и формы шрифтов.
Однако следующим шагом в процессе является преобразование этого PDF в PDF/A-1b. Это сделано Ghostscript 9.18 с помощью команды:
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
Полученный файл проверяется как правильный PDF/A-1b-файл, но его возможности поиска сильно изменились. Кажется, будто Ghostscript уничтожает OCR.
У кого-нибудь есть идея, что происходит?
Спасибо заранее.
/Павел