У меня тяжелый отсканированный PDF с OCR. Я смог уменьшить его размер вдвое с помощью ghostscript win64 с помощью этой команды (как рекомендуется в этом ответе):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Но все же это не достаточно легко.

Я также мог бы конвертировать PDF с помощью Caliber или pdftotext из xpdf, но я теряю макет.

Есть ли способ извлечь OCR, сохраняя точное положение каждого текста на каждой странице при удалении отсканированного изображения?

0