У меня тяжелый отсканированный PDF с OCR. Я смог уменьшить его размер вдвое с помощью ghostscript win64 с помощью этой команды (как рекомендуется в этом ответе):
gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf
Но все же это не достаточно легко.
Я также мог бы конвертировать PDF с помощью Caliber или pdftotext из xpdf, но я теряю макет.
Есть ли способ извлечь OCR, сохраняя точное положение каждого текста на каждой странице при удалении отсканированного изображения?