1

У меня есть PDF-файл, который состоит из набора отсканированных изображений книги. Это часть серии, которая доступна здесь. Большинство из них работают нормально. URL-адрес проблемного файла находится здесь.

Файл не открывается, и несколько инструментов командной строки ничего не могут с ним сделать. Я также попробовал ряд онлайн услуг по ремонту PDF, но безрезультатно.

Мне нужно только извлечь изображения. Обычно я делаю это с pdfimages. Я не заинтересован в восстановлении файла как такового, если, конечно, это не важно для получения изображений. Кроме того, я ничего не знаю о коде PDF!

Вот несколько примеров сообщений об ошибках:

Используя pdftocairo -pdf mn1.pdf mn1_repaired.pdf и pdfimages mn1.pdf я получаю

Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).

Используя pdftk mn1.pdf я получаю:

Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
   at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
   at java.lang.Throwable.getStackTrace(libgcj.so.15)
   at java.lang.Throwable.stackTraceString(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)

Я был бы признателен, если бы кто-нибудь смог найти способ вытащить изображения из этого файла. Решения для Linux являются предпочтительными.

1 ответ1

0

Я загрузил PDF-файл на этот веб-сайт, и, похоже, он смог успешно восстановить файл. Тем не менее, он поставил водяной знак на него, и он требует оплаты, если вам нужна версия без водяного знака. Хотя весь текст по-прежнему отлично читается, даже с водяным знаком.

Вот восстановленный файл: https://www.dropbox.com/s/sxubsn7rdy1olr3/pdf_recovered.pdf?dl=0

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .