У меня есть PDF-файл, который состоит из набора отсканированных изображений книги. Это часть серии, которая доступна здесь. Большинство из них работают нормально. URL-адрес проблемного файла находится здесь.
Файл не открывается, и несколько инструментов командной строки ничего не могут с ним сделать. Я также попробовал ряд онлайн услуг по ремонту PDF, но безрезультатно.
Мне нужно только извлечь изображения. Обычно я делаю это с pdfimages. Я не заинтересован в восстановлении файла как такового, если, конечно, это не важно для получения изображений. Кроме того, я ничего не знаю о коде PDF!
Вот несколько примеров сообщений об ошибках:
Используя pdftocairo -pdf mn1.pdf mn1_repaired.pdf
и pdfimages mn1.pdf
я получаю
Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).
Используя pdftk mn1.pdf
я получаю:
Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
at java.lang.Throwable.getStackTrace(libgcj.so.15)
at java.lang.Throwable.stackTraceString(libgcj.so.15)
at java.lang.Throwable.printStackTrace(libgcj.so.15)
at java.lang.Throwable.printStackTrace(libgcj.so.15)
Я был бы признателен, если бы кто-нибудь смог найти способ вытащить изображения из этого файла. Решения для Linux являются предпочтительными.