6

Я получил несколько PDF-файлов с изображениями в них. Исходные изображения были утеряны, поэтому мне нужно их извлечь. У меня есть Adobe Acrobat Pro, поэтому я извлек их, используя Advanced > Document Processing > Export All Images (есть четыре варианта: jpeg, png, tiff, jpeg2000). Но я хотел бы извлечь их в исходном формате, и это, очевидно, не jpeg: я также протестировал pdfimages.exe из xpdf, как описано здесь, и это дало файлы .ppm, а не jpeg.

Поэтому я попытался идентифицировать ImageMagick, что он мне дал:

identify images-000.ppm
images-000.ppm PPM 870x1181 870x1181+0+0 8-bit sRGB 3.082MB 0.000u 0:00.000

Означает ли это, что это был встроенный .bmp? Как сказать? На самом деле я ожидал, что в Acrobat будет функция для определения формата изображений, но я не смог его найти.

Итак, как лучше всего определить формат изображения изображений в формате PDF?

(Я предпочитаю извлечение через Acrobat из-за функциональности пакета).

2 ответа2

4

AFAIK, объекты XObject Image, встроенные в PDF-файлы, не хранят никакой информации об исходном формате изображения. Самое большее, если это встроенный JPEG, его можно извлечь как есть, но во всех других случаях вы получите изображение PxM, которое вам нужно будет преобразовать.

2

Изображение в формате переносимого растрового изображения. (Подробнее см. Википедия: формат Netpbm ).

Они могут использовать инструменты netbmp, чтобы преобразовать их в более современный bmp.
Синтаксис для этого: ppmtobmp images-000.ppm > images-000.bmp .

http://netpbm.sourceforge.net/ является домашней страницей для netpbm.

Есть ли в документе несколько изображений? Или мы можем просто найти в PDF строку с identify images-000.ppm , вырезать файл из этого места и передать его в ppmtobmp? Не должно быть сложно автоматизировать это.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .