1

У меня есть PDF, где каждая страница представляет собой полноцветное изображение (это артбук). Есть 16 страниц. Одна страница полностью пуста.

Сам PDF составляет 140 МБ. Когда я извлекаю каждое изображение в BMP, изображения занимают только 30 МБ. Сжатие без потерь в PNG дало 13 МБ.

Как это возможно, что PDF составляет 140 МБ, если сами изображения (возможно, в худшем случае) 30 МБ? Используют ли PDF крайне неэффективный способ хранения данных изображения, где каждый пиксель занимает более 4 байтов?

Мне нравится PDF, потому что многие приложения поддерживают его без необходимости установки дополнительного программного обеспечения / плагинов, но это показалось мне довольно странным.

Я не уверен, является ли этот конкретный PDF просто частным случаем.

1 ответ1

0

Какое программное обеспечение вы используете для "извлечения" изображений из PDF?

имейте ввиду, что для извлечения изображений из pdf в их родном разрешении вам нужно использовать

pdfimages

здесь вы можете скачать бинарные файлы для Microsoft Windows и Linux

использование:

pdfimages [options] <PDF-file> <image-root>

как только вы извлечете изображения в полном разрешении, вы сможете правильно оценить проблему,

для цветных изображений, как правило, в pdf есть только один эффективный способ сжатия, позволяющий сохранить качество и уменьшить размер файла.

JPEG-2000

Итак, вам необходимо перекодировать изображения, извлеченные из pdf, с помощью pdfimages с помощью программного обеспечения, способного конвертировать в jpeg-2000, например:

  • ImageMagick
  • GraphicsMagick
  • многие другие

затем вам нужно поместить эти изображения в формате jpeg-2000 в PDF без перекодирования. Это можно сделать как в Microsoft Windows, так и в Linux (с Wine) с помощью:

freepic2pdf

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .