3

Многие сканеры могут сканировать страницу в файл PDF.

Когда это сделано, действительно ли файл PDF является просто контейнером, который содержит одно изображение? Это изображение, как правило, в формате JPG, PDF или проприетарного формата?

1 ответ1

3

Согласно этой ссылке, нет - PDF разрывает изображение и воссоздает его - иногда используя кодировку JPEG или JPEG2000.

Файл PDF обычно хранит изображение как отдельный объект (объект XObject), который содержит необработанные двоичные данные для изображения.

Важно понимать, что это обычно не изображения в смысле изображений TIF или Jpg или Png - это двоичные данные для пикселей, цветовое пространство, используемое для изображения, информация об изображении. Изображение разрывается при создании PDF, и различные инструменты создания PDF могут сохранять одно и то же изображение по-разному.

Иногда необработанные данные изображения корректируются до необходимого размера, необходимого для страницы, а иногда - нет, в этом случае они увеличиваются или уменьшаются при рисовании - разные инструменты создания PDF создают файлы PDF по-разному.

Фактические данные пикселей могут быть сжаты, и один из форматов сжатия (DCTDecode) такой же, как в JPEG (JPX такой же, как Jpeg2000). Если вы сохраните эти данные, их можно открыть как файл JPEG, но, возможно, потребуется изменить их, чтобы включить данные цветового пространства.

Затем это изображение рисуется в потоке содержимого PDF ... Некоторые вещи, которые выглядят как изображение для глаза, также могут состоять из нескольких изображений или даже не изображений вообще!

Все это означает, что если вы хотите извлечь изображения из PDF, вам нужно собрать изображение из всех необработанных данных - оно не сохраняется как полный файл изображения, который вы можете просто извлечь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .