11

У меня проблема с тем, что некоторые пользователи создают очень большие PDF-файлы. С другой стороны, у меня есть PDF, отправленный с наших факсимильных аппаратов, которые очень маленькие по размеру и полностью пригодны для печати. Мой вопрос

  • Есть ли способ найти разрешение (DPI) PDF. Я ищу в интернете, не смог найти ответа. Проверял свойства файла, эта информация там не хранилась, по крайней мере, в моем случае.
  • Какое оптимальное разрешение преобразования текстового файла в PDF изображения. 96dpi, 300dpi или больше?
  • Веселый вопрос. Могу ли я изменить размер PDF-файла, который был отсканирован с высоким разрешением, с меньшим разрешением?

Я знаю, что некоторые ответы могут быть недоступны, так как я уже искал в Интернете и не мог найти ответы.

Примечание: мой PDF полностью изображения, текст к изображениям. Я также знаком с primoPDF (бесплатным), с которым можно экспериментировать

6 ответов6

13

Ответ slhck и комментарий scruss заслуживают обновления: теперь в pdfimages (по крайней мере, начиная с версии 0.26.5) явно перечислены x-ppi и y-ppi . Вот пример вывода:

$ pdfimages -list example.pdf 
page   num  type   width height color comp bpc  enc interp  object ID x-ppi y-ppi size ratio
--------------------------------------------------------------------------------------------
   1     0 image    2244  2244  cmyk    4   8  image  no       215  0   301   301  418K 2.1%
   2     1 image     900   600  rgb     3   8  image  no       324  0  1524  1525 35.5K 2.2%

В Debian (Wheezy) и Fedora (23) pdfimages является частью пакетов poppler-utils .

8

Я знаю, что вы не хотите извлекать данные изображения, но это, вероятно, единственный способ узнать оригинальное разрешение.


В * nix, если у вас есть identify ImageMagick и установленный Xpdf 1:

pdfimages -j test.pdf test && for file in $(find . -name "test*.jpg"); do identify "$file"; done

Где test.pdf - ваш входной PDF. Выходные файлы записываются в test-000.jpg , test-001.jpg и так далее. Это даст вам исходный размер всех содержащихся изображений этого PDF 2.

Пример вывода для файла PDF, который содержит только одно большое изображение:

./test-000.jpg JPEG 2500x1961 2500x1961+0+0 8-bit DirectClass 1.022MB 0.000u 0:00.000

1) В Windows они тоже есть, но сценарий, конечно, будет другим.
2) Обратите внимание, что изображения на самом деле не несут информацию о DPI. Проще говоря: это просто то, что используется для печати, и изображения не нуждаются в характеристике DPI.


Какое оптимальное разрешение преобразования текстового файла в PDF изображения. 96dpi, 300dpi или больше?

Обычно все, что вы хотите напечатать, должно иметь разрешение 300 точек на дюйм или более. Большинство принтеров будут работать с более высоким разрешением.

3

По какой-то причине последняя версия pdfimages, которую я могу обновить в своем CentOS, - это версия 3.04.

Итак, у меня нет опции -list, как указано в предыдущих ответах. Тем не менее, тестовое изображение, созданное из pdfimages на основе ответа slhck, содержит желаемый ответ!

определить -бесный тест-0000.jpg | Больше

Image: test-0000.jpg  
Format: JPEG (Joint Photographic Experts Group JFIF format)  
Mime type: image/jpeg  
Class: DirectClass  
Geometry: 6600x5100+0+0  
Resolution: 600x600  
Print size: 11x8.5

Таким образом, dpi явно отображается в 6-й строке, используя опцию -verbose в команде identifier.

Таким образом, ответ Слхка можно изменить следующим образом.

pdfimages -j test.pdf test && для файла в $(найти. -name "test * .jpg"); определить -verbose "$ file" | awk 'NR == 6'; сделанный

С другой стороны, я попытался запустить

определить -бесный тест.pdf

Format: PDF (Portable Document Format)  
Mime type: application/pdf  
Class: DirectClass  
Geometry: 792x612+0+0  
Resolution: 72x72  
Print size: 11x8.5  

Кажется, что Imagemagick всегда принимает 72dpi, и поэтому информация, напечатанная здесь, кажется неверной.

1

Файл PDF не имеет собственного разрешения, каждое растровое изображение в нем (если оно есть) будет иметь собственное разрешение. Я не знаю простого способа извлечь одно число для медианного / модального разрешения XObjects встроенного изображения.

1

Это работало с PDF, сгенерированным из MFP Kyocera ...

  1. Откройте PDF с Reader-
  2. Файл> Свойства -Вкладка Описание -Размер страницы. Мой пример сказал 8.5x11.0 в.

  3. Откройте PDF с помощью текстового редактора (блокнота), найдите /width и /height

  4. Возьмите высоту и ширину и разделите их на высоту и ширину страницы (в дюймах)

Пример:

5100/8.5=600
6600/11.0=600

Мой PDF был отсканирован с разрешением 600x600.

0

Чтобы ответить на ваш второй вопрос, в дополнение к упоминанию @slhck о dpi принтера, 300dpi также является типичным минимальным рекомендуемым числом для распознавания текста с размерами шрифта 10+pt.

Кроме того, современный 15-дюймовый экран ноутбука с разрешением 4K также имеет только около 280 точек на дюйм, поэтому, если вы хотите просмотреть весь формат А4 на экране (альбомная ориентация), нет смысла сканировать с разрешением выше ~ 320 точек на дюйм, потому что любой документ выше этого будет уменьшенный. Конечно, это не имеет значения, если вы планируете увеличить масштаб изображения, тогда вам может потребоваться более высокое разрешение.

Чтобы ответить на другие два вопроса, по крайней мере, в настоящее время вы можете использовать Acrobat Pro для проверки разрешения и разрешения изображения, а также редактировать его.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .