32

У меня есть PDF, который содержит отсканированное изображение документа. Я хочу сохранить содержимое этого PDF-файла в виде изображения, чтобы затем запустить его через программу OCR, которая принимает только файлы типа .jpg, .png и .gif.

Как сохранить / преобразовать этот PDF-файл в один из этих графических форматов?

РЕДАКТИРОВАТЬ: Я нашел способ сделать это, нажав на каждую страницу. Скопировать в буфер обмена. Вставьте в Paint.net и сохраните. Однако это громоздко, так как кажется, что вы можете выбрать только одну страницу за раз в Acrobat Reader.

12 ответов12

20

Пожалуйста, обратите пристальное внимание на ответ поэорика, в котором он указывает, что ответ Слеске на самом деле является гораздо лучшим ответом для этой конкретной проблемы.


Используйте GhostScript. Эта команда работает для меня:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

Существует несколько псевдоустройств png, различающихся по глубине цвета: pngmono, pnggray, png16, png256, png16m и pngalpha. Выберите тот, который подходит вам лучше всего.

Вы также можете использовать jpeg, но если у вас нет проблем с дисковым пространством, вы хотите получить такое же высокое качество, как вы можете управлять для OCR, и это не jpeg.

GhostScript больше не поддерживает gif, но я не представляю, зачем вам это нужно, что с поддержкой png256.

18

Установите Imagemagick. Откройте окно cmd или терминал:

convert myfile.pdf myfile.jpg

Вывод будет 1 JPG-файл для каждой страницы в вашем PDF, test-0.jpg, test-1.jpg и т.д.

13

Там также pdfimages из инструментов Xpdf (доступно с сайта XpdfReader). Он не преобразует всю PDF-страницу в изображение, а извлечет встроенные изображения из PDF-файла.

Это полезно, если PDF-файл содержит текст и изображения, а вам нужны только изображения. Кроме того, он будет извлекать изображения в их исходном формате, поэтому потери качества не возникает (в отличие от программ, которые визуализируют всю страницу, а затем преобразуют ее, например, в JPEG). В зависимости от ваших потребностей это может быть полезно.


Простое использование:

pdfimages -j -list mydocument.pdf mydocument-images

Это будет считывать входной файл mydocument.pdf , извлекать все изображения и записывать их в отдельные файлы с именами mydocument-images-0000.jpg , mydocument-images-0001.jpg и т.д.

Опция -j позволяет записывать встроенные JPEG-сжатые изображения как файлы JPEG, а не как файлы PBM/PGM/PPM (которые являются несжатыми и огромными). Обратите внимание, что изображения по-прежнему могут быть записаны в виде файлов PBM/PGM/PPM, если они хранятся во входном файле PDF.

11

Вы можете сделать это с помощью Adobe Reader:

  1. Нажмите на изображение. Это будет выделено.
  2. Скопируйте (Ctrl-C) и вставьте его в Paint.
  3. Сохранить как любой тип файла, который вам нравится.
9

За исключением ответа, в котором упоминается pdfimages, во всех остальных ответах не упоминается, что их решения фактически транскодируют встроенные изображения. То есть, эти решения не просто извлекают исходное изображение, но и изменяют его, возможно, в ущерб изображению, во время процесса. Только pdfimages извлекает исходное изображение. Это относится к Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, OS X Preview и большинству других программ PDF.

4

PDFill PDF Tools - это, вероятно, самый простой способ конвертировать ваши PDF-файлы в изображения в Windows. Это позволит вам экспортировать все страницы в формате PDF для разделения изображений в одном кадре. Он также имеет множество других функций, доступных бесплатно, которые доступны только в других средствах просмотра PDF, если вы покупаете коммерческую версию или версию "Pro".

Используйте кнопку "Преобразовать PDF в изображения" (кнопка № 10) на снимке экрана ниже.

Скриншот PDFill PDF Tools

Если вам нужно объединить изображения в одно очень высокое изображение, чтобы вам нужно было передать только один файл в программу OCR, вы можете использовать IrfanView

2

Поскольку вы не включили тег OS, я добавлю ответ OSX:

PDF-файлы по умолчанию открываются в Preview.app, что позволяет использовать File -> Save-As:

  • GIF
  • ICNS
  • JPEG
  • JPEG-2000
  • BMP
  • OpenEXR
  • Photoshop
  • PNG
  • TGA
  • TIFF
1

Также PDF Xchange Viewer (бесплатно) будет выполнять экспорт в файл. Файл → Экспорт → Экспорт в изображение.

Не только это, но я думаю, что это лучший бесплатный просмотрщик PDF для Windows, и у него есть несколько замечательных возможностей разметки. У меня есть лицензия на Adobe Acrobat, и я все еще предпочитаю ее, если я не занимаюсь обширным редактированием, что бывает редко.

1

(Не бесплатно) Acrobat Professional делает это:

Дополнительно-> Обработка документов-> Экспорт всех изображений ...

0

Если размер файла менее 5 МБ, и вы не беспокоитесь о конфиденциальности / конфиденциальности, то это удобный онлайн-сервис по адресу http://www.go2convert.com/, который может выполнять множество графических преобразований (включая PDF в JPEG).

-1

Вы можете проверить эту статью.

В нем перечислены 6 различных способов конвертировать PDF в изображения.

Конвертировать PDF в JPG (веб-путь)

Конвертеры PDF в JPG для рабочего стола

-1

Если изображение превышает размер экрана, вы можете использовать функцию FastStone Capture (функция "Окно прокрутки захвата") и сохранить изображение в формате JPEG.

альтернативный текст

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .