Извлечь выделенный отсканированный текст / изображения из PDF

Question

Мне нужен какой-то инструмент или обходной путь для извлечения выделенных областей из PDF. Я работаю с отсканированным PDF, поэтому распознавание текста не требуется, и мне также нужно извлечь выделенные изображения.

Я пробовал Zotelo, Mendeley, и выбирал вывод на печать в диалоговом окне printpdf (ctrl+p), но они работают только с выделенным текстом.

score 0 · Answer 1 · 2011-03-09T19:38:42

Поскольку вы работаете с отсканированным файлом PDF, сам файл PDF содержит сжатые данные изображения. Он не содержит текст как таковой. Таким образом, ваше решение должно:

Извлеките изображение из PDF в формат изображения
Возможно, проанализировать текст с помощью специального инструмента OCR

Из вашего вопроса не ясно, какие ОС и инструменты у вас есть, а также как вы умеете писать. Из-за этого, вот общий ответ сейчас, и этот процесс является довольно автоматизируемым (с учетом изменений в PDF-файлах), если вам нужно повторить его много раз.

Если вы делаете это вручную, первый шаг может быть таким же простым, как печать экрана и возможное кадрирование. Альтернативой является использование инструмента для преобразования документа PDF в файл изображения. Тогда вы можете обрезать в соответствии с вашими потребностями, например, с GIMP.

На втором этапе вы можете использовать любое программное обеспечение OCR, например, Tesseract.

Сейчас выбран русский

Извлечь выделенный отсканированный текст / изображения из PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf highlighting.

Извлечь выделенный отсканированный текст / изображения из PDF

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf highlighting.

Похожие