Как извлечь текст из PDF со встроенными шрифтами

Question

Pdftotext из xpdf работает нормально для обычного файла встроенных шрифтов, но не работает там, где есть шрифты встроенных подмножеств. Есть ли обходной путь для этой проблемы?

score 0 · Answer 1 · 2011-03-09T19:38:42

Проблема, вероятно, заключается в том, что символы, отображаемые с использованием подмножества шрифта, имеют пользовательскую кодировку - числовое представление символов не соответствует ASCII, Latin-1 или любой другой общей кодировке.

Увидеть

Это означает, что нет простого обходного пути.

score 0 · Answer 2 · 2011-03-09T19:38:42

В этой ситуации я распечатал PDF-файлы на принтере Adobe PDF с высоким разрешением (1200 т / д +) и высоким качеством изображения (с любыми настройками). Затем я распознаю PDF-файл изображения, оставляя мне доступный для поиска и работающий PDF-файл.

Когда у меня есть много PDF-файлов для тысяч страниц, я открывал сразу несколько окон PDF, чтобы сделать это одновременно, используя несколько ядер для нескольких PDF-файлов. Это PITA, но это работает.

Надеюсь, ваши файлы маленькие! Я сделал это до 10000 страниц за один раз (сборник кодов). Не смешно.

Сейчас выбран русский

Как извлечь текст из PDF со встроенными шрифтами

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf embedded-fonts xpdf.

Как извлечь текст из PDF со встроенными шрифтами

2 ответа2

Всё ещё ищете ответ? Посмотрите другие вопросы с метками pdf embedded-fonts xpdf.

Похожие