1

Pdftotext из xpdf работает нормально для обычного файла встроенных шрифтов, но не работает там, где есть шрифты встроенных подмножеств. Есть ли обходной путь для этой проблемы?

2 ответа2

0

Проблема, вероятно, заключается в том, что символы, отображаемые с использованием подмножества шрифта, имеют пользовательскую кодировку - числовое представление символов не соответствует ASCII, Latin-1 или любой другой общей кодировке.

Увидеть

Это означает, что нет простого обходного пути.

0

В этой ситуации я распечатал PDF-файлы на принтере Adobe PDF с высоким разрешением (1200 т / д +) и высоким качеством изображения (с любыми настройками). Затем я распознаю PDF-файл изображения, оставляя мне доступный для поиска и работающий PDF-файл.

Когда у меня есть много PDF-файлов для тысяч страниц, я открывал сразу несколько окон PDF, чтобы сделать это одновременно, используя несколько ядер для нескольких PDF-файлов. Это PITA, но это работает.

Надеюсь, ваши файлы маленькие! Я сделал это до 10000 страниц за один раз (сборник кодов). Не смешно.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .