Pdftotext из xpdf работает нормально для обычного файла встроенных шрифтов, но не работает там, где есть шрифты встроенных подмножеств. Есть ли обходной путь для этой проблемы?
2 ответа
Проблема, вероятно, заключается в том, что символы, отображаемые с использованием подмножества шрифта, имеют пользовательскую кодировку - числовое представление символов не соответствует ASCII, Latin-1 или любой другой общей кодировке.
Увидеть
- PDF Шрифтовая кодировка
- Неисследуемый, не копируемый документ PDF
- Как узнать, встроены ли шрифты в PDF-файл или нет?
Это означает, что нет простого обходного пути.
В этой ситуации я распечатал PDF-файлы на принтере Adobe PDF с высоким разрешением (1200 т / д +) и высоким качеством изображения (с любыми настройками). Затем я распознаю PDF-файл изображения, оставляя мне доступный для поиска и работающий PDF-файл.
Когда у меня есть много PDF-файлов для тысяч страниц, я открывал сразу несколько окон PDF, чтобы сделать это одновременно, используя несколько ядер для нескольких PDF-файлов. Это PITA, но это работает.
Надеюсь, ваши файлы маленькие! Я сделал это до 10000 страниц за один раз (сборник кодов). Не смешно.