PDF-файлы часто содержат шрифты без явного сопоставления с Unicode, что не позволяет нам извлекать из них правильный текст - проклинаю вас, Adobe!
Мне нужно обрабатывать PDF-файлы в системе Linux. У меня есть несколько примеров с дефисными линиями, но для которых ни один инструмент, который я пробовал, не может определить дефисы; результаты всегда содержат много сломанных полуслов.
Есть ли способ внести пропущенные сопоставления символов вместо отбрасывания неопределенных символов?