Я использую pdftotext
чтобы сделать ASCII-версию PDF-документа (сделанного с LaTeX), потому что соавторы предпочитают простой документ в MS Word.
Текстовая версия, которую я вижу, выглядит хорошо, но при ближайшем рассмотрении символ f, кажется, часто неправильно преобразовывается в зависимости от того, какие символы следуют. Например, fi и fl часто кажутся одним специальным символом, который я постараюсь вставить здесь: if и fl.
Каков наилучший способ очистить вывод pdftotext? Я думаю, что sed
может быть правильным инструментом, но я не уверен, как обнаружить эти специальные символы.