pdftotext каким-то образом преобразует все пробелы ("") в знаки процента ("%") и все тире ("-") в шестерки ("6") для конкретного файла PDF.

Есть идеи, как предотвратить такое поведение? Или как это диагностировать?

К сожалению, я не могу поделиться PDF в данный момент. Это может затруднить ответ на вопрос. Но, возможно, кто-то может сделать хорошее предположение в любом случае, основываясь на этих странных заменах персонажей.

pdftotext версия 0.26.5

1 ответ1

0

Угадайте: этот PDF-файл использует забавный шрифт, который на самом деле содержит пробелы (обычно пробелы делаются путем позиционирования символов) и имеет специальную форму черточки. Эти два символа занимают две позиции в специальном шрифте, где % и 6 - в других шрифтах.

pdftext ничего не знает об этом, он просто видит "поместить этот глиф из этого шрифта здесь" (потому что так выглядит файл PDF), поэтому он ошибочно полагает, что это текст.

Диагностика: используйте mutool из пакета mupdf (или другого инструмента) для распаковки потоков, откройте результат в текстовом редакторе, который при необходимости может обрабатывать большие файлы (например, emacs), посмотрите, как отображается страница. Google для спецификации PDF, если вы хотите узнать больше о том, как PDF-файлы отображаются.

Альтернативно: Извлеките шрифты из PDF, посмотрите, есть ли у одного из шрифтов два глифа, как описано.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .