Я пытаюсь внести некоторые исправления в документ PDF, сгенерированный из латекса.

Чтобы сделать исправления, я сначала копирую текст из PDF.

Случается так, что в сгенерированном PDF слова обрезаются справа, когда они не соответствуют размеру поля, например, когда слово "абзац" слишком велико, чтобы уместиться, оно будет обрезано так:

word1 word2\n 
word3 para-\n
graph word4\n

Кроме того, разрывы строк не делаются, когда это необходимо, но всегда в конце текста.

У меня нет доступа к оригиналу. Так что это проблема, когда я копирую текст для редактирования где-то, так как в итоге получаю кучу ненужных разрывов строк и разрывов слов (не знаю, как эти последние действительно называются).

Есть ли способ правильно скопировать текст из файла PDF?

Это то, что PDF-файл делает для того, чтобы слова аккуратно помещались на странице, без текстового выравнивания?

1 ответ1

0

Эти два регулярных выражения выполняются в том порядке, который должен работать.

s/-\n//g
s/([^.])\n/$1 /g

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .