Есть ли простой способ найти опечатки типа «Привет, меня зовут Джон», где "мой" и "есть" было написано дважды? Я нашел что-то подобное здесь, используя grep , но, видимо, вам нужно вставить весь текст, который ищется в терминале. Это может быть очень ограниченным при поиске больших текстовых файлов. Есть ли способ, которым я могу сделать это поиск всего PDF-файла?

1 ответ1

0

Вы можете направить вывод инструмента pdftotext в команду grep :

pdftotext <pdffile> - |  grep -Eo '(\b.+) \1\b'

Для поиска предопределенной строки в файлах PDF также существует инструмент под названием pdfgrep. Однако это не позволит сложное регулярное выражение, как в приведенном примере.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .