Обычно я использую Notepad++ для поиска в файлах с помощью регулярных выражений. Сегодня мне интересно, есть ли программа PDF, которая делает то же самое для PDF-файлов. Конечно, я мог бы конвертировать PDF в текст и использовать Notepad++, но есть ли более простой способ без конвертации?
2 ответа
9
несколько вариантов:
- Agent Ransack (лучший ответ в разделе Лучший способ * уверенно * искать файлы и содержимое в Windows без использования службы индексирования? )
- DnGrep - бесплатное программное обеспечение с открытым исходным кодом. К сожалению, на данный момент он доступен только для Windows. (запрос функции был открыт для других платформ здесь )
4
- Агент Ransack является бесплатным (облегченным) и поддерживает PDF, как подтверждают его заметки о выпуске.
- PowerGREP является коммерческим продуктом.
Как вы и сказали, очевидной альтернативой является преобразование PDF в текст. Один из способов для программиста настроить его для массовой обработки - использовать пакет Python PDFMiner. Агент Ransack использует "pdftotext" из проекта Xpdf (и вы тоже можете).