Я бы хотел выполнить поиск так, чтобы:
1) Он может искать в тексте большое количество PDF-файлов. В частности, я хочу искать в каталоге с вложенными каталогами несколько уровней, и они в основном PDF-файлы. Есть около 50K файлов (примерно 10-50 страниц каждый), поэтому производительность имеет решающее значение.
2) Когда он находит результат, он должен возвращать совпадения плюс контекст (например, grep -C 2
), а не только имена файлов, содержащих запрос.
Я полагаю, что это может быть проще с командной строкой, но я не против использования программы, если это проще. Мне не нужны подстановочные знаки или возможности регулярных выражений, но он должен поддерживать строки как буквальную фразу ("не").
Этот скрипт похож на тот, который мне нужен, но он использует grep для получения результатов, а grep не понимает pdf (и я не хочу конвертировать каждый pdf в текст для каждого поиска).
Есть ли способ сделать это? Благодарю.