Мне нужна помощь, чтобы решить ситуацию. Это кажется довольно простым, но это не я думаю.

#!/bin/bash

pdfgrep -Hn $1 *.pdf

exit 0

Если я запускаю этот код в любом каталоге, содержащем ocr'd PDF-файлы, он выдаст «соответствующий файл + номер страницы в этом файле + соответствующую строку для шаблона $ 1».

Теперь к проблеме. Скажем, я хочу сделать то же самое с двумя шаблонами: «$ 1» и «$ 2». Это будет не так просто, как

pdfgrep -Hn $1 | pdfgrep -Hn $2 *.pdf

Как это можно сделать, чтобы в результате был «соответствующий файл + номер страницы в этом файле, содержащем оба шаблона: $ 1 и $ 2»?

Любая помощь приветствуется :-)

Спасибо!

/Павел

1 ответ1

0

Я нашел рабочее решение, которое довольно просто:

#!/bin/bash

pdfgrep -Hn $1 *.pdf | cut -f1,2 -d':' > /tmp/sok1.tmp
pdfgrep -Hn $2 *.pdf | cut -f1,2 -d':' > /tmp/sok2.tmp
comm -1 -2 --nocheck-order /tmp/sok1.tmp /tmp/sok2.tmp

exit 0

/Павел

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .