1

У меня много PDF-файлов, и мне нужно скачать все гиперссылки в них. Я пытался открыть PDF-файл в Firefox и использовать Download Them All, но я нахожу, что он часто не получает их все. Так как я могу это сделать?

1 ответ1

1

Интересный вопрос! Я неравнодушен к утилитам командной строки, когда они доступны, поэтому в этом случае я использую следующее:

Оба являются переносимыми (PDFtk доступен только в качестве установщика, но вы можете скопировать pdftk.exe и libiconv2.dll в другое место и удалить его, если хотите). Конечно, вы можете заменить Wget на cURL или что угодно.

Следующее, выполненное из командной строки Windows, загрузит все документы / страницы, на которые есть ссылки из PDF:

for /f "tokens=2" %l in ('pdftk Test.pdf dump_data_annots ^| find "AnnotActionURI"') do wget "%l"

Используйте следующую команду для нескольких PDF-файлов:

for %f in (*.pdf) do for /f "tokens=2" %l in ('pdftk "%~f" dump_data_annots ^| find "AnnotActionURI"') do wget "%l"

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .