У меня много PDF-файлов, и мне нужно скачать все гиперссылки в них. Я пытался открыть PDF-файл в Firefox и использовать Download Them All, но я нахожу, что он часто не получает их все. Так как я могу это сделать?
1 ответ
1
Интересный вопрос! Я неравнодушен к утилитам командной строки, когда они доступны, поэтому в этом случае я использую следующее:
Оба являются переносимыми (PDFtk доступен только в качестве установщика, но вы можете скопировать pdftk.exe и libiconv2.dll в другое место и удалить его, если хотите). Конечно, вы можете заменить Wget на cURL или что угодно.
Следующее, выполненное из командной строки Windows, загрузит все документы / страницы, на которые есть ссылки из PDF:
for /f "tokens=2" %l in ('pdftk Test.pdf dump_data_annots ^| find "AnnotActionURI"') do wget "%l"
Используйте следующую команду для нескольких PDF-файлов:
for %f in (*.pdf) do for /f "tokens=2" %l in ('pdftk "%~f" dump_data_annots ^| find "AnnotActionURI"') do wget "%l"