У меня есть следующая страница
http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf
Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? Как я могу это сделать?
У меня есть следующая страница
http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf
Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? Как я могу это сделать?
Вы можете использовать wget
для рекурсивной загрузки всего сайта:
wget --recursive --page-requisites --html-extension --no-parent --domains
www.fda.gov www.fda.gov
Затем вы можете использовать egrep
для рекурсивного поиска по всем файлам, чтобы найти, какие страницы ссылаются на ucm092156.pdf:
egrep -r -o '*ucm092156.pdf' www.fda.gov/