3

В настоящее время я использую sitesucker для вывода всех файлов веб-сайта клиента. Это дает мне большую часть страниц, но проблема в том, что некоторые страницы, которые у нас есть, на самом деле не доступны по ссылке, а через поиск почтового индекса. Есть ли способ, которым я могу использовать этот инструмент или другой инструмент, даже чтобы дать ему список URL-адресов, и он загружает файлы для меня по мере необходимости, сохраняя структуру папок, как это делает сайт присоски.

Мои извинения, если это плохое место, чтобы задать этот вопрос :).

3 ответа3

5

Вы можете использовать wget: создать простой файл со списком URL, который вам нужно скачать (пример pippo.txt):

pippo.txt:

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

Затем используйте wget для загрузки списка URL:

cd /some/folder/
wget -i /path/to/pippo.txt

Готово

wget для linux - базовый инструмент https://www.gnu.org/software/wget/ для окон есть порт bin: http://users.ugent.be/~bpuype/wget/

1

Я написал расширение для браузера Chrome, чтобы сделать это с помощью API загрузки Google Chrome, который будет работать на всех платформах (операционных системах), например, Windows/Mac/Linux :-)

Он называется TabSave, и изначально он был для этого, я добавляю возможность делать некоторые вещи, которые исследователи могут захотеть делать, предоставляя заголовки PDF-файлов прямо из браузера, но он очень легкий и может захватывать открытые вкладки, если это удобно.

Вы можете получить расширение здесь, и весь код с открытым исходным кодом на GitHub здесь.

Не стесняйтесь раскошелиться, если вы хотите пойти с ним в другом направлении :-)

1

Если у вас есть доступ к машине с Linux (возможно, практически в Virtualbox), и в зависимости от того, что вы пытаетесь сделать, вы можете взглянуть на wget .

Используя опцию -r вы можете делать такие вещи, как рекурсивное получение веб-сайта.

Вы могли бы сделать:

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

Легко сценариев /Excelable.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .