Я пытаюсь получить данные с веб-сайта.

Есть ли способ просто указать программу на URL, и он захватывает все в этом домене. Как я должен идти об этом на OSX 10.5? Если это действительно необходимо, я могу использовать Ubuntu или Windows Box в качестве последнего средства.

1 ответ1

3

Вы можете использовать команду wget которая доступна для загрузки для Mac OS X, включенной в большинство дистрибутивов Linux, чтобы загрузить все содержимое веб-сайта, изображения, CSS, JavaScript, видео, файлы Flash и все.

Как только у вас это есть, откройте терминал. Вы, вероятно, хотите назвать это так:

wget -r -l0 -k http://www.example.com/

Это загрузит все с http://www.example.com/ доступное по ссылкам. Опция -r включает рекурсивную загрузку, поэтому она загружает не только домашнюю страницу. Опция -l задает, на скольких страницах он будет искать ссылки и загружать их, установив значение 0 как я сделал, установит его как можно дальше. Обратите внимание, что если веб-сайт использует динамическое генерирование страниц, которое может загружать много, так как может быть много URL-адресов, которые указывают на одинаковый или очень похожий контент. Команда -k является необязательной и заставит wget преобразовать все ссылки, теги изображений и т.д. В правильное местоположение на локальном компьютере, чтобы вы могли просматривать его в веб-браузере на вашем компьютере, и он будет работать правильно.

Обратите внимание, что он будет загружать файлы только с www.example.com, а не с других доменов. Если вам нужно перейти в другие домены, используйте ключ -H чтобы включить его, а затем опцию -D чтобы определить другие домены для загрузки (например, -D comments.example.com,beta.example.com). Будьте осторожны, если вы выключите ключ -D и установите -l в 0/ бесконечность, вы вполне можете попробовать загрузить всю World Wide Web!

Другой параметр, который может быть полезен, - это параметр -N , который устанавливает временную метку в локальном файле на время, предоставляемое заголовком HTTP Last-Modified на сервере, и не загружает файлы, которые не были изменены при последующих загрузках.

Для получения дополнительной информации обратитесь к документации по wget.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .