6

Я пытаюсь загрузить много страниц с веб-сайта по коммутируемой линии, и это может быть очень медленным. Я почти получил идеальную команду wget , но поскольку я загружаю страницы с одного и того же сайта, wget теряет время, загружая одинаковые стандартные изображения для каждой страницы.

Если я знаю название изображений страниц по умолчанию, есть ли способ, чтобы wget игнорировал их и таким образом не загружал их для каждой страницы?

Вот пример одной из команд wget, которые мой сценарий оболочки генерирует в другой сценарий оболочки для загрузки всех страниц:

mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../

Теперь я понимаю, что сценарий не так хорош, как мог бы, но он делает то, что мне нужно в данный момент, за исключением того, что из команды rm вы можете видеть, что я просто хотел бы предотвратить загрузку файлов в wget если возможный.

Я почти забыл упомянуть, что есть две команды wget и это потому, что первая загружает страницу как index.html и по какой-то причине она не открывается в моем браузере, однако, когда я открываю ее и смотрю на нее в vim all содержимого страницы есть, поэтому я не уверен, почему он не открывается. Но если я просто введу вторую команду wget как есть, то эта страница, тот же файл с альтернативным именем, откроется нормально. Что-то, что, если бы я мог исправить, также помогло бы упростить процесс.

1 ответ1

1

Wget имеет --reject rejlist вы можете использовать. Список отклонений - это список шаблонов имен файлов.

он также имеет опцию -nc чтобы избежать загрузки и перезаписи существующих файлов.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .