Я пытаюсь загрузить много страниц с веб-сайта по коммутируемой линии, и это может быть очень медленным. Я почти получил идеальную команду wget
, но поскольку я загружаю страницы с одного и того же сайта, wget
теряет время, загружая одинаковые стандартные изображения для каждой страницы.
Если я знаю название изображений страниц по умолчанию, есть ли способ, чтобы wget
игнорировал их и таким образом не загружал их для каждой страницы?
Вот пример одной из команд wget, которые мой сценарий оболочки генерирует в другой сценарий оболочки для загрузки всех страниц:
mkdir candy-canes-on-the-flannel-board-in-preschool
cd candy-canes-on-the-flannel-board-in-preschool
wget -p -nd -A jpg,html -k http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/
wget -c --random-wait --timeout=30 --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" http://www.teachpreschool.org/2011/12/candy-canes-on-the-flannel-board-in-preschool/ -O "candy-canes-on-the-flannel-board-in-preschool"
rm Baby-and-Toddler.jpg Childrens-Books.jpg Creative-Art.jpg Felt-Fun.jpg Happy_Rainbow-e1338766526528.jpg index.html Language-and-Literacy.jpg Light-table-Button.jpg Math.jpg Outdoor-Play.jpg outer-jacket1-300x153.jpg preschoolspot-button-small.jpg robots.txt Science-and-Nature.jpg Signature-2.jpg Story-Telling.jpg Tags-on-Preschool.jpg Teaching-Two-and-Three-Year-olds.jpg
cd ../
Теперь я понимаю, что сценарий не так хорош, как мог бы, но он делает то, что мне нужно в данный момент, за исключением того, что из команды rm
вы можете видеть, что я просто хотел бы предотвратить загрузку файлов в wget
если возможный.
Я почти забыл упомянуть, что есть две команды wget
и это потому, что первая загружает страницу как index.html
и по какой-то причине она не открывается в моем браузере, однако, когда я открываю ее и смотрю на нее в vim
all содержимого страницы есть, поэтому я не уверен, почему он не открывается. Но если я просто введу вторую команду wget
как есть, то эта страница, тот же файл с альтернативным именем, откроется нормально. Что-то, что, если бы я мог исправить, также помогло бы упростить процесс.