1

Я пытаюсь сканировать результаты поиска на новостном веб-сайте с помощью wget.

Название сайта www.voanews.com.

После ввода в моем поисковом слове и щелчка поиска, поиск переходит к результатам. Затем я могу указать "to" и "from" -date и снова нажать "search".

После этого URL становится:

http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article

и фактическое содержание результатов - это то, что я хочу скачать.

Для этого я создал следующую wget-команду:

wget --reject=js,txt,gif,jpeg,jpg \
     --accept=html \
     --user-agent=My-Browser \
     --recursive --level=2 \
     www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article

К сожалению, сканер не загружает результаты поиска. Он попадает только в верхнюю панель ссылок, которая содержит ссылки «Дом, США, Африка, Азия, ...» и сохраняет статьи, на которые они ссылаются.

Похоже, что сканер вообще не проверяет ссылки на результаты поиска.

Что я делаю не так и как я могу изменить команду wget для загрузки только ссылок списка результатов поиска (и, конечно, сайтов, на которые они ссылаются)?

1 ответ1

0

Это не ответ сам по себе ... но с использованием стандартных:

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

Просматривает все страницы (и больше). Я бы убрал предложение агента пользователя и исключение родительского каталога -np .

Что касается личной информации ... в одном поиске много ссылок (например, тегов), поэтому вы получите несколько помех со стандартной рекурсией.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .