Я пытаюсь сканировать результаты поиска на новостном веб-сайте с помощью wget.
Название сайта www.voanews.com.
После ввода в моем поисковом слове и щелчка поиска, поиск переходит к результатам. Затем я могу указать "to" и "from" -date и снова нажать "search".
После этого URL становится:
http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article
и фактическое содержание результатов - это то, что я хочу скачать.
Для этого я создал следующую wget-команду:
wget --reject=js,txt,gif,jpeg,jpg \
--accept=html \
--user-agent=My-Browser \
--recursive --level=2 \
www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article
К сожалению, сканер не загружает результаты поиска. Он попадает только в верхнюю панель ссылок, которая содержит ссылки «Дом, США, Африка, Азия, ...» и сохраняет статьи, на которые они ссылаются.
Похоже, что сканер вообще не проверяет ссылки на результаты поиска.
Что я делаю не так и как я могу изменить команду wget для загрузки только ссылок списка результатов поиска (и, конечно, сайтов, на которые они ссылаются)?