1

Поскольку IMDb планирует удалить все доски объявлений за 2 недели, я бы хотел получить несколько страниц, однако wget не может это сделать.

Вот что я сделал:

  1. Вы зарегистрированы как пользователь на странице http://www.imdb.com/boards/.
  2. Экспортируемые печенье в cookies.txt файл с помощью cookies.txt расширения Chrome.
  3. Запустите wget как показано ниже (как предложено в файле cookies.txt ):

    $ wget -x --load-cookies cookies.txt --keep-session-cookies -e robots=off -A Mozilla http://www.imdb.com/boards/
    --2017-02-09 15:19:45--  http://www.imdb.com/boards/
    Resolving www.imdb.com... 54.239.23.73
    Connecting to www.imdb.com|54.239.23.73|:80... connected.
    HTTP request sent, awaiting response... 503 Service Temporarily Unavailable
    2017-02-09 15:19:46 ERROR 503: Service Temporarily Unavailable.
    

    Это должно работать даже без cookies.txt , так как страница доступна для общественности.

Чего мне не хватает?

2 ответа2

1

Не прямой ответ на ваш вопрос, но существует общая инициатива резервного копирования IMDB с помощью ArchiveTeam: все заинтересованные могут помочь с загрузкой в общий архив, который в конечном итоге заканчивается в archive.org (см. Коллекцию archiveteam ).

Инструкции предоставляются. По сути, вы можете запустить устройство VirtualBox/VMWare под названием ArchiveTeam Warrior, но я решил использовать сценарии Linux.

1

Кажется, вам нужно добавить несколько дополнительных настроек, включая пользовательский агент. Я добавил следующее в мой файл ~/.wgetrc и это, похоже, делает эту работу. Хотя иногда я получаю ошибку 500 или 503. Интересно, может ли это быть механизм регулирования / безопасности.

header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:53.0) Gecko/20100101 Firefox/53.0
referer = /
robots = off

Получил основу для этого ответа от переполнения стека.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .