78

Я хочу получить все файлы для данного сайта на archive.org. Причины могут включать в себя:

  • оригинальный автор не заархивировал свой собственный сайт и теперь он не в сети, я хочу сделать из него публичный кеш
  • Я оригинальный автор какого-то сайта и потерял часть контента. Я хочу восстановить это
  • ...

Как я могу это сделать ?

Принимая во внимание тот факт, что механизм обратной передачи archive.org очень специфичен: ссылки на веб-страницы указывают не на сам архив, а на веб-страницу, которая может отсутствовать. JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не сработает.

3 ответа3

59

Я пробовал разные способы загрузки сайта и, наконец, нашел загрузчик с обратной связью, о котором Хартатор упоминал ранее (так что все отзывы идут к нему, пожалуйста), но я просто не заметил его комментарий к вопросу. Чтобы сэкономить ваше время, я решил добавить гем wayback_machine_downloader в качестве отдельного ответа.

На сайте http://www.archiveteam.org/index.php?title=Restoring перечислены эти способы загрузки с archive.org:

  • Wayback Machine Downloader , небольшой инструмент на Ruby для загрузки любого веб-сайта с Wayback Machine. Бесплатный и с открытым исходным кодом. Мой выбор!
  • Уоррик - Главный сайт, кажется, не работает.
  • Wayback Downloader , сервис, который загрузит ваш сайт с Wayback Machine и даже добавит плагин для Wordpress. Не бесплатно.
11

Это можно сделать с помощью сценария оболочки bash в сочетании с wget.

Идея состоит в том, чтобы использовать некоторые функции URL машины обратного хода:

  • http://web.archive.org/web/*/http://domain/* перечислит все сохраненные страницы из http://domain/ рекурсивно. Его можно использовать для построения индекса страниц для загрузки и избежать эвристики для обнаружения ссылок на веб-страницах. Для каждой ссылки есть также дата первой версии и последней версии.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page перечислит все версии http://domain/page за год YYYY. На этой странице можно найти конкретные ссылки на версии (с точной отметкой времени)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page вернет неизмененную страницу http://domain/page с заданной отметкой времени. Обратите внимание на токен id_ .

Это основы построения скрипта для загрузки всего из заданного домена.

4

Существует инструмент, специально разработанный для этой цели, Уоррик: https://code.google.com/p/warrick/

Он основан на протоколе Memento.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .