Как скачать сайт с архива Wayway Machine?

Question

Я хочу получить все файлы для данного сайта на archive.org. Причины могут включать в себя:

оригинальный автор не заархивировал свой собственный сайт и теперь он не в сети, я хочу сделать из него публичный кеш
Я оригинальный автор какого-то сайта и потерял часть контента. Я хочу восстановить это
...

Как я могу это сделать ?

Принимая во внимание тот факт, что механизм обратной передачи archive.org очень специфичен: ссылки на веб-страницы указывают не на сам архив, а на веб-страницу, которая может отсутствовать. JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не сработает.

score 59 · Answer 1 · 2011-03-09T19:38:42

Я пробовал разные способы загрузки сайта и, наконец, нашел загрузчик с обратной связью, о котором Хартатор упоминал ранее (так что все отзывы идут к нему, пожалуйста), но я просто не заметил его комментарий к вопросу. Чтобы сэкономить ваше время, я решил добавить гем wayback_machine_downloader в качестве отдельного ответа.

На сайте http://www.archiveteam.org/index.php?title=Restoring перечислены эти способы загрузки с archive.org:

Wayback Machine Downloader , небольшой инструмент на Ruby для загрузки любого веб-сайта с Wayback Machine. Бесплатный и с открытым исходным кодом. Мой выбор!
Уоррик - Главный сайт, кажется, не работает.
Wayback Downloader , сервис, который загрузит ваш сайт с Wayback Machine и даже добавит плагин для Wordpress. Не бесплатно.

score 11 · Answer 2 · 2011-03-09T19:38:42

Это можно сделать с помощью сценария оболочки bash в сочетании с wget.

Идея состоит в том, чтобы использовать некоторые функции URL машины обратного хода:

http://web.archive.org/web/*/http://domain/* перечислит все сохраненные страницы из http://domain/ рекурсивно. Его можно использовать для построения индекса страниц для загрузки и избежать эвристики для обнаружения ссылок на веб-страницах. Для каждой ссылки есть также дата первой версии и последней версии.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page перечислит все версии http://domain/page за год YYYY. На этой странице можно найти конкретные ссылки на версии (с точной отметкой времени)
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page вернет неизмененную страницу http://domain/page с заданной отметкой времени. Обратите внимание на токен id_ .

Это основы построения скрипта для загрузки всего из заданного домена.

score 4 · Answer 3 · 2011-03-09T19:38:42

Существует инструмент, специально разработанный для этой цели, Уоррик: https://code.google.com/p/warrick/

Он основан на протоколе Memento.

Сейчас выбран русский

Как скачать сайт с архива Wayway Machine?

3 ответа3

Всё ещё ищете ответ? Посмотрите другие вопросы с метками archiving web.

Связанные

Как скачать сайт с архива Wayway Machine?

3 ответа3

Всё ещё ищете ответ? Посмотрите другие вопросы с метками archiving web.

Связанные

Похожие