Мне нужно отразить следующий URL:

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Но мне нужно зеркалировать только файлы с этой даты «20100515230709». Я перепробовал много вариантов wget , но они либо получают index.html, либо файлы с других дат.

Как мне этого добиться?

1 ответ1

0

Из руководства wget (1.15):

На самом деле, чтобы загрузить одну страницу и все ее реквизиты (даже если они существуют на отдельных веб-сайтах) и убедиться, что партия отображается правильно локально, этот автор любит использовать несколько опций в дополнение к '-p':

wget -E -H -k -K -p url

Кроме того, robots.txt может блокировать некоторый контент, поэтому добавьте -e robots = off

Итак, вы получите:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Это дало мне 38 файлов, все необходимые для этой единственной страницы и не более.

Если вы хотите получить больше, чем просто эту страницу, вам необходимо загрузить (части) снимки с более ранних дней. Поскольку archive.org извлекает только измененные страницы, полный сайт на определенную дату почти всегда состоит из страниц, захваченных в эту дату, но также и в более ранние даты. Например, ссылка на "Процедуры" относится к копии, сделанной 2010-10-21 в 08:29:33, которая является более ранней, чем указанная вами дата (2010-05-15 в 23:07:09).

Таким образом, фактический ответ на ваш вопрос: вы не можете отразить полный снимок одной даты, по крайней мере, не загружая части из снимка другой даты тоже.

Добавление -m (опция зеркала) также извлекает эти страницы.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .