Я пытаюсь использовать httrack для загрузки всего веб-архива с archive.org. Идея состоит в том, чтобы загрузить только ссылки на архив (как можно больше), но только те ссылки, которые действительно из архива, а не с текущего веб-сайта. Другими словами, я хочу скачать только ссылки, содержащие этот шаблон:

/web/[archive_timestamp]/[website]/*

Вот пример

Вот ссылка на архив: http://web.archive.org/web/20011209181356/http://www.emag.ro:80/

В других, чтобы загрузить ссылки, которые мне нужны, я использую эту команду:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*

Это должно означать, что нужно отфильтровать все ссылки (отключить все) и включить только те, которые содержат /web/20011209181356/http://www.emag.ro/

Команда загружает только домашнюю страницу, так что, думаю, я что-то не так делаю.

Если у кого-то есть представление о том, как это сделать (кроме создания собственного скребка, - попытайтесь избежать этого, чтобы сэкономить время), даже с помощью другого инструмента, который я могу использовать из командной строки, и который также работает в Windows.

1 ответ1

1

Вы были очень близки - вам нужно было только добавить доменное имя к вашему правилу сканирования следующим образом:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/*

Или, чтобы получить все архивные версии этого домена, вы можете использовать:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/*

Но тогда вы захотите включить обход по всему домену, используя эти параметры командной строки (или устанавливая их в графическом интерфейсе в разделе "Только для экспертов")

B ... может перемещаться вверх и вниз по структуре каталогов
д ... но остаться в том же главном домене

Смотрите скриншот ниже. Это то, что вы хотели достичь?

Загруженные страницы

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .