Я пытаюсь использовать httrack для загрузки всего веб-архива с archive.org. Идея состоит в том, чтобы загрузить только ссылки на архив (как можно больше), но только те ссылки, которые действительно из архива, а не с текущего веб-сайта. Другими словами, я хочу скачать только ссылки, содержащие этот шаблон:
/web/[archive_timestamp]/[website]/*
Вот пример
Вот ссылка на архив: http://web.archive.org/web/20011209181356/http://www.emag.ro:80/
В других, чтобы загрузить ссылки, которые мне нужны, я использую эту команду:
httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*
Это должно означать, что нужно отфильтровать все ссылки (отключить все) и включить только те, которые содержат /web/20011209181356/http://www.emag.ro/
Команда загружает только домашнюю страницу, так что, думаю, я что-то не так делаю.
Если у кого-то есть представление о том, как это сделать (кроме создания собственного скребка, - попытайтесь избежать этого, чтобы сэкономить время), даже с помощью другого инструмента, который я могу использовать из командной строки, и который также работает в Windows.