Извлечение файлов из веб-архива (.warc)

Question

У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить там много связанных файлов, в частности, несколько PDF-файлов.

У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошего решения для извлечения файлов из этих файлов .warc .

Есть ли у кого-то опыт с этим, или есть предпочтительный способ получить эти отдельные файлы?

score 4 · Answer 1 · 2011-03-09T19:38:42

Вы можете просматривать WARC с помощью Webarchive Player и сохранять нужные файлы из своего браузера. Кроме того, загрузите WARC в webrecorder.io и просмотрите / загрузите там.

score 1 · Answer 2 · 2011-03-09T19:38:42

Я предлагаю попробовать warctools https://github.com/internetarchive/warctools - это python lib, который очень прост в использовании.

score 0 · Answer 3 · 2011-03-09T19:38:42

Ранее я использовал 7-Zip для извлечения отдельных файлов или целых архивов из файлов формата Web Archive.

Это доступно на их сайте здесь.

Сейчас выбран русский

Извлечение файлов из веб-архива (.warc)

3 ответа3

Всё ещё ищете ответ? Посмотрите другие вопросы с метками website archiving webarchive.

Извлечение файлов из веб-архива (.warc)

3 ответа3

Всё ещё ищете ответ? Посмотрите другие вопросы с метками website archiving webarchive.

Похожие