3

У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить там много связанных файлов, в частности, несколько PDF-файлов.

У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошего решения для извлечения файлов из этих файлов .warc .

Есть ли у кого-то опыт с этим, или есть предпочтительный способ получить эти отдельные файлы?

3 ответа3

4

Вы можете просматривать WARC с помощью Webarchive Player и сохранять нужные файлы из своего браузера. Кроме того, загрузите WARC в webrecorder.io и просмотрите / загрузите там.

1

Я предлагаю попробовать warctools https://github.com/internetarchive/warctools - это python lib, который очень прост в использовании.

0

Ранее я использовал 7-Zip для извлечения отдельных файлов или целых архивов из файлов формата Web Archive.

Это доступно на их сайте здесь.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .