У меня есть несколько веб-сайтов, которые я архивирую, чтобы сохранить там много связанных файлов, в частности, несколько PDF-файлов.
У меня не было проблем с использованием сканера Heritrix для сбора сайтов. Однако я не нашел хорошего решения для извлечения файлов из этих файлов .warc
.
Есть ли у кого-то опыт с этим, или есть предпочтительный способ получить эти отдельные файлы?