2

Я ищу инструмент для эффективного архивирования блога, который меняется каждый день или даже два или три раза в день. Я не имею в виду, что отдельные сообщения в блоге меняются - не всегда, во всяком случае, - я просто имею в виду, что новые записи в блоге добавляются, а старые записи перемещаются вниз на первую страницу. Одна проблема, которую я вижу, состоит в том, что будет неэффективно архивировать одну и ту же запись в блоге несколько раз. В идеале редакции одной и той же записи должны быть заархивированы, но в оригинале это не обязательно, так как пересмотр, вероятно, обусловлен улучшением или исправлением.

Это блог blogspot.com с текстовыми и статическими изображениями. Решение Linux является предпочтительным.

1 ответ1

1

Одним из решений является сохранение его в репозитории Git.

Поскольку Git использует контентную адресацию, неизмененные файлы занимают незначительное дополнительное пространство в хранилище. Редакции также занимают мало места, потому что в них хранятся различия. Первоначально большие двоичные объекты хранятся в сжатом виде по отдельности, но Git периодически объединяет файлы в пакеты, которые сжимаются более эффективно. Вы также можете вызвать эту функцию вручную, используя git gc .

Простой способ получить данные сайта - использовать wget --mirror . В качестве альтернативы посмотрите, предоставляет ли сайт блога XML API (который был бы более экономичным, избегая архивирования стандартного HTML). Вы хотите загрузить страницы в текущее рабочее дерево.

Затем, после завершения загрузки, добавьте и зафиксируйте все в репозитории git. Следовательно, каждый коммит представляет собой моментальный снимок.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .