У меня есть набор резервных копий в основном фотографий. Каталог выглядит примерно так:

backup/Day1/photos/1.jpg
               .../2.jpg
backup/Day2/photos/2.jpg
               .../3.jpg
               .../4.jpg
backup/DayN/photos/2.jpg
               .../3.jpg
               .../9.jpg

Файлы с одинаковыми именами идентичны. Есть много дубликатов. Из-за того, как работает система резервного копирования, невозможно создать инкрементную резервную копию напрямую. Я всегда получаю всю свалку каждый день.

Если я хочу создать сжатый архив для диапазона дат, скажем, День 5-9, каков наилучший инструмент / алгоритм сжатия для этого, который хорошо выполняет дедупликацию? (Я не рассчитываю на сжатие самого jpeg)

2 ответа2

1

WIM (Windows Imaging Format), вероятно, то, что вы ищете. Хотя ZPAQ - не что иное, как удивительный инструмент (я использую его сам), он выполняет дедупликацию на основе блоков, тогда как дедупликация WIM основана на файлах (MS называет это SIS - Single Instance Storage, см. Microsoft Deployment Toolkit Using MDT и Single- Хранение экземпляра).

Поскольку в вопросе упоминается, что повторяются сами файлы, можно утверждать, что дедупликация на основе файлов будет более подходящей, особенно с учетом того, что мы говорим о JPEGS.

И WIM, и ZPAQ:

Преимущества WIM:

  • Широко принят и поддерживается
  • Быстрее
  • Результаты, аналогичные ZPAQ

Недостатки WIM

  • Дедупликация на уровне файлов (бесполезна для файлов (особенно больших) с небольшими изменениями).

Преимущества ZPAQ:

  • Дедупликация на уровне блоков - удивительно для многократно повторяющихся данных, например, с небольшими изменениями между версиями файлов, но не только
  • Удивительный инструмент, уникальный в том, что он делает и как он это делает, насколько я знаю

ZPAQ Недостатки:

  • немного медленнее (не так много, как я себе представляю), когда дедупликация включена, а сжатие установлено на максимум (5), поэтому только незначительное преимущество, если дедупликации на уровне файлов достаточно
  • Не широко принят
  • Нет хорошей поддержки GUI (это важно для восстановления и навигации по архиву)
0

ZPAQ - малоизвестный архиватор, который выполняет дедупликацию, и, AFAIK, единственный. Поскольку ZPAQ также поддерживает управление версиями, вы можете хранить каждую резервную копию в одном архиве, что еще больше сокращает использование пространства.

Или вы можете использовать систему контроля версий, такую как Git, которая автоматически выполняет дедупликацию файлов.

Или, если вы хотите что-то более сложное, вы можете поработать с Btrfs или ZFS, которые являются файловыми системами со встроенной дедупликацией. Однако дедупликация Btrfs не так хороша, как в ZFS.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .