Если кто-то знаком с концепцией дедупликации (если нет, прочитайте ссылку в Википедии)http://en.wikipedia.org/wiki/Data_deduplication

Можно ли выполнить дедупликацию рекурсивно, т.е. дедуплицировать дедуплицированные данные?
Это может привести к снижению экономии с точки зрения пространства, но, безусловно, в очень больших масштабах это может привести к некоторой экономии с точки зрения нескольких гигабайт?

Мы обеспокоены целостностью данных? (Невозможно заверить, что при возврате к исходному виду это будет точная копия оригинала)

1 ответ1

1

Если ваша дедупликация выполняется на основе блоков данных фиксированного размера, то нет, дальнейшая дедупликация бесполезна, поскольку вы уже сохраняете каждый идентичный блок только один раз. (Блоки могут быть любыми логическими блоками, которые могут отображаться или не отображаться напрямую в аппаратные блоки).

Если ваша схема рекурсивной дедупликации использует другой размер блока или если вы используете нефиксированный размер блока, рекурсивная дедупликация может работать и может привести к дополнительной экономии (теоретически).

Трудно сказать, поддержит ли это какое-либо из современных программ. Моим лучшим предположением будет ZFS. Там вы можете создавать пулы хранения, которые используют обычные файлы в качестве устройства хранения. Эти нормальные файлы могут сами храниться в системе ZFS, где включена дедупликация. Теперь у вас будет рекурсивная дедупликация. (с действительно плохой работой)

Очевидный вопрос: что сэкономит больше места? Рекурсивная дедупликация или Сжатие + Дедупликация. И: спасет ли дедупликация сжатых + дедуплицированных данных что-нибудь?

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .