У меня есть около 100 ТБ сжатых данных GZIP на облачных томах. По пути запуска дедупликации на уровне блоков (duperemove для btrfs) я обнаружил, что он был сжат без -n
, что приводит к разнице в уровне блоков сжатого вывода для других идентичных файлов.
Помимо повторного сжатия всего этого с помощью gzip -n
, есть ли другой способ получить сотни миллионов файлов gziped, чтобы "потерять" этот заголовок? и если мне уже придется заново сжимать их все, следует ли мне заняться другими оптимизациями, такими как --rsyncable
чтобы максимизировать шансы дедупликации?
(Данные имеют очень высокие шансы на содержание большого количества дубликатов, мы говорим о ежедневных полных дампах больших таблиц базы данных)