У меня есть около 100 ТБ сжатых данных GZIP на облачных томах. По пути запуска дедупликации на уровне блоков (duperemove для btrfs) я обнаружил, что он был сжат без -n , что приводит к разнице в уровне блоков сжатого вывода для других идентичных файлов.
Помимо повторного сжатия всего этого с помощью gzip -n , есть ли другой способ получить сотни миллионов файлов gziped, чтобы "потерять" этот заголовок? и если мне уже придется заново сжимать их все, следует ли мне заняться другими оптимизациями, такими как --rsyncable чтобы максимизировать шансы дедупликации?
(Данные имеют очень высокие шансы на содержание большого количества дубликатов, мы говорим о ежедневных полных дампах больших таблиц базы данных)
