Я заметил следующую ситуацию, которая несколько неожиданна для меня:
У меня есть CSV-файл и соответствующий текстовый файл. Несжатые, их размеры 375 МБ и 5 КБ.
- Когда я сжимаю csv-файл, используя
gzip
со стандартными настройками, его размер уменьшается до 95 МБ. Так что вместе у меня ~ 95 МБ. - Когда я объединяю оба файла в tarball, а затем сжимаю их со стандартными настройками
gzip
, я получаю 189MB.
Из того, что я знаю, сжатый tarball должен быть меньше сжатого csv-файла + txt-файла, потому что тогда gzip
может искать избыточность во всех файлах из архива. Я знаю, что это не имеет значения для моего конкретного случая, так как текстовый файл очень маленький.
Однако не должен ли файл .tar.gz иметь такой же размер, как сжатый файл csv + txt? В моем случае это более чем в два раза больше ...
Я хотел бы избежать нескольких уровней архивирования / сжатия, но все же хочу добиться хорошего сжатия. Я что-то пропустил?