У меня есть много файлов, в основном png и pdf, некоторые svg, некоторые другие, которые нужно перенести. Множество ТБ, файлы по отдельности разрабатываются в диапазоне от нескольких КБ до нескольких МБ. Проблема в том, что я должен перенести их удаленно с сайта с плохой загрузкой (200 КБ 0 700 КБ / с).

Важно, чтобы я зарезервировал эти файлы как можно скорее, но в настоящее время по сети это единственный способ. Это займет недели, а это слишком долго. К сожалению, у меня нет никого местного, которому я мог бы доверять, чтобы вручную перенести и отправить мне жесткий диск. Так что мне остается сжимать как можно больше до маленьких файлов.

Я использовал 7-Zip на ультра сжатие (LZMA2) для архивирования файлов и разбить их на 10 МБ (в разных группах для разных категорий файлов). Это сработало отлично.

Если я сделаю одно и то же для всех вместе, сожму все группы (разделенные папками) в один разделенный архив 7-Zip Ultra LZMA2 10 Мб, это вообще поможет, или это пустая трата времени? Сможет ли он объединить данные, чтобы сжать их в более высокой степени и получить меньше файлов размером 10 Мб?

ПРИМЕЧАНИЕ. Причина, по которой я разбил его на фрагменты, заключается в том, что для передачи потребуется много времени, несмотря на то, что небольшие фрагменты предотвратят сбой сети, перезагрузку компьютера или любую другую проблему, которая может испортить весь процесс.

1 ответ1

2

Извините, но это во многом будет пустой тратой времени.

Сжатие данных работает так, чтобы выявлять закономерности / допущения и представлять их более эффективно. Однако конечный результат не имеет тенденцию создавать сжимаемые шаблоны.

Можно взять некоторые данные, которые были довольно паршивыми, сжать их более агрессивно и получить некоторый выигрыш. Обычно прирост составляет менее 3%, с 10% в довольно редких случаях. Тем не менее, есть немного накладных расходов. Таким образом, другие результаты, которые являются довольно распространенными, дают приблизительно 0% экономии при некоторых затратах, так что вы можете увеличить размер файла.

Не стесняйтесь попробовать, если хотите, но общие результаты таких усилий - улучшения, которые незначительны или отсутствуют, или даже ухудшают ситуацию.

Дело в том, что не все данные могут быть сжаты. Аргумент "подсчета", также известный как принцип "голубиной дыры", объясняет почему. (См. Раздел FAQ по сжатию.) По сути, если сжатые данные равны или меньше (используется меньше битов), то сжатых файлов будет меньше, чем несжатых файлов, что доказывает, что не каждый возможный уникальный несжатый файл может быть представлен меньшим количеством битов.

На самом деле, большинство данных несжимаемо. К счастью для нас, самые интересные данные сжимаемы. Например, большинство изображений не выглядят как случайные черно-белые изображения (например, «снег» на старых телевизорах, которые отображали случайные монохромные пиксели случайной интенсивности). Большинство электронных таблиц на самом деле не имеют полностью случайных чисел (включая числа в отрицательных триллионах и дробные единицы, которые имеют сорок три знака после запятой и знаки плюс непосредственно перед знаками деления).

Даже текст имеет шаблоны, такие как интенсивное использование гласных и случайное использование знаков препинания, за которыми следуют пробелы, а затем заглавные буквы.

Однако сжатые данные имеют тенденцию принимать полезные шаблоны и представлять их эффективными способами. Таким образом, процесс сжатия данных устраняет недостатки. В результате, как правило, существует небольшая неэффективность, которую мы можем идентифицировать и хранить более эффективно.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .