У меня есть каталог с подкаталогами и много дубликатов файлов в них. Если я перенесу все в один архив rar, WinRAR обнаружит дубликаты файлов, или все они будут заархивированы и добавлены к размеру архива rar?
3 ответа
В новой версии WinRAR 5.x появился новый формат архива RAR5, и это одно из многих улучшений:
Сохранить идентичные файлы как ссылки. Если эта опция включена, WinRAR анализирует содержимое файла перед началом архивирования. Если найдено несколько идентичных файлов размером более 64 КБ, первый файл в наборе сохраняется как обычный файл, а все последующие файлы сохраняются как ссылки на этот первый файл. Это позволяет уменьшить размер архива, но накладывает некоторые ограничения на результирующий архив. Вы не должны удалять или переименовывать первый идентичный файл в архиве после создания архива, поскольку это сделает невозможным извлечение следующих файлов с использованием его в качестве ссылки. Если вы измените первый файл, следующие файлы также будут иметь измененное содержимое после распаковки. Команда извлечения должна включать первый файл для успешного создания следующих файлов.
Рекомендуется использовать эту опцию, только если вы сжимаете много одинаковых файлов, не изменяете архив позже и извлекаете архив полностью, без необходимости распаковывать или пропускать отдельные файлы. Если все идентичные файлы достаточно малы, чтобы поместиться в словарь сжатия, надежное архивирование может обеспечить более гибкое решение, чем эта опция.
Поддерживается только для архивов RAR 5.0.
Мой быстрый тест на папку, которая содержит 320000 файлов (Трилогия Врата Балдура + много модов) выглядит следующим образом: http://prntscr.com/1q8iyi
Метод сжатия RAR, сжатие установлено на "Store": 26,1 ГБ (28 053 815 768 байт) Метод сжатия RAR5, сжатие установлено на "Store": 23,9 ГБ (25 722 664 097 байт)
Таким образом, я смог сэкономить более 9% без какого-либо сжатия!
Если файлы действительно дублируют (или почти дублируют), программное обеспечение сжатия может использовать это сходство между файлами, чтобы значительно увеличить степень сжатия. Это называется Solid Compression. WinRAR и 7-Zip - два популярных архиватора, которые используют его - 7-Zip делает по умолчанию. Я не пользователь RAR, поэтому я не могу сказать вам, что это конфигурация по умолчанию.
Обычные архиваторы в системах Linux/Unix/BSD также неявно выполняют сплошное сжатие, объединяя все файлы вместе в один файл (чаще всего через tar
) перед сжатием этого отдельного файла в виде большого блока.
Единственное гигантское предостережение во всем этом заключается в том, что у вас нет никакого способа точно узнать, какие файлы похожи или насколько они похожи. Это не хороший способ выяснить, какие у вас дубликаты файлов, и распаковка архива восстановит все эти дубликаты. Что, как правило, именно то, что каждый хочет и ожидает от сжатия данных - чтобы получить обратно именно то, что было вложено в него.
Если вы хотите очистить ваши папки, вам нужно программное обеспечение для обнаружения дубликатов. Для обычных коллекций существует огромное количество программного обеспечения, которое ищет дубликаты файлов. Если вы имеете дело с мультимедиа (аудио, видео, изображения), то вам понадобится программное обеспечение, которое не ищет точные дубликаты, но может отследить ваши файлы и найти группы файлов, которые похожи. Таким образом, если у вас есть 2 копии одной и той же песни с разными тегами или сжатые немного по-разному (скажем, MP3 со скоростью 128 Кбит / с и AAC со скоростью 256 Кбит / с), их можно идентифицировать. Или идентифицируя 2 изображения одного и того же объекта, где одно было обрезано или отредактировано. Каждый тип носителя часто имеет специализированное программное обеспечение для поиска похожих файлов, и здесь были вопросы, прежде чем иметь дело с особенностями каждого типа. Конечно, очистка таких коллекций намного сложнее и занимает больше времени, потому что нет быстрых и простых правил для определения, какой файл следует хранить.
WinRAR не будет делать то, что вы хотите. Однако есть и другие инструменты, которые могут найти дубликаты файлов внутри папки или раздела. Я должен был сделать такую вещь раньше, и я использовал программное обеспечение Easy Duplicate Finder :
Easy Duplicate Finder - это мощный инструмент для поиска и устранения дубликатов фотографий, документов, электронных таблиц, MP3-файлов и многого другого! Удаление дубликатов также поможет ускорить индексацию и уменьшит размер и время резервного копирования. Ваш компьютер не полностью оптимизирован, пока вы не удалите все ненужные дубликаты файлов. Позвольте Easy Duplicate Finder удалить дубликаты!