У меня есть серия резервных копий (сделанных вручную), которые содержат дублирующую информацию. Существует ли какая-либо программа / скрипт / команда для итерации по структуре каталогов, которая идентифицирует дубликаты файлов с помощью хэшей MD5, а затем удаляет один из файлов?

Либо решения для Windows/Linux будут работать.

1 ответ1

1

Лично я использую rdfind для этого. Как упоминалось на связанной странице, для этого есть множество других инструментов, и я пробовал большинство из них, но rdfind оптимизирует сканирование первых и последних нескольких байтов каждого файла и вычисляет только сумму MD5, если они идентичны, что в моих резервных копиях делает этот путь быстрее, чем все, что я пробовал.

Для использования вы запрашиваете, вы хотите запустить

rdfind --deleteduplicates backup_a backup_b

Однако я бы порекомендовал вам запустить его с опцией -makehardlinks. Это заменит дубликаты файлов жесткими ссылками (при условии, что вы храните данные в нормальной файловой системе), так что каждая резервная копия будет выглядеть так, как сейчас, но дублирующиеся данные сохраняются только один раз.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .