Лично я использую rdfind для этого. Как упоминалось на связанной странице, для этого есть множество других инструментов, и я пробовал большинство из них, но rdfind оптимизирует сканирование первых и последних нескольких байтов каждого файла и вычисляет только сумму MD5, если они идентичны, что в моих резервных копиях делает этот путь быстрее, чем все, что я пробовал.
Для использования вы запрашиваете, вы хотите запустить
rdfind --deleteduplicates backup_a backup_b
Однако я бы порекомендовал вам запустить его с опцией -makehardlinks. Это заменит дубликаты файлов жесткими ссылками (при условии, что вы храните данные в нормальной файловой системе), так что каждая резервная копия будет выглядеть так, как сейчас, но дублирующиеся данные сохраняются только один раз.