У меня есть каталог с большим количеством изображений (более 100 000). Многие из них являются дубликатами / идентичными изображениями, но, очевидно, все имеют разные имена файлов. Мне нужно найти изображения, которые имеют наибольшее количество дубликатов в этом каталоге. Например, file1.jpeg содержит 120 дубликатов, file2.jpeg содержит 90 дубликатов и т.д.
Я думал, что я получу md5 каждого файла и сделаю что-то вроде, но я не совсем уверен в деталях. Можно ли это сделать с помощью сценария оболочки?
Чтобы было ясно, мне не нужно удалять дубликаты (пока), мне нужно найти, какие файлы имеют наибольшее количество копий.
Я на OS X, если это поможет.