Я унаследовал исследовательский кластер с ~ 40 ТБ данных в трех файловых системах. Данные растянуты почти на 15 лет, и, скорее всего, существует большое количество дубликатов, поскольку исследователи копируют данные друг друга по разным причинам, а затем просто держатся за копии.
Я знаю об инструментах удаления дубликатов, таких как fdupes и rmlint. Я пытаюсь найти тот, который будет работать с таким большим набором данных. Мне все равно, потребуются ли недели (или, может быть, даже месяцы) для сканирования всех данных - я, вероятно, все равно ограничу их, чтобы облегчить работу с файловыми системами. Но мне нужно найти инструмент, который либо как-то очень эффективен с оперативной памятью, либо может хранить все необходимые промежуточные данные в файлах, а не в оперативной памяти. Я предполагаю, что моя оперативная память (64 ГБ) будет исчерпана, если я просканирую все эти данные как один набор.
Сейчас я экспериментирую с fdupes на дереве 900 ГБ. Проходит 25% времени, и использование ОЗУ медленно растет все время, теперь оно составляет 700 МБ.
Или есть ли способ направить процесс на использование ОЗУ с отображением на диске, чтобы было гораздо больше доступного и не использовать системную ОЗУ?
Я использую CentOS 6.