Существует существующий вопрос, похожий на этот, который не получил ответа в соответствующем контексте (огромный объем данных для сравнения), поэтому я пытаюсь снова здесь.
Я использую SuperDuper для хранения клонированной копии внутреннего жесткого диска моего Mac на внешнем диске. Благодаря мерам целостности данных, встроенным в эту программу, для целевого тома может потребоваться значительно больше места, чем на исходном диске, но это не относится к делу.
То, что я хочу сделать, это запустить сравнение "папок" на уровне громкости. В его самом грубом, я хочу по существу diff -r /Volumes/MacintoshHD /Volumes/BackupDrive
и иметь приличный интерфейс навигации для работы с результатами. Большая проблема заключается в том, что это диски объемом 1 ТБ, содержащие около 800 ГБ данных и порядка 3,1 миллиона отдельных файлов. Я перепробовал множество инструментов сравнения, и ни один из них, похоже, не справился с таким огромным количеством данных. Вот краткий список приложений, которые полностью и полностью терпят неудачу в этом:
diff
(командная строка). Поскольку он передает свои результаты на консоль, это более "надежно", чем другие, но он генерирует подавляющий объем неиспользуемого вывода текста (нет удобного интерфейса для "просмотра" различий).FileMerge (от Apple Dev Tools). С меньшими наборами файлов интерфейс работает отлично, но в таком огромном масштабе он будет зависать в течение многих часов, пытаясь отсканировать и, в конечном итоге, потерпеть крах до завершения.
Калейдоскоп. После многих часов сканирования без точного индикатора выполнения, оно в конечном итоге покажет окно сравнения A/B, но случайным образом полностью опустит сторону "B", если вы вообще попытаетесь ориентироваться, заставляя начать все сначала. (Что бессмысленно, потому что это снова опустит сторону B.)
Araxis Merge. Подошло самое близкое из всего, что я пробовал. В конце концов, оно произвело сравнение, но было значительно медленнее как для генерации, так и для навигации, вплоть до невыносимой. Когда вы говорите о 18 часах сканирования, прежде чем вы сможете начать работу с набором данных, и о 20-40 секундах каждый раз, когда вы пытаетесь изменить каталоги в diff, скорость и стабильность имеют огромное значение.
Итак, мой вопрос: существуют ли какие-либо инструменты сравнения, специально предназначенные для массовых сравнений? Как люди "обычно" сравнивают большие наборы данных, измеряемые в трехзначных гигабайтах? Существуют ли, возможно, судебно-медицинские инструменты, которые мои поиски не нашли? В частности, меня волнуют только различия, а не идентичные части. Я ожидаю, что процент изменений будет относительно небольшим, возможно, 1-5%, поэтому инструмент, который "отбрасывает" сходства, будет иметь огромное преимущество с таким большим набором данных.