3

Существует существующий вопрос, похожий на этот, который не получил ответа в соответствующем контексте (огромный объем данных для сравнения), поэтому я пытаюсь снова здесь.

Я использую SuperDuper для хранения клонированной копии внутреннего жесткого диска моего Mac на внешнем диске. Благодаря мерам целостности данных, встроенным в эту программу, для целевого тома может потребоваться значительно больше места, чем на исходном диске, но это не относится к делу.

То, что я хочу сделать, это запустить сравнение "папок" на уровне громкости. В его самом грубом, я хочу по существу diff -r /Volumes/MacintoshHD /Volumes/BackupDrive и иметь приличный интерфейс навигации для работы с результатами. Большая проблема заключается в том, что это диски объемом 1 ТБ, содержащие около 800 ГБ данных и порядка 3,1 миллиона отдельных файлов. Я перепробовал множество инструментов сравнения, и ни один из них, похоже, не справился с таким огромным количеством данных. Вот краткий список приложений, которые полностью и полностью терпят неудачу в этом:

  • diff (командная строка). Поскольку он передает свои результаты на консоль, это более "надежно", чем другие, но он генерирует подавляющий объем неиспользуемого вывода текста (нет удобного интерфейса для "просмотра" различий).

  • FileMerge (от Apple Dev Tools). С меньшими наборами файлов интерфейс работает отлично, но в таком огромном масштабе он будет зависать в течение многих часов, пытаясь отсканировать и, в конечном итоге, потерпеть крах до завершения.

  • Калейдоскоп. После многих часов сканирования без точного индикатора выполнения, оно в конечном итоге покажет окно сравнения A/B, но случайным образом полностью опустит сторону "B", если вы вообще попытаетесь ориентироваться, заставляя начать все сначала. (Что бессмысленно, потому что это снова опустит сторону B.)

  • Araxis Merge. Подошло самое близкое из всего, что я пробовал. В конце концов, оно произвело сравнение, но было значительно медленнее как для генерации, так и для навигации, вплоть до невыносимой. Когда вы говорите о 18 часах сканирования, прежде чем вы сможете начать работу с набором данных, и о 20-40 секундах каждый раз, когда вы пытаетесь изменить каталоги в diff, скорость и стабильность имеют огромное значение.

Итак, мой вопрос: существуют ли какие-либо инструменты сравнения, специально предназначенные для массовых сравнений? Как люди "обычно" сравнивают большие наборы данных, измеряемые в трехзначных гигабайтах? Существуют ли, возможно, судебно-медицинские инструменты, которые мои поиски не нашли? В частности, меня волнуют только различия, а не идентичные части. Я ожидаю, что процент изменений будет относительно небольшим, возможно, 1-5%, поэтому инструмент, который "отбрасывает" сходства, будет иметь огромное преимущество с таким большим набором данных.

1 ответ1

0

DupScan (для Mac) найдет все дубликаты файлов. У него есть много вариантов сравнения файлов, контрольная сумма - одна.

Результатом DupScan является список файлов с количеством дубликатов и простым способом их удаления.

Конечно ... что бы вы ни делали, это займет несколько часов.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .