Существует ли контрольная сумма файла, предназначенная специально для восстановления одного файла (архива) с повреждением данных? Что-то простое, например, хеш, который можно использовать для восстановления файла
Я пытаюсь заархивировать некоторые резервные копии домашних и деловых файлов (не медиа-файлов), сжимая их и датируя их. Самый большой архив в настоящее время работает около 250 ГБ. После создания архива я сделал контрольную сумму MD5, перенес архив на другой диск, затем использовал MD5 для проверки правильности передачи файлов и сохранил хеш MD5 вместе с архивами для последующей проверки. Я планирую пытаться архивировать эти резервные копии 1-2 раза в год и хранить их на жестком диске и лентах, как позволяет бюджет.
Текущий формат архива "Zipx" с самыми высокими настройками.
Учитывая, что в настоящее время объем информации составляет около 1-2 ТБ в год, я предполагаю, что приходится иметь дело с какой-то порчей данных; особенно учитывая, что эти файлы находятся на потребительских дисках. Добавьте к этому то, что резервные копии в конечном итоге переносятся с диска на диск, на ленту и обратно, что первоначальный архив объемом 250 ГБ может содержать много терабайт записанных и прочитанных данных, увеличивая риск повреждения данных. А проверка MD5 после каждой передачи добавляет много времени, так как проверка MD5 ограничена вводом / выводом; проверка MD5 для архива объемом 250 ГБ занимает много времени, умноженного на все архивы, и MD5 обязательно будут проверяться не так часто, как это необходимо.
Итак, предположения таковы:
- Данные будут повреждены
- Мы не узнаем об этом до тех пор, пока это не станет фактом.
- Из-за бюджетных ограничений и отсутствия "критически важных" у нас нет нескольких копий одних и тех же архивов резервных копий, только разные итерации резервных копий.
- Мы хотим свести к минимуму копии наших резервных копий, одновременно защищая от повреждения данных.
- Если один или два файла в архиве действительно повреждены, и мы теряем данные при попытке восстановить; жизнь будет продолжаться. Это не критически важная вещь.
- Архивы являются вторичной резервной копией и, надеюсь, не будут использоваться чаще, чем пару раз за десятилетие или меньше. Оперативная резервная копия существует без сжатия.
С этим предположением, как мы защищаем от повреждения данных.
Хранение хеша MD5 позволяет только кому-то узнать, соответствуют ли текущие данные исходным данным или нет. Это не позволяет кому-либо или как-либо помочь восстановить данные. То есть, если мне нужно восстановить из резервной копии и иметь поврежденные данные в файле или файлах, которые мне нужны, MD5 практически бесполезен.
Так есть ли контрольная сумма, специально разработанная для того, чтобы не только проверять данные, но и восстанавливать их? Вроде как ECC для памяти, но для файлов?
Примечание: я нашел parchive, но он не выглядит актуальным и надежно используемым.Хотя мне может не нравиться то, как они реализовали вещи, в целом parchive - это именно то, что я ищу, но не могу найти. Существует ли что-то вроде parchive, готовое к "производству"?
Обновление. Похоже, что некоторые форматы архивов поддерживают восстановление, хотя единственным распространенным форматом является WinRAR. Было бы предпочтительнее не блокироваться в формате просто для этого варианта, так как большинство форматов (75% +/- в связанном списке), по-видимому, не поддерживают восстановление.