Короткий ответ
Невозможно гарантировать длительный период из-за энтропии (также называемой смертью!). Цифровые данные разрушаются и умирают, как и любая другая вещь во вселенной. Но это может быть замедлено.
В настоящее время не существует надежного и научно доказанного способа гарантировать более чем 30-летний архив холодных данных. Некоторые проекты стремятся сделать это, например, проект Rosetta Disks в музее Long Now, хотя они все еще очень дороги и имеют низкую плотность данных (около 50 МБ).
В то же время вы можете использовать научно доказанные эластичные оптические среды для холодного хранения, такие как диски Blu-ray типа HTL, например, Panasonic, или DVD+R архивного класса, например, Verbatim Gold Archival, и хранить их в герметичных коробках в мягком месте (избегайте высокая температура) и вне света.
Также будьте резервными: сделайте несколько копий ваших данных (как минимум 4) и вычислите хэши, чтобы регулярно проверять, что все в порядке, и каждые несколько лет вы должны переписывать свои данные на новые диски. Кроме того, используйте много исправляющих ошибки кодов, они позволят вам восстановить ваши поврежденные данные!
Длинный ответ
Почему данные повреждены со временем? Ответ заключается в одном слове: энтропия. Это одна из основных и неизбежных сил вселенной, которая заставляет системы становиться все менее и менее упорядоченными во времени. Повреждение данных - это как раз и есть беспорядок в порядке следования битов. Другими словами, Вселенная ненавидит ваши данные.
Борьба с энтропией - это то же самое, что борьба со смертью. Но вы можете найти способы замедлить смерть, как вы можете замедлить энтропию. Вы также можете обмануть энтропию, исправляя повреждения (другими словами: вы не можете остановить повреждения, но вы можете исправить их, если вы приняли меры заранее!). Как и в случае с жизнью и смертью, здесь нет волшебной палочки и нет единого решения для всех, а лучшие решения требуют от вас непосредственного участия в цифровом хранении ваших данных. И даже если вы все делаете правильно, вы не гарантируете безопасность своих данных, вы только максимизируете свои шансы.
Теперь о хороших новостях: теперь есть довольно эффективные способы хранения ваших данных, если вы сочетаете в себе качественные носители данных и хорошие стратегии архивирования / хранения данных: вам следует спланировать неудачу.
Каковы хорошие стратегии курирования? Давайте разберемся одно: большая часть информации, которую вы найдете, будет о резервных копиях, а не об архивации. Проблема в том, что большинство людей перенесут свои знания о стратегиях резервного копирования в архив, и, таким образом, многие мифы сейчас широко распространены. Действительно, хранение данных в течение нескольких лет (резервное копирование) и хранение данных в течение как можно более длительного периода времени, охватывающего как минимум десятилетия (архивирование), являются совершенно разными целями и, следовательно, требуют различных инструментов и стратегий.
К счастью, исследований и научных результатов достаточно много, поэтому я советую ссылаться на эти научные статьи, а не на форумы или журналы. Здесь я подведу некоторые из моих чтений.
Кроме того, будьте осторожны с претензиями и независимыми научными исследованиями, утверждая, что тот или иной носитель информации идеален. Вспомните знаменитый проект BBC Domesday: «Цифровая книга Domesday длится 15 лет, а не 1000». Всегда перепроверяйте исследования с действительно независимыми документами, и если их нет, всегда предполагайте, что носитель не подходит для архивирования.
Давайте уточним, что вы ищете (из вашего вопроса):
Долгосрочная архивация: вы хотите сохранить копии ваших разумных, невоспроизводимых "личных" данных. Архивирование принципиально отличается от резервного копирования, что также объясняется здесь: резервные копии предназначены для динамических технических данных, которые регулярно обновляются и, следовательно, должны обновляться в резервные копии (т. Е. ОС, макет рабочих папок и т.д.), Тогда как архивы являются статическими данными, которые Скорее всего, вы будете писать только один раз и время от времени читать. Архивы для внутренних данных, как правило, личные.
Холодное хранение: вы хотите максимально избежать обслуживания ваших архивных данных. Это БОЛЬШОЕ ограничение, поскольку оно означает, что носитель должен использовать компоненты и методологию письма, которые остаются стабильными в течение очень долгого времени, без каких-либо манипуляций с вашей стороны и без необходимости какого-либо подключения к компьютеру или электроснабжению.
Чтобы упростить наш анализ, давайте сначала изучим решения для хранения в холодильнике, а затем долгосрочные стратегии архивирования.
Носители холодного хранения
Выше мы определили, каким должен быть хороший холодный носитель: он должен хранить данные в течение длительного времени без каких-либо манипуляций (вот почему он называется "холодным": вы можете просто хранить его в шкафу, и вам не нужно подключать его к компьютер для хранения данных).
Бумага может показаться самым устойчивым средством хранения на земле, потому что мы часто находим очень старые рукописи из древних времен. Однако бумага страдает от основных недостатков: во-первых, плотность данных очень низкая (не может хранить более ~ 100 КБ на бумаге, даже с крошечными символами и компьютерными инструментами), и со временем она ухудшается без какого-либо способа ее мониторинга: бумага так же, как жесткие диски, страдают от тихой коррупции. Но в то время как вы можете отслеживать скрытые искажения на цифровых данных, вы не можете на бумаге. Например, вы не можете гарантировать, что изображение сохранит те же цвета в течение всего лишь десятилетия: цвета будут ухудшаться, и у вас нет возможности найти первоначальные цвета. Конечно, вы можете курировать свои фотографии, если вы профессионал в восстановлении изображений, но это занимает много времени, в то время как с цифровыми данными вы можете автоматизировать этот процесс курирования и восстановления.
Жесткие диски (HDD), как известно, имеют средний срок службы от 3 до 8 лет: они не просто разрушаются с течением времени, они гарантированно в конечном итоге умрут (то есть: недоступны). Следующие кривые показывают эту тенденцию для всех жестких дисков умереть с ошеломляющей скоростью:
Кривая ванны, показывающая эволюцию частоты отказов жесткого диска с учетом типа ошибки (также применима к любому устройству):
Кривая, показывающая частоту отказов жесткого диска, объединены все типы ошибок:
Источник: Backblaze
Вы можете видеть, что есть 3 типа жестких дисков относительно их отказа: быстро умирающие (например, производственная ошибка, плохое качество жестких дисков, поломка головки и т.д.), С постоянной скоростью умирания (хорошее производство, они умирают для разных " нормальные "причины", так обстоит дело с большинством жестких дисков) и, наконец, надежные, которые живут немного дольше, чем большинство жестких дисков, и в конечном итоге умирают вскоре после "обычных" (например: удачные жесткие диски, не слишком часто используемые, идеальные условия окружающей среды и т.д ..). Таким образом, вам гарантировано, что ваш жесткий диск умрет.
Почему жесткие диски умирают так часто? Я имею в виду, что данные записаны на магнитном диске, и магнитное поле может длиться десятилетия, прежде чем исчезнет. Причина, по которой они умирают, заключается в том, что носитель данных (магнитный диск) и считывающее оборудование (электронная плата + вращающаяся головка) связаны между собой: они не могут быть разобщены, вы не можете просто извлечь магнитный диск и прочитать его с другой головкой, потому что сначала электронная плата (которая преобразует физические данные в цифровую) различна практически для каждого жесткого диска (даже той же марки и эталона, это зависит от завода-изготовителя), а внутренний механизм с вращающейся головкой настолько сложен, что в настоящее время это невозможно для человека, чтобы идеально разместить вращающуюся головку на магнитных дисках, не убивая их.
Кроме того, известно, что со временем HDD размагничиваются, если не используются (включая SSD). Таким образом, вы не можете просто хранить данные на жестком диске, хранить их в шкафу и думать, что они будут хранить данные без какого-либо электрического подключения: вам необходимо подключать жесткий диск к источнику питания не реже одного раза в год или в течение нескольких лет. Таким образом, жесткие диски явно не подходят для холодного хранения.
Магнитные ленты: они часто описываются как доступ к резервным копиям, и как расширение для архивирования. Проблема с магнитными лентами состоит в том, что они ОЧЕНЬ чувствительны: частицы магнитного оксида могут быть легко испорчены солнцем, водой, воздухом, царапинами, размагничены временем или любым электромагнитным устройством или просто упадут со временем, или будут напечатаны. Вот почему они обычно используются только в центрах обработки данных профессионалами. Кроме того, никогда не было доказано, что они могут хранить данные более десяти лет. Итак, почему их часто советуют делать резервные копии? Поскольку раньше они были дешевыми: в те времена магнитные ленты стоили в 10-100 раз дешевле, чем жесткие диски, а жесткие диски были гораздо менее стабильными, чем сейчас. Поэтому магнитные ленты в первую очередь рекомендуются для резервного копирования из-за экономической эффективности, а не из-за отказоустойчивости, что нас больше всего интересует, когда дело доходит до архивирования данных.
Карты CompactFlash и Secure Digital (SD), как известно, достаточно прочные и надежные, способные выдержать катастрофические условия.
Карты памяти в большинстве камер практически неразрушимы, пишет журнал Digital Camera Shopper. Пять форматов карт памяти остались живы, будучи вареными, растоптанными, вымытыми и вымытыми в кофе или коле
Однако, как и любой другой магнитный носитель, для сохранения данных используется электрическое поле, и, следовательно, если на карте не хватает сока, данные могут быть полностью потеряны. Таким образом, не идеально подходит для холодного хранения (так как вам иногда нужно перезаписывать все данные на карте, чтобы обновить электрическое поле), но это может быть хорошим средством для резервного копирования и краткосрочного или среднесрочного архивирования.
Оптические носители: Оптические носители представляют собой класс носителей данных, полагающихся на лазер для чтения данных, таких как CD, DVD или Blu-ray (BD). Это можно рассматривать как эволюцию бумаги, но мы записываем данные в таком крошечном размере, что нам нужен был более точный и упругий материал, чем бумага, и оптические диски - это как раз то, что нужно. Два самых больших преимущества оптических носителей в том, что носитель данных отделен от считывающего оборудования (т. Е. Если ваш DVD-ридер выходит из строя, вы всегда можете купить другой для чтения вашего диска) и что он основан на лазере, что делает его универсальным и будущее (т. е. если вы знаете, как сделать лазер, вы всегда можете настроить его так, чтобы он считывал биты с оптического диска путем эмуляции, как это делал CAMILEON для проекта BBC Domesday).
Как и любая технология, новые итерации предлагают не только большую плотность (хранилище), но и лучшую коррекцию ошибок и лучшую устойчивость к разрушению окружающей среды (не всегда, но в целом верно). Первые дебаты о надежности DVD были между DVD-R и DVD+R, и даже если DVD-R все еще широко распространены в наши дни, DVD+R признан более надежным и точным.
В настоящее время существуют архивные DVD-диски, специально предназначенные для холодного хранения, в которых утверждается, что они могут выдерживать не менее ~ 20 лет без какого-либо обслуживания:
Verbatim Gold Archival DVD-R был [...] признан самым надежным DVD-R в тщательном долгосрочном стресс-тесте хорошо известного немецкого журнала c't (c't 16/2008, стр. 116-123). ) [...] достижение минимального срока службы 18 лет и средней прочности от 32 до 127 лет (при 25 ° С, 50% влажности). Ни один другой диск не приблизился к этим значениям, второй лучший DVD-R имел минимальный срок службы всего 5 лет.
С LinuxTech.net.
Кроме того, некоторые компании, специализирующиеся на очень долгосрочном архивировании DVD-дисков, активно продают их, например, M-Disc от Millenniata или DataTresorDisc, утверждая, что они могут хранить данные более 1000 лет, и проверены некоторыми (независимыми) исследованиями (из 2009) среди менее научных других.
Все это кажется очень многообещающим! К сожалению, независимых научных исследований недостаточно для подтверждения этих утверждений, и немногие из них не столь восторжены:
Влажность (относительная влажность 80%) и температура (80 ° C) ускоряли старение на нескольких DVD-дисках в течение 2000 часов (около 83 дней) теста с регулярной проверкой читаемости данных:
Перевод с французского учреждения архивирования цифровых данных (Archives de France), исследование с 2012 года.
Первый график показывает DVD с медленным развитием деградации. Второй DVD с кривыми быстрой деградации. И третий - для специальных «очень долгосрочных» DVD, таких как M-Disc и DataTresorDisc. Как мы видим, их производительность не совсем соответствует заявленным требованиям, будучи ниже или на уровне стандартных DVD-архивов!
Однако неорганические оптические диски, такие как M-Disc и DataTresorDisc, получают одно преимущество: они совершенно нечувствительны к деградации света:
Ускоренное старение с использованием света (750 Вт / м²) в течение 240 часов:
Это отличные результаты, но DVD с архивным качеством, такой как Verbatim Gold Archival, также достигает той же производительности, и, кроме того, свет является наиболее контролируемым параметром для объекта: довольно легко поместить DVD в закрытую коробку или шкаф, и, таким образом, устранение любого возможного воздействия света вообще. Было бы гораздо полезнее получить DVD, который очень устойчив к температуре и влажности, чем свет.
Эта же исследовательская группа также изучила рынок Blu-ray, чтобы увидеть, будет ли какой-либо бренд с хорошим средним значением для длительного хранения в холодильнике. Вот их вывод:
Влажность и температура ускорили старение на нескольких марках Blu-ray при тех же параметрах, что и для DVD:
Легкое ускоренное старение на нескольких брендах BluRays, те же параметры:
Перевод с этого исследования Archives de France, 2012.
Два резюме всех результатов (на французском языке) здесь и здесь.
В общем, лучший диск Blu-ray (от Panasonic) показал себя так же, как и лучший DVD-диск архивного класса в тесте влажности + температуры, но при этом практически не чувствителен к свету! И этот диск Blu-ray даже не архивный класс. Кроме того, диски Blu-ray используют улучшенный код с исправлением ошибок, чем диски DVD (сами они используют расширенную версию относительно компакт-дисков), что дополнительно минимизирует риски потери данных. Таким образом, кажется, что некоторые диски BluRay могут быть очень хорошим выбором для холодного хранения.
И действительно, некоторые компании начинают работать с архивными Blu-ray дисками высокой плотности, такими как Panasonic и Sony, объявляя, что они смогут предложить от 300 ГБ до 1 ТБ хранилища со средним сроком службы 50 лет. Кроме того, крупные компании обращаются к оптическим носителям для холодного хранения (потому что они потребляют намного меньше ресурсов, поскольку их можно хранить в холодильнике без какого-либо электропитания), например, Facebook, который разработал роботизированную систему для использования дисков Blu-ray как "холодных" хранилище " для данных их системы редко получают доступ.
Архивная инициатива «Длинный сейчас»: есть и другие интересные идеи, такие как проект « Розеттский диск» музея «Длинный сейчас», который представляет собой проект написания микроскопически масштабированных страниц Бытия на всех языках мира, на которые был переведен Бытие. Это отличный проект, который первым предлагает среду, которая позволяет хранить 50 МБ для действительно очень длительного холодного хранения (так как оно написано на углероде), и с доступом на будущее, так как вам нужен только увеличитель для доступа к данных (без каких-либо странных спецификаций формата или технологических проблем, таких как фиолетовый луч Blu-ray, просто нужна лупа!). Тем не менее, они все еще сделаны вручную и, таким образом, оцениваются примерно в 20 тысяч долларов, что, по-моему, слишком много для схемы личного архивирования.
Интернет-решения: еще один способ хранения ваших данных - через Интернет. Тем не менее, решения для облачного резервного копирования не очень подходят, потому что первостепенное значение для компаний, занимающихся облачным хостингом, может не хватить, если вы захотите сохранить свои данные. Другие причины включают в себя тот факт, что резервное копирование ужасно медленное (так как оно передается через Интернет), и большинство провайдеров требуют, чтобы файлы также существовали в вашей системе, чтобы они оставались в сети. Например, и CrashPlan, и Backblaze будут безвозвратно удалять файлы, которые хотя бы один раз не были видны на вашем компьютере за последние 30 дней, поэтому, если вы хотите загружать резервные данные, которые хранятся только на внешних жестких дисках, вам придется подключить USB HDD, по крайней мере, один раз в месяц и синхронизировать с облаком, чтобы сбросить обратный отсчет. Однако некоторые облачные сервисы предлагают хранить ваши файлы в течение неопределенного времени (если вы, конечно, платите) без обратного отсчета, например, SpiderOak. Поэтому будьте очень осторожны с условиями и использованием выбранного вами решения для резервного копирования на основе облака.
Альтернативой провайдерам облачного резервного копирования является аренда собственного частного сервера в режиме онлайн и, если возможно, выберите один из них с автоматическим зеркалированием / резервным копированием ваших данных в случае сбоя оборудования на их стороне (некоторые даже гарантируют вам защиту от потери данных в своих контрактах). , но конечно дороже). Это отличное решение, во-первых, потому что вы по-прежнему владеете своими данными, а во-вторых, потому что вам не придется управлять сбоями оборудования, это ответственность вашего хоста. И если однажды ваш хост выйдет из бизнеса, вы все равно сможете вернуть свои данные (выберите серьезный хост, чтобы они не закрывались в течение ночи, а уведомляли вас заранее, возможно, вы можете попросить включить это в контракт), и переназначить в другом месте.
Если вы не хотите создавать собственный частный онлайн-сервер и можете себе это позволить, Amazon предлагает новую услугу архивирования данных под названием Glacier. Цель состоит в том, чтобы точно хранить ваши данные в долгосрочной перспективе: таким образом, хранение данных на Glacier обходится дорого, но еще дороже получить эти данные, поскольку эта служба предназначена для хранения данных вне досягаемости. , а не хранить данные, к которым вы хотите часто обращаться. Это означает, что данный сервис указывает цены как для записи данных, так и для их чтения. Эта услуга имеет огромную стоимость, но она может оказаться выгодной для некоторых наиболее важных данных (например, если у вас есть несколько ОЧЕНЬ полезных текстовых файлов или изображений, поскольку данные такого типа обычно имеют небольшой размер, не будет стоить вам очень дорого, чтобы хранить в леднике).
Недостатки холодного хранилища: Однако в любом холодном хранилище есть большой недостаток: нет проверки целостности, потому что холодные носители НЕ МОГУТ автоматически проверять целостность данных (они могут просто реализовать схемы исправления ошибок, чтобы "залечить" немного ущерб после коррупции произошел, но он не может быть предотвращен или автоматически устранен!) потому что, в отличие от компьютера, нет вычислительного модуля для вычисления / журнализации / проверки и исправления файловой системы. Принимая во внимание, что с компьютером и несколькими блоками хранения вы можете автоматически проверять целостность ваших архивов и автоматически зеркалировать на другой блок, если это необходимо, если в архиве данных произошло некоторое повреждение (если у вас есть несколько копий одного и того же архива).
Долгосрочный архив
Даже при использовании наилучших доступных в настоящее время технологий цифровые данные могут храниться в холодильнике только в течение нескольких десятилетий (около 20 лет). Таким образом, в долгосрочной перспективе вы не можете просто полагаться на холодное хранилище: вам нужно настроить методологию для вашего процесса архивирования данных, чтобы гарантировать, что ваши данные могут быть получены в будущем (даже с технологическими изменениями), и что вы минимизируете риски потерять ваши данные. Другими словами, вам нужно стать цифровым куратором ваших данных, исправлять искажения, когда они происходят, и воссоздавать новые копии, когда это необходимо.
Здесь нет правил защиты от дурака, но вот несколько устоявшихся стратегий лечения, и в частности магический инструмент, который облегчит вашу работу:
- Принцип избыточности / репликации: избыточность является единственным инструментом, который может обратить вспять влияние энтропии, которая является принципом, основанным на теории информации. Чтобы сохранить данные, вам нужно продублировать эти данные. Коды ошибок - это как раз автоматическое применение принципа избыточности. Однако вам также необходимо убедиться, что ваши данные избыточны: несколько копий одних и тех же данных на разных дисках, несколько копий на разных носителях (так что если один носитель выйдет из строя из-за внутренних проблем, маловероятно, что другие на разных носителях в тоже время не выполняются) и т. д. В частности, у вас всегда должно быть как минимум 3 копии ваших данных, также называемых 3-модульной избыточностью в разработке, так что если ваши копии повреждены, вы можете отдать простое большинство голосов за восстановить ваши файлы из ваших 3 копий. Всегда помните совет моряка по компасу:
Приносить два компаса бесполезно, потому что, если один пойдет не так, вы никогда не узнаете, какой из них правильный, или оба неправильны. Всегда берите один компас или больше трех.
Коды исправления ошибок: это волшебный инструмент, который сделает вашу жизнь проще и ваши данные безопаснее. Коды исправления ошибок (ECC) - это математическая конструкция, которая будет генерировать данные, которые можно использовать для восстановления ваших данных. Это более эффективно, потому что ECC могут восстанавливать намного больше ваших данных, используя намного меньше места для хранения, чем простая репликация (то есть, делая несколько копий ваших файлов), и они могут даже использоваться, чтобы проверить, имеет ли ваш файл какие-либо коррупция, и даже найти, где эти коррупции. На самом деле, это в точности применение принципа избыточности, но более умным способом, чем репликация. Этот метод широко используется в любой дальней связи, например, 4G, WiMax и даже в космической связи НАСА. К сожалению, хотя ECC вездесущи в телекоммуникациях, они не занимаются восстановлением файлов, возможно, потому что это немного сложно. Тем не менее, доступно некоторое программное обеспечение, такое как хорошо известное (но уже старое) PAR2, DVD Disaster (которое предлагает добавить коды исправления ошибок на оптических дисках) и pyFileFixity (которое я разрабатываю частично для преодоления ограничений и проблем PAR2). Существуют также файловые системы, которые дополнительно реализуют Reed-Solomon, такие как ZFS для Linux или ReFS для Windows, которые технически являются обобщением RAID5.
Регулярно проверяйте целостность ваших файлов: хэшируйте свои файлы и проверяйте их время от времени (то есть раз в год, но это зависит от среды хранения и условий окружающей среды). Когда вы видите, что ваши файлы пострадали от повреждения, пришло время восстановить с помощью сгенерированных вами ECC, если вы это сделали, и / или сделать новую свежую копию ваших данных на новом носителе. Проверка данных, исправление повреждений и создание новых свежих копий - это очень хороший цикл курирования, который обеспечит безопасность ваших данных. В частности, проверка очень важна, потому что ваши копии файлов могут быть незаметно повреждены, и если вы затем скопируете копии, которые были подделаны, вы получите полностью испорченные файлы. Это еще более важно с холодными носителями, такими как оптические диски, которые НЕ МОГУТ автоматически проверять целостность данных (они уже реализуют ECC, чтобы немного исцелить, но они не могут ни проверять, ни создавать новые свежие копии автоматически, это ваша работа!) , Чтобы отслеживать изменения файлов, вы можете использовать скрипт rfigc.py из pyFileFixity или другие инструменты UNIX, такие как md5deep. Вы также можете проверить состояние работоспособности некоторых носителей данных, например жестких дисков, с помощью таких инструментов, как Hard Drive Sentinel или smartmontools с открытым исходным кодом.
Храните свои архивные носители в разных местах (по крайней мере, с одной копией за пределами вашего дома!) чтобы избежать для реальной жизни катастрофических событий, таких как наводнение или пожар. Например, один оптический диск на вашем рабочем месте или облачное резервное копирование может быть хорошей идеей для удовлетворения этого требования (даже если облачные провайдеры могут быть закрыты в любой момент, пока у вас есть другие копии, вы будете в безопасности. облачные провайдеры будут служить только как внешний архив в случае крайней необходимости).
Хранить в специальных контейнерах с контролируемыми параметрами окружающей среды: для оптических сред хранить вдали от света и в водонепроницаемой коробке, чтобы избежать влажности. Для жестких дисков и SD-карт храните их в антимагнитных гильзах, чтобы избежать остаточного электричества, которое может повлиять на работу накопителя. Вы также можете хранить в герметичной и водонепроницаемой сумке / коробке и хранить в морозильной камере: низкие температуры замедляют энтропию, и вы можете значительно продлить срок службы любого такого носителя (просто убедитесь, что вода выиграла не входите внутрь, иначе ваш медиум быстро умрет).
Используйте качественное оборудование и проверяйте его заранее (например, когда вы покупаете SD-карту, протестируйте всю карту с помощью программного обеспечения, такого как HDD Scan, чтобы убедиться, что все в порядке, прежде чем записывать ваши данные). Это особенно важно для оптических приводов, потому что их качество может радикально изменить качество ваших записанных дисков, как продемонстрировано в исследовании Archives de France (плохой DVD-рекордер будет производить DVD, которые прослужат намного меньше).
Тщательно выбирайте форматы файлов: не все форматы файлов устойчивы к повреждениям, некоторые даже явно слабые. Например, изображения .jpg могут быть полностью повреждены и нечитаемы, изменяя только один или два байта. То же самое для 7zip архивов. Это смешно, поэтому будьте осторожны с форматом файлов, которые вы архивируете. Как правило, простой чистый текст лучше, но если вам нужно сжать, использовать не сплошной zip и для изображений, используйте JPEG2 (пока не с открытым исходным кодом ...). Больше информации и обзоров про цифровых кураторов здесь, здесь и здесь.
Храните вместе с вашими архивами данных все программное обеспечение и спецификации, необходимые для чтения данных. Помните, что спецификации быстро меняются, и поэтому в будущем ваши данные могут быть недоступны для чтения, даже если вы можете получить доступ к файлу. Таким образом, вы должны предпочесть форматы с открытым исходным кодом и программное обеспечение и хранить исходный код программы вместе с вашими данными, чтобы вы всегда могли адаптировать программу из исходного кода для запуска с новой ОС или компьютера.
Множество других методов и подходов доступно здесь, здесь и в различных частях Интернета.
Заключение
Я советую использовать то, что у вас есть, но всегда соблюдайте принцип избыточности (сделайте 4 копии!) И всегда регулярно проверяйте целостность (поэтому вам нужно предварительно сгенерировать базу данных хэшей MD5/SHA1 заранее) и создавать новые новые копии в случае коррупции. Если вы сделаете это, вы можете технически хранить ваши данные столько, сколько захотите, независимо от того, какой у вас носитель данных. Время между каждой проверкой зависит от надежности ваших носителей: если это дискета, проверяйте каждые 2 месяца, если это Blu-ray HTL, проверяйте каждые 2/3 года.
Теперь в оптимальном варианте для холодного хранения советую использовать диски Blu-ray HTL или DVD- диски архивного качества, которые хранятся в водонепроницаемых непрозрачных коробках и хранятся в свежем месте. Кроме того, вы можете использовать SD-карты и облачных провайдеров, таких как SpiderOak, для хранения избыточных копий ваших данных или даже жестких дисков, если они более доступны для вас.
Используйте много исправляющих ошибки кодов, они спасут ваш день. Также вы можете сделать несколько копий этих файлов ECC (но несколько копий ваших данных важнее, чем несколько копий ECC, потому что файлы ECC могут восстанавливаться самостоятельно!).
Все эти стратегии могут быть реализованы с использованием набора инструментов, которые я разрабатываю (с открытым исходным кодом): pyFileFixity. Этот инструмент был фактически запущен этим обсуждением, когда обнаружил, что не было никакого бесплатного инструмента для полного управления исправлением файлов. Также, пожалуйста, обратитесь к readme и wiki проекта для получения дополнительной информации о стабильности файла и цифровом курировании.
В заключение, я действительно надеюсь, что больше исследований и разработок будет уделено этой проблеме. Это серьезная проблема для нашего современного общества, когда все больше и больше данных оцифровывается, но без каких-либо гарантий, что эта масса информации просуществует более нескольких лет. Это очень удручает, и я действительно считаю, что этот вопрос должен быть поставлен на передний план, чтобы конструкторы и компании стали маркетинговым ориентиром для создания устройств хранения, способных работать в будущем.
/ РЕДАКТИРОВАТЬ: читайте ниже для практической рутины курирования.