Мы знаем, что срок службы жестких дисков ограничен, и происходит повреждение данных. Жесткий диск может все еще казаться в порядке и пройти тесты, но некоторые файлы могут в какой-то момент начать считываться иначе, чем они были изначально только из-за физической физики / износа.

Резервное копирование / зеркалирование данных решают проблему полного отказа диска, но не проблему тихого повреждения данных. Более того, если исходный / мастер-диск поврежден, некоторые файлы на резервных дисках будут перезаписаны при следующем резервном копировании, что существенно распространит ошибку и сделает оригиналы невосстановимыми.

Какие методы / решения существуют в 2017 году для решения проблемы на месте (в отличие от загрузки архивов данных в облако с долговечностью 99,999 ...%)?

Я слышал о программном обеспечении, которое в основном отслеживает контрольные суммы файлов и определяет, когда они меняются, но мне интересно, есть ли более низкоуровневое (например, файловая система) решение? Например, файловая система, которая вычисляет контрольные суммы файлов каждый раз, когда файлы / блоки записываются / обновляются, и поддерживает проверку контрольных сумм для обнаружения поврежденных, чтобы можно было предпринять какие-либо действия до того, как ошибка будет распространена на резервный носитель?

Наконец, может быть, есть какой-то совершенно иной подход к проблеме, о котором я не знаю?

2 ответа2

1

ZFS в основном предназначен для этого. Он проверяет контрольные суммы каждого блока данных и, если он поврежден, восстанавливает его из других частей "Виртуального RAID" (ZFS предпочитает использовать собственный эквивалент RAID, а не использовать аппаратный RAID).

Одной из функций в ZFS является периодическая очистка, которая заключается в прохождении диска и проверке его на наличие ошибок.

ZFS является решением как на уровне блоков, так и на уровне файловой системы (это другая парадигма, когда файловая система на блочном устройстве используется в решении типа RAID).

Я также отмечаю, что большинство RAID-систем также допускают перодическую проверку на уровне блоков, но она не столь надежна и может фактически перезаписывать хорошие данные плохими. Чтобы узнать больше об этом минном поле (которое обходится ZFS), воспользуйтесь Google "Write Hole"

0

Это может показаться обходным подходом к управлению вещами, но я нашел лучший (наиболее эффективный, с наименьшим количеством ресурсов) способ управления данными против "долговечности и повреждения данных" - это правильно управлять дисковыми массивами и иметь надлежащие Схема резервного копирования и управления версиями на месте.

Контрольные суммы, используемые комбинациями массивов и файловых систем ZFS и BTRFS, могут активно обнаруживать повреждение данных. Да, но это не обязательно дает "ответ", что с этим делать, и вам все равно могут понадобиться резервные копии в любом случае для этого конкретного набора данных. И Скрабы на других массивах могут обнаружить повреждение данных, а также обеспечить восстановление ваших массивов. Кроме того, резервное копирование батареи и запись-намерение-битовые карты могут решить проблему дыры в записи. В целом, современные системы хранения данных чрезвычайно надежны, если их правильно реализовать, для решения проблем, с которыми вы фактически столкнетесь.

Если бы искажение данных было большой проблемой, ответом на которую послужили комбинации массивов / файловых систем с контрольной суммой, то ВСЕ крупные фирмы предприятия использовали бы и проверяли только комбинации комбинаций массивов / файловых систем, и на самом деле это НЕ так. Вместо этого они имеют надежную инфраструктуру с избыточными сетями SAN и коммутаторами, резервными батареями, генераторами, стабилизаторами питания, проверенными временем файловыми системами, хорошо управляемыми массивами и резервными копиями, резервными копиями, резервными копиями!

Реальность такова, что это крайне редкий случай, когда то, что небольшое повреждение данных преодолеет, на самом деле вызовет реальную проблему; и это случается так редко, что лично я обнаружил, что лучше полагаться на надлежащее системное администрирование, чтобы смягчить его, а затем активно пытаться самостоятельно управлять повреждением данных. Я знаю, что за последние 20 лет у меня было несколько файлов, обычно медиа-файлов, которые случайным образом не работают, и я предполагаю, что это повреждение данных. Но ни разу у меня не было файла, который на самом деле был нужен, не работал, и если бы я это сделал, я бы просто пошел к своим резервным копиям для этого файла, и если бы это не сработало, моя жизнь продолжалась бы!

Кроме того, я не могу думать об одном файле, который был бы концом всего для моей личной жизни или бизнеса; НЕ ОДИН. Расстроенный клиент? Отсутствует информация в иске, где я честен и просто должен это доказать? Поврежденная личная память? Это все те вещи, которые я бы предпочел избегать, но все эти вещи стоят лишь ограниченного количества моего личного времени и денег, чтобы смягчить их, учитывая, что вероятность близка к 0, что они фактически произойдут из-за повреждения данных ... КОГДА-ЛИБО.

По моему мнению, лучшее, что вы можете сделать для управления устойчивостью данных / повреждением файлов для небольших установок:

  • Запустите ваши массивы, как это имеет смысл для ваших обстоятельств
  • Регулярно очищайте их, чтобы обеспечить правильное восстановление в случае отказа диска
  • Используйте аппаратные контроллеры с батарейным питанием или записи-намерения-битовые карты для программных массивов
  • Если возможно, используйте массивы без проверки четности, чтобы избежать сбоев перестроения, если URE или что-то происходит между кустами
  • И самое главное - создать правильную схему резервного копирования и управления версиями.

По сути, правильное системное администрирование - это то, что решает проблему повреждения данных.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .