1

Извините, но я просто не могу понять с теоретической точки зрения.

Почему в одном URE контроллер рейда решает, что все остальное разрушено, и просто умирает? Глупый. Массив 40 ТБ бесполезен, потому что потерян 1 Мб?

Перестройте всю эту чертову штуку, а затем просто проверьте контрольную сумму всех файлов, если файловая система это поддерживает. Даже если это не так, это всего лишь один из случаев, когда файл "поврежден" при попытке открыть эти файлы.

Все это просто кричит о застойной аппаратной технологии для меня.

Редактировать - Кажется, что люди просто прыгают прямо на повозке «ты не должен полагаться на RAID для резервного копирования». Ну, я не заинтересован в этом. Да, RAID для доступности, а не долговечности. Факт остается фактом: вы все равно можете спасти ~ 99% RAID, если перестроение просто пропустит URE.

2 ответа2

4

Проблема не в ленивых производителях или древних технологиях. Это недоразумение в целях RAID. * 1. Цель RAID - сохранить работоспособность файловой системы после смерти диска. Не заменяйте резервную копию, гарантируйте успешное восстановление.


Позвольте мне остановиться на этом на практическом примере:
Вы айтишник для офиса с 100 человек. Вам нужно создать файловый сервер для них.

Теперь, если вы использовали один диск для этого и диск умер, то 100 человек будут ковыряться в носу, пока вы не замените диск и не восстановите резервные копии. И вам нужно будет делать резервные копии довольно часто (например, каждый день).

Теперь вы используете RAID. Один диск умирает, но массив остается доступным в ухудшенном состоянии. Все файлы по-прежнему доступны, и каждый может продолжить работу. В 20:00 * 2 вы запускаете новый набор резервных копий, выключаете сервер, заменяете сломанный диск и восстанавливаете данные. Либо с перестроением, либо из резервной копии. Каждый может продолжать работать, и данные не будут потеряны.


Теперь здесь есть несколько предположений:

  1. У вас есть резервные копии. Действительно, они должны быть у вас, так как RAID не защитит от некоторых вещей, таких как кража сервера, молния, пожар, ...
    RANT OVER.
  2. Восстановление диска может занять много времени, когда у вас большие диски. Это было хорошо со старыми 80 МБ дисками с квалификацией сервера. Если вы используете огромные (несколько ТБ) потребительские диски, это займет много времени. Восстановление из резервной копии может быть быстрее. Только по этой причине вам необходимо рассмотреть возможность создания и тестирования резервных копий при работе с массивом 40 ТБ.

Обратите внимание, что иногда сектор на диске выходит из строя. Это факт жизни. Если это случается редко, и у дисков есть способ обойти это (перераспределение секторов, также см. TLER). Если у вас огромные диски и вы пытаетесь восстановить их, то вы читаете огромное количество секторов. Шансы попасть в URE невелики, но не равны нулю. Если это произойдет, вернитесь к резервным копиям.


* 1: RAID как RAID1 (зеркальный), RAID 5, RAID 6 или их комбинация, например RAID10.

* 2 Или когда каждый ушел домой. Письмо с «аварийное обслуживание в 5 вечера!помог бы здесь

2

Нет, производители RAID не глупы и не ленивы.

Проще говоря: если вы пытаетесь перестроить данные (особенно из проверки на четность, как, например, в RAID5), и при чтении источника, из которого вы строите, возникает Неустранимая ошибка чтения, то сделать это невозможно восстановить массив из этого поврежденного источника.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .