15

Мне интересно, есть ли у кого-нибудь личный опыт сбоя диска RAID 5 2 на больших дисках?

Насколько я понимаю, теория состоит в том, что на больших дисках объемом 1-2 ТБ, если один из дисков выходит из строя в наборе raid, ему необходимо все перестроить, поэтому он очень сильно бьет по всем остальным дискам, и вероятность другого сбоя возрастает, особенно если диски были из той же партии производства. И если вы потеряете другой диск, вы потеряете все данные.

Обычно это объясняется после утверждения "RAID не является резервной копией", с которым я согласен.

Теория этого имеет смысл, и я понимаю, но так ли это на самом деле?

10 ответов10

15

Да, со мной это случилось. Набор из 4 (потребительских) накопителей WD 500 вышел из строя в течение недели. Я не спешил заменять первый, не переводил массив в автономный режим и терял все свои данные, когда второй выходил из строя. Я повторно использовал оставшиеся два хороших, и один из них потерпел неудачу в течение следующего месяца. Все они были должным образом охлаждены и заботились. Я могу только сказать, что теперь я верю риторике "плохой партии".

В отдельном инциденте у меня было 3 отдельных привода разных марок, и модели выходили из строя в течение месяца друг от друга, хотя я совершенно уверен, что причина их отказа - неправильная вентиляция. Не готовьте свои диски!

4

Это на самом деле произошло со мной, хотя это был не самый распространенный способ отказа диска. У меня было 4 500gb внешних дисков SATA в рейде 5. Они были прикреплены к дешевому старому серверу IBM, смонтированному в стойке. Вся установка была спрятана под лестницей и однажды, крыса или кролик, но что-то разжевало некоторые кабели питания, и два привода были замкнуты. Все диски были в дешевых внешних корпусах, поэтому я не должен был удивляться.

3

Вы спрашиваете, можете ли вы потерять 2 диска подряд? Конечно, все может случиться. Raid 5 позволяет значительно увеличить доступность и производительность для доступа к данным, но raid 5 ничего не делает для резервного копирования. Это просто помогает предотвратить использование ваших данных из-за потери оборудования одного диска. Это не копия ваших данных. Вы не можете восстановить старую копию, старую ревизию или просто копию вашей текущей работы. Кроме того, не защищает от повреждения данных. Есть больше вещей, которые могут пойти не так, как просто потеря двигателя. Вирус может испортить все ваши данные, младшая сестра любит смотреть, как мусорная корзина на вашем рабочем столе становится полной и пустой, когда она бросает в нее файлы, глупый друг бросает газировку на ваш компьютер и т.д.

Кроме того, помните, вы можете потерять контроллер рейда жесткого диска. И вы не можете просто переместить массив в другой случайный контроллер. Вы обычно должны использовать точно такой же, и все же, что-то может пойти не так. Некоторые контроллеры рейда хранят информацию на борту, а другие отправляют информацию о конфигурации в прикрепленный массив. Это азартная игра, когда возникает такая ситуация.

Тот же вопрос в SF:https://serverfault.com/questions/2888/why-is-raid-not-a-backup

Нужно больше причин?

РЕДАКТИРОВАТЬ: Ваша идея верна и может случиться с кем угодно. Лично я не видел более одного отказа диска, но я видел, как некоторые умирают очень близко друг к другу. Никто из них не был в этом окне восстановления, но это технический риск. Но у вас есть резервная копия на случай, если что-то случится, верно? ха-ха. Некоторые люди учатся на этом сложном пути иногда. Raid 6 выводит его на следующий уровень с двойной четностью и может потерять до 2 дисков. При любой настройке рейда вероятность сбоя возрастает с увеличением размера (количества дисков) и сложности массива. Больше дисков = больше точек возможного отказа

3

Вы правы, в сценарии RAID-5, если вы потеряете один диск, а затем восстановите систему, система должна успешно прочитать каждый сектор всех выживших дисков в наборе RAID. NetApp утверждает, что в некоторых ситуациях (они могут использовать RAID-наборы из 28 дисков разных типов) ваши шансы на повторный сбой могут быть до одного из десяти. Таким образом, они делают «Dual-Parity», который, я считаю, связан с RAID-6.

Очевидно, что чем больше дисков у вас в наборе RAID, и чем они больше, тем больше вероятность возникновения проблемы. Для небольшого набора RAID (3-5 дисков) шансы, вероятно, не слишком сильно изменились по сравнению с использованием RAID-5.

Но я всегда делаю Raid-DP в NetApps, где могу.

2

Никакого личного опыта, но я слушал крики тех, у кого это случилось с ними. Любая система хранения - будь то отдельный диск, USB-накопитель, магнитная лента, огромная установка RAID или Amazon S3 - в конечном итоге выйдет из строя любым удобным для вас способом. Второй сбой при восстановлении набора RAID 5 - это только один из способов, которым это может произойти.

Кроме того, поддержка RAID с тройным контролем четности была интегрирована в OpenSolaris пару дней назад, поэтому, по крайней мере, один поставщик считает, что учет двух дополнительных сбоев при перестроении RAID с контролем четности стоит инженерных усилий.

1

Вот сценарий: на вашем RAID5-массиве произошел сбой диска, но ваш запасной уже находился или сидел без дела, или наконец-то поступил заказ на новый жесткий диск. Вы (или, возможно, какой-нибудь удаленный миньон) идете с новым диском в руке, чтобы заменить неисправный. Из-за плохой маркировки, усталости или просто глупости один из оставшихся хороших дисков извлекается вместо неисправного ... и вот ваш второй сбой.

1

Я видел это несколько раз, когда занимаюсь восстановлением данных. И да, они часто терпят неудачу в одно и то же время, однако я не верю, что это имеет какое-либо отношение к тому моменту, когда они были собраны обязательно, поскольку я также видел, что это происходит с несовпадающими дисками. Чаще всего этот тип отказа происходит вскоре после грозы, скачка напряжения или отключения питания.

Обычно скачок приводит к повреждению дисков или RAID-контроллера, и в течение нескольких дней они начинают выходить из строя. На самом деле я сейчас работаю над восстановлением массива, в котором два диска перестали работать после отключения питания. (сейчас выглядит безнадежно)

Небольшой совет: сетевые фильтры не защищают ваше оборудование. Всегда подключайте ваш рейд 5 к хорошему ИБП. Я никогда не видел, чтобы это случилось, когда массив был на ИБП.

1

Это действительно происходит на самом деле. Вот почему решения NetApp для хранения данных имеют реализацию RAID 6. Это на тот случай, если вы потеряете второй диск во время восстановления.

Вы можете рассчитать вероятность сбоя, используя стандартные формулы, перечисленные на следующем тексте ссылки на странице. При масштабировании все большего и большего количества дисков с данными вероятность только такого сбоя возрастает. Если у вас достаточно дисков, вы можете поместить это число в зону беспокойства, если вы используете RAID 5 с огромным количеством томов данных.

По личному опыту могу сказать, что у вас наверняка могут быть два отказа дисков в одном массиве в течение одного критического периода времени. Raid 6 избавил меня от необходимости восстановления из резервной копии.

Надеюсь это поможет

1

Случайное извлечение второго хорошего диска из набора с одним контролем четности не должно разрушать массив с хорошей реализацией RAID. Я знаю, что ZFS RAID-Z просто замораживает любые операции ввода-вывода в массиве, пока вы не подключите его снова.

0

Другой сценарий: удаленному миньону приказывают извлечь резервную ленту из магнитофона. Она идет к стойке и не вытаскивает ленту из накопителя на магнитной ленте ... но 2 (два) жестких диска из дисковых отсеков одновременно и вуаля: 2 сбоя накопителя.

Ты думаешь это надумано? Что ж, я сейчас нахожусь у клиента, который сделал именно это, а теперь смотрит на перестройку сервера.

Удачи, она не сожгла ленту, которая была на самом деле в тапрайвере или еще много чего ;-)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .