1

Почему обычно считается, что системы RAID 5 не подходят для дисков большего размера? То же самое верно для RAID 6?

Ссылка: http://www.zdnet.com/article/why-raid-5-stops-working-in-2009/

5 ответов5

4

Причина, по которой RAID 5 может быть ненадежным для дисков большого размера, заключается в том, что статистически устройства хранения (даже если они работают нормально) не защищены от ошибок. Это то, что называется UBE (иногда URE), для частоты неисправимых битовых ошибок , и оно указывается в полносекторных ошибках на количество прочитанных байтов. Для потребительских ротационных жестких дисков эта метрика обычно указывается в 10 ^ -14, что означает, что вы получите одно сбойное чтение сектора на 10 ^ 14 байт. (Из-за того, как работают показатели, 10 ^ -14 - это то же самое, что один на 10 ^ 14.)

10 ^ 14 байтов могут звучать как большое число, но на самом деле это всего лишь несколько полных проходов чтения на современном большом (скажем, 4-6 ТБ) диске. В RAID 5, когда происходит сбой одного диска, не существует никакой избыточности, что означает, что любая ошибка не может быть исправлена: любая проблема с чтением чего-либо с любого из других дисков, и контроллер (аппаратный или программный) не будет знать, что сделать. В этот момент ваш массив выходит из строя.

RAID 6 добавляет в уравнение второй резервный диск. Это означает, что, даже если один диск полностью выходит из строя, RAID 6 может допустить ошибку чтения на одном из других дисков в массиве в то же время и все же успешно восстановить ваши данные. Это значительно снижает вероятность возникновения единственной проблемы, из-за которой ваши данные становятся недоступными, хотя это не исключает возможности; в случае отказа одного диска вместо одного дополнительного диска, требующего возникновения проблемы для восстановления данных, теперь два дополнительных диска должны создать проблему в одном и том же секторе, чтобы возникла проблема.

Конечно, эта цифра 10 ^ -14 является статистической, так же как и у вращающихся жестких дисков, как правило, цитируемая статистическая AFR (годовая частота отказов) составляет порядка 2,5%. Что означало бы, что средняя поездка должна длиться 20-40 лет; явно не тот случай. Ошибки, как правило, случаются партиями; Вы можете прочитать 10 ^ 16 или 10 ^ 17 байт без каких-либо признаков проблемы, а затем вы получите десятки или сотни ошибок чтения в короткие сроки.

RAID на самом деле усугубляет эту последнюю проблему, подвергая диски воздействию очень похожих рабочих нагрузок и окружающей среды (температуры, вибрации, загрязнения электропитанием и т.д.). Ситуация усугубляется еще и тем фактом, что многие RAID-массивы введены в эксплуатацию и настроены как группа, что означает, что к моменту первого сбоя все диски в массиве будут активны почти на одинаковом уровне. времени. Все это делает коррелированные сбои гораздо более вероятными: при выходе из строя одного диска весьма вероятно, что дополнительные диски будут маргинальными и могут вскоре выйти из строя. Просто стресс полного прохода чтения вместе с обычной пользовательской активностью может быть достаточным для сбоя дополнительного диска. Как мы видели, с RAID 5, когда один диск не функционирует, любая ошибка чтения в другом месте приведет к постоянной ошибке и, скорее всего, просто остановит ваш массив. С RAID 6 у вас по крайней мере есть некоторый запас для дальнейших ошибок во время процесса восстановления.

Поскольку UBE указывается в расчете на количество прочитанных байтов, а число прочитанных байтов имеет тенденцию довольно хорошо коррелировать с тем, сколько байтов может быть сохранено, то, что раньше было точной настройкой с набором дисков объемом 100 МБ, могло бы быть предельной установкой с набор дисков емкостью 1 ТБ и может быть совершенно нереальным с набором дисков емкостью 4-6 ТБ, даже если физическое число дисков остается неизменным. (Другими словами, десять дисков по 100 МБ против десяти дисков по 6 ТБ.)

Вот почему RAID 5 обычно считается недостаточным для массивов обычных размеров, и в зависимости от конкретных потребностей обычно рекомендуется использовать RAID 6 или 1+0.

И это даже не касается детализации того, что RAID не является резервной копией.

2

См. DISK RAID и IOPS CALCULATOR и объяснение IOPS и задержки

Для расчета сбоя RAID вы можете использовать формулы.

  • N - количество HDD,
  • р - вероятность отказа
  • q = (1-p) - надежность.

Предположение, что вероятность выхода из строя жесткого диска равна.

Для наглядности вероятность выхода из строя различных RAID на 5 лет работы и после нее приведена в таблице.

RAID0 RAID5 RAID6 RAID10 RAID формула вероятности отказа

Вероятность сбоя - сбой RAID DP (Synology) RAID 6. Используйте p - надежность поиска в центре данных Google.

RAID0 RAID5 RAID6 RAID10 Диаграмма вероятности отказа RAID

Вероятность сбоя процедуры восстановления RAID 5 в зависимости от емкости. Вероятность сбоя процедуры восстановления RAID 5 в зависимости от емкости

1

Ответьте на свой первый вопрос. URE. Неисправимая ошибка чтения. Диск может быть в порядке, но данные не могут быть прочитаны, что не позволяет перестроить, что в итоге совпадает с отказавшим диском в плане перестроения. Я думал, что статья дала правильное понимание на базовом уровне.

Ответь на второй вопрос. То же самое верно для RAID 6, но для больших массивов. Я думаю, что дело в том, что если вы беспокоитесь о URE для массива 12 ТБ, потому что спецификация говорит, что у вас будет 1 URE на каждые 12 ТБ, тогда вам потребуется дополнительный резервный диск на каждые дополнительные 12 ТБ для обработки всех URE, которые вы должны ожидать встретиться.

То есть перестройка RAID 5 объемом 12 ТБ имеет такую же вероятность сбоя (при скорости 10 ^ 14 URE), что и массив RAID 6 24 ТБ. Опять же, это экстраполяция на статью.

0

Причина - время восстановления. Начиная с ср. 2 ТБ времени восстановления может быть очень большим, и вероятность сбоя в период восстановления значительно возрастает. С RAID6 вы можете восстановиться после сбоя двух дисков, но с повышением размера дисков 6 достигают той же проблемы.

0

Рассуждения UBE, изложенные в других ответах, достаточно хороши, но большее беспокойство вызывает риск отказа второго диска во время восстановления.

Помните, что во время перестройки массива диски работают со 100% нагрузкой, и, учитывая размеры современных дисков, перестройка может занять несколько дней. Если диски не предназначены для корпоративного уровня, им это не понравится. Это основная причина, по которой RAID5 не подходит для дисков большего размера.

Вы также должны учитывать, что когда люди собирают дисковые массивы, они обычно заказывают диски у одного поставщика. Это означает, что все диски в массиве будут из одной производственной партии. Если это плохая партия, это может означать сокращение срока службы, снижение надежности или даже отказ нескольких дисков в течение короткого периода времени. Даже если это не плохая партия, если диски начинают достигать конца своего срока службы, есть большая вероятность того, что несколько дисков выйдут из строя в течение короткого времени друг от друга. Рекомендуется при построении массива разделять заказ на несколько поставщиков или просить одного поставщика отправлять вам диски из разных партий, если это возможно. Таким образом, накопители с большей вероятностью умрут в разное время, и вы вряд ли получите несколько дисков из плохой партии. Напоминания случаются.

Посмотри в RAIDZ. Это великолепно. В частности, посмотрите на RAIDZ3 и вложенный RAIDZ. У Synology есть нечто, называемое SynologyHybrid Raid, которое имеет некоторые действительно хорошие преимущества. Вы можете обновить размеры дисков в вашем массиве, просто заменяя один диск за раз и, например, ожидая завершения перестроений.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .