10

Среднее время до отказа (MTTF) обычно дается в часах, и при выполнении некоторых вычислений кажется, что диск должен выйти из строя только после того, как прошло немало лет.

Кажется, что диски нуждаются в ремонте чаще, чем это. Кто-нибудь знает, почему это так?

Я понял, что в этом показателе есть что-то подозрительное. Я что-то здесь не так понимаю?

4 ответа4

14

Прежде всего:

MTTF = среднее время до отказа
MTTR = среднее время для ремонта
MTBF = среднее время между сбоями = MTTF + MTTR

MTBF часто более или менее равен MTTF, поскольку ремонт может занять час, а MTTF может составлять десятки тысяч часов. Но также MTBF часто не применяется, поскольку дефектные изделия не ремонтируются, а просто заменяются, потому что ремонт стоит дороже, чем замена.

MTTF-вычисление - это сложный статистический метод, включающий расчет вероятности отказа каждой отдельной части. И это не линейная вещь, как иногда полагают люди. Если у вас MTTF 1000 000 часов, это не значит, что в 1000 устройствах будет один сбой через 1000 часов, или что вы получите сбой в 1000 000 устройств через 1 час.
Многие электронные устройства следуют "кривой ванны",

там, где вначале много сбоев, потом долгое время почти без сбоев, а ближе к концу жизни число сбоев снова возрастает. В жестких дисках также есть некоторые механические части, которые имеют более линейную кривую разрушения; это медленно нарастает с первого дня.

Если производитель говорит, например, 1000 000 часов MTTF (это чаще всего POH, или часы включения ), это означает, что в среднем накопитель должен прослужить> 100 лет. Некоторые накопители прослужат дольше, другие выйдут из строя раньше. Таким образом, несмотря на 1000 000 часов, вполне возможно иметь сбой через 1000 часов. Однажды у меня не получилось в течение недели подвезти, а потом нужно вспомнить кривую ванны. Запасной диск вращался счастливо в течение> 50 000 часов.

4

Если единица оборудования имеет MTBF использования 1 000 000 часов, это не означает, что любая часть оборудования может прослужить 1 000 000 часов. Скорее, это примерно означает, что если 1 000 000 единиц оборудования, которые находятся в пределах их номинального срока службы, работают каждый в течение одного часа, или 100 000 единиц работают в течение десяти часов (но все еще в пределах расчетного срока службы), или 60 000 000 в течение одной минуты и т.д. там будет примерно один сбой в партии. Обратите внимание, что расчетный срок службы является полностью ортогональным к MTBF. Рассмотрим следующие два типа виджетов:

  1. Каждый виджет, независимо от возраста, имеет шанс 0,1% сбоев каждый час.
  2. Из каждого миллиарда виджетов все, кроме одного, проработают ровно 61 минуту, а затем умрут; тот умрет через 30 минут; виджеты имеют указанный срок службы 60 минут.

Первый тип виджета будет иметь среднее время жизни около 1000 часов, а также MTBF около 1000 часов. Второй срок службы составляет в среднем 61 минуту, но MTBF составляет 1 000 000 000 часов в течение срока службы. Хотя может показаться странным, что второе устройство имеет MTBF, который почти в миллиард раз превышает ожидаемый срок службы, MTBF вряд ли является бессмысленной цифрой.

Предположим, что кто-то собирается провести эксперимент, который требует, чтобы 1 000 000 устройств все работали идеально в течение часа, после чего все они будут списаны. Если какое-либо устройство выходит из строя, весь эксперимент будет разрушен. Что было бы более полезным - устройство, которое будет работать в среднем 1000 часов, но имеет MTBF всего 1000 часов, или устройство, которое будет работать не более 61 минуты, но будет иметь только один шанс из миллиарда на отказ встретить эту отметку?

2

Добавим к ответу Стивенва: все известные производители дисков, как и производители электронных компонентов, проводят прогон новых устройств. На жестких дисках есть не только общая MTBF и MTTF, но и статистика отдельных отказов для блоков дисков. Другими словами: некоторые части вращающегося "диска" на диске могут выйти из строя, в то время как большинство все еще читает / пишет нормально. Так называемые "плохие сектора" могут быть обнаружены и затем отображены встроенным программным обеспечением внутри привода.

Все накопители сегодня содержат в резерве дополнительные секторы, которые затем можно использовать вместо дефектных секторов. Это просто мера предосторожности производителя: если они этого не сделают, они не смогут продать диск с заявленной емкостью. Если они создают дополнительные x% скрытых секторов в качестве резерва, они увеличивают стоимость примерно на <x%, но достигают гораздо более высокого общего выхода продукции.

Диски сегодня содержат количество поврежденных секторов, которые также могут быть считаны с помощью соответствующего программного обеспечения. Этот и другие параметры работоспособности диска (например, температура) называются значениями SMART .

Теперь, после того как производитель выполнил тест прожига накопителя, и некоторые из секторов почти полностью вышли из строя и были переназначены внутренней микропрограммой накопителя, для параметра SMART "Bad Sector Count" установлено значение 0. Затем диск доставляется клиентам.

Обычно, после процесса обжига, начало кривой ванны, которое уже упоминалось, клиент больше не видит. Нам повезло, и мы видим только увеличение вероятности неудачи с течением времени.

Поэтому, если вы посмотрите на MTTF, указанный производителем, для любого моделирования отказов, которое вы можете захотеть сделать, вы можете игнорировать начало кривой ванны.

-2

Вы должны интерпретировать это как маркетинг. Они на самом деле не знают точного MTBF (среднее время между сбоями), поэтому они используют различные приемы для его оценки и показывают более высокие цифры для накопителей «предприятия», чтобы оправдать свою стоимость.

На самом деле, производителям жестких дисков выгодно, чтобы их жесткие диски выходили из строя вскоре после окончания гарантии.

Как теория заговора, я считаю, что массовый сбой Seagate 7200.11 был ошибкой в реализации «запрограммированной смерти», приводившей к отказу дисков до истечения срока гарантии, поэтому они должны были «исправить» это путем обновления прошивки.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .