1

У меня много накопителей по 3 ТБ, и на всех из них они показывают следующее с самого начала с помощью инструментов Smartmon.

Редактировать: Использование Debian 6.0/7.0

Теперь обычно я использую Seek_Error_Rate или CRC_ERROR_COUNT, чтобы сказать, когда жесткий диск нуждается в замене, однако с этим нет никакого способа сказать (из того, что я могу сказать).

Поэтому мой вопрос заключается в том, как лучше всего определить, когда происходит сбой накопителя 3 ТБ +, и есть ли какие-либо другие инструменты или, возможно, некоторая автоматизация, которую я могу настроить, чтобы сообщить мне как можно раньше, может произойти сбой (у меня 15+ в использовании )

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   108   099   006    Pre-fail  Always       -       17853736
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       12
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   088   060   030    Pre-fail  Always       -       797480237
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       8700
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       12
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   098   098   000    Old_age   Always       -       2
190 Airflow_Temperature_Cel 0x0022   070   062   045    Old_age   Always       -       30 (Lifetime Min/Max 29/31)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       10
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       82
194 Temperature_Celsius     0x0022   030   040   000    Old_age   Always       -       30 (0 23 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       1
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       269942989529561
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       155082501012819
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       221731329841837

1 ответ1

1

Я использую Reallocated_Sector_Ct, чтобы увидеть, когда диски умирают. Это показывает количество блоков, которые, как решил микропрограмма диска, больше не может использоваться, а ненулевое число указывает, что поверхность повреждена и произошла потеря данных, и как только она становится ненулевой, она имеет тенденцию к увеличению. Spin_Retry_Count также полезна, ненулевое число означает, что накопителю пришлось повторить попытку вращения, что может указывать на неизбежный сбой накопителя. CRC_ERROR_COUNT относится к сбоям при обмене данными с контроллером диска, а не к внутренним ошибкам накопителя, и может указывать на проблемы с кабелем или контроллером, а не с диском. Seek_Error_Rate не может быть надежно интерпретирован.

Что касается мониторинга дисков, Smartmontools поставляется с smartd , демоном, который может работать в фоновом режиме и периодически запрашивать данные SMART.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .