Как интерпретировать результаты SMART и Badblocks

Question

Я купил использованный SSHD (ноутбук Seagate SSHD - ST500LM000-1EJ162) на Ebay. Что касается SMART, диск может быть как-то поврежден, я не уверен. Чтобы правильно интерпретировать значения SMART, мне нужна ваша помощь.

Что касается SMART, у меня огромное количество ошибок Raw-Read-Error и Seek-Error. До сих пор я читал много разных тем на эту тему, и я обнаружил, что эти два упомянутых значения почти не имеют значения, потому что не существует стандартизации того, какая ошибка должна возникать, чтобы допустить эти два значения ( Ошибка чтения и поиска ошибки). Это производитель принимает решение по этому вопросу - в общем: Seagate, как правило, имеет высокие значения RAW для необработанных считываний и ошибок поиска, в то время как Western Digital, как правило, имеют низкие значения RAW в этом сегменте. Из-за этого я читал, что было бы бесполезно пытаться интерпретировать RAW-значения этих двух атрибутов, вместо этого я должен сравнить столбцы с именем VALUE с WORST и THRESHOLD. И тут возникает следующая проблема. Теперь все наоборот: более высокое значение, чем THRESHOLD, является предпочтительным.

Чтобы было понятнее, взгляните на smartctl -a /dev/sdb/ snippet ниже

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   120   099   006    Pre-fail  Always       -       237676480

Что касается SMART, у меня есть Raw_Read_Error_Rate со значением RAW 237676480. Это выглядит опасно в первую очередь. А вот по поводу колонок VALUE WORST THRESH у меня актуальная (?) ЗНАЧЕНИЕ 120. Самый худший случай был 099, и если он падает ниже THRESH 006, диск следует считать поврежденным.

То же самое касается перераспределенного сектора. Чем ниже значения столбца по сравнению со значением THRESH, тем хуже состояние диска.

Что касается приведенного ниже фрагмента SMART, мой диск никогда ничего не перераспределял.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0

Теперь давайте посмотрим на Reported-Uncorrected-Error. Насколько я понимаю, эти ошибки учитываются каждый раз, когда на диске не удается перераспределить поврежденный сектор, в результате чего данные, хранящиеся в таком секторе, теряются.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
187 Reported_Uncorrect      0x0032   099   099   000    Old_age   Always       -       1

Что касается приведенного выше фрагмента SMART, то на диске был один неисправленный сектор за время существования. Что касается столбцов VALUE и WORST, не нужно бояться каких-либо сбоев диска.

Другим атрибутом является Airflow-Temperature-Cel. Сначала я установил диск в свой 12-летний ноутбук и запустил badblocks чтобы проверить мой диск. Пока badblocks работали в течение нескольких часов, я проверил значение температуры SMART и увидел, что столбец VALUE равен WORST, и оба значения упали ниже THRESH. В качестве RAW_VALUE у меня было утверждение типа: DISK IS FAILING. Поэтому я решил выключить свой ноутбук и установить этот SSHD на моем домашнем сервере, который имеет лучший поток воздуха и перезапустил badblocks . Поэтому при проверке этого атрибута SMART сейчас столбец WORST описывает случай, который произошел накануне в моем ноутбуке, а столбец VALUE показывает фактическую температуру. Сравнивая VALUE с THRESH, температура в порядке. У меня проблемы с интерпретацией RAW_VALUE. Здесь фрагмент

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
190 Airflow_Temperature_Cel 0x0022   068   037   045    Old_age   Always   In_the_past 32 (0 120 37 26 0

И последнее, но не менее важное: есть некоторая информация SMART, которую я никогда не читал ни в одном из выходов SMART за всю свою жизнь, и я абсолютно не знаю, как их интерпретировать:

Error 4 occurred at disk power-on lifetime: 521 hours (21 days + 17 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 71 03 80 04 11 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ea 00 00 00 00 00 00 00      00:13:30.508  FLUSH CACHE EXT
  61 00 08 00 09 9c 40 00      00:13:30.507  WRITE FPDMA QUEUED
  61 00 08 78 e1 42 40 00      00:13:30.507  WRITE FPDMA QUEUED
  61 00 28 f0 44 9d 40 00      00:13:30.507  WRITE FPDMA QUEUED
  61 00 08 00 6f 71 47 00      00:13:29.805  WRITE FPDMA QUEUED

Error 3 occurred at disk power-on lifetime: 519 hours (21 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 a0 25 e7 06

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ea 00 00 00 00 00 00 00      00:11:47.000  FLUSH CACHE EXT
  61 00 08 88 c4 a0 40 00      00:11:45.863  WRITE FPDMA QUEUED
  60 00 08 40 d4 08 49 00      00:11:45.863  READ FPDMA QUEUED
  61 00 08 00 09 9c 40 00      00:11:45.863  WRITE FPDMA QUEUED
  60 00 12 19 47 5a 40 00      00:11:45.863  READ FPDMA QUEUED

Error 2 occurred at disk power-on lifetime: 519 hours (21 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 40 d4 08 09  Error: WP at LBA = 0x0908d440 = 151573568

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 08 78 e1 42 40 00      00:10:28.019  WRITE FPDMA QUEUED
  61 00 08 e0 96 a0 40 00      00:10:27.914  WRITE FPDMA QUEUED
  61 00 08 98 95 a0 40 00      00:10:27.914  WRITE FPDMA QUEUED
  61 00 08 70 95 a0 40 00      00:10:27.914  WRITE FPDMA QUEUED
  61 00 08 58 95 a0 40 00      00:10:27.914  WRITE FPDMA QUEUED

Error 1 occurred at disk power-on lifetime: 426 hours (17 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 71 03 80 04 11 40

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ea 00 00 00 00 00 00 00      00:35:26.857  FLUSH CACHE EXT
  61 00 08 00 09 9c 40 00      00:35:26.856  WRITE FPDMA QUEUED
  61 00 08 ff ff ff 4f 00      00:35:26.161  WRITE FPDMA QUEUED
  61 00 08 ff ff ff 4f 00      00:35:26.161  WRITE FPDMA QUEUED
  61 00 08 ff ff ff 4f 00      00:35:26.160  WRITE FPDMA QUEUED

Судя по сообщениям, которые я читал на разных форумах, люди склонны советовать заменять диски, прежде чем все станет хуже. Также я прочитал, как несколько человек комментируют, что им удалось использовать такие диски в течение нескольких лет, прежде чем они умерли до смерти. Для меня это новая земля. У меня никогда не было диска с таким количеством ошибок. Вероятно, владелец раньше плохо справлялся с этим диском. Например, сильно трясло его ноутбук, или SATA-разъемы не подходили идеально, что тоже приводило к ошибкам. Как я уже сказал, я понятия не имею, как интерпретировать эти параметры. Это как эксперимент, который я собираюсь провести с этим диском.

Я проверил диск с помощью badblocks -wvs -b 4096 -o badblox.result /dev/sdb и не обнаружил ошибок - НЕ КОПИРУЙТЕ И ВСТАВЛЯЙТЕ ЭТУ КОМАНДУ БАДБЛОКОВ !!! , Но при сравнении результатов smartctl -a /dev/sdb до и после запуска badblocks число Raw_Read_Error_Rate и Seek_Error_Rate значительно увеличилось, в то время как все остальные значения атрибутов остались прежними. Проверьте фрагмент ниже:

Перед запуском badblocks .

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   104   099   006    Pre-fail  Always       -       6995776
  7 Seek_Error_Rate         0x000f   059   055   030    Pre-fail  Always       -       107395771838

После того, как babdblocks закончил.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   120   099   006    Pre-fail  Always       -       237676480
  7 Seek_Error_Rate         0x000f   059   055   030    Pre-fail  Always       -       107395783395

Весь SMART Output можно просмотреть на PasteBin:

Перед запуском badblocks https://pastebin.com/d2Bg8htn
После запуска badblocks https://pastebin.com/9U9f7TkM

Итак, мои вопросы:

Какой серьезный ущерб имеет этот диск?
Правильна ли моя интерпретация относительно Raw-Read и Seek-Error?
Ноль перераспределенных секторов - это хорошо?
Наличие только одной не перераспределенной ошибки не так уж плохо?
Ноль ошибок при запуске badblocks означает, что диск в хорошем состоянии?
Как я должен интерпретировать ошибку 1 к ошибке 4?
Любой тест, который я должен сделать, кроме smartctl -t long /dev/sdb который на самом деле работает?

score 3 · Accepted Answer · 2011-03-09T19:38:42

Очень быстро:

Необработанные значения ничего не значат. Они могут варьироваться от прошивки к прошивке, и, если вы не знаете точно, что означает ваше сырое значение для вашего конкретного оборудования, не пытайтесь их интерпретировать. Иногда это очевидно (температура в градусах Цельсия), часто это не так.
Значения нормированы до 100, чем ниже, тем хуже. Если это 100 или выше, не нужно беспокоиться. Если он ниже 100, жесткий диск немного изнашивается. Если он приближается к порогу или под ним, начинайте беспокоиться.
Все жесткие диски имеют грубые ошибки чтения. Это является следствием высокой плотности современных накопителей, и именно для этого предназначена встроенная коррекция ошибок.
Итак: ваша скорость чтения выглядит нормально. Ваша перераспределенная доля сектора превосходна, что означает, что ничего серьезного еще не произошло. Несколько перераспределенных секторов не о чем беспокоиться.
Ваша температура по какой-то причине слишком высокая, убедитесь, что жесткий диск охлажден должным образом. Частота ошибок поиска слишком высока, это может быть следствием слишком высокой температуры, что приводит к небольшому расширению металла, что может привести к смещению положения головки из-за спекуляции.

Поэтому вам нужно беспокоиться о правильном охлаждении. Если вы можете сделать это, ошибки поиска должны исчезнуть, и на вашем месте я бы оставил жесткий диск. (Но, конечно, вы делаете резервные копии, не так ли?)

редактировать

Ошибки 1-4 происходят из журнала пяти самых последних ошибок, которые были переданы на уровне ATA. Обычно вы получаете заголовок, как

SMART Error Log Version: 1
ATA Error Count: xxx (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]

Таким образом, можно посмотреть значения команд и функций в стандарте ATA, чтобы узнать больше подробностей о том, что произошло. Но наличие ошибок время от времени само по себе не о чем беспокоиться: встроенный контроллер сложен, взаимодействие с хостом сложное, время - сложное; если происходят какие-то странные обстоятельства, это один из способов получить ошибку. Другими причинами являются ошибки во встроенном программном обеспечении встроенного контроллера, которые срабатывают только при этих нечетных обстоятельствах.

Только когда ошибки происходят часто, прямо сейчас и продолжают возникать, пора беспокоиться, особенно если это всегда одна и та же ошибка.

У вас есть три ошибки, которые произошли после очистки кэша, и одна после записи (LBA = адрес логического блока). Два случая произошли вместе, вероятно, как следствие одной и той же проблемы, и один до и один после произошли независимо из-за этого. На вашем месте я бы полностью проигнорировал это: все, что вызвало их, прошло, и это больше не повторится.

Сейчас выбран русский

Как интерпретировать результаты SMART и Badblocks

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками hard-drive hardware-failure smart bad-blocks hybrid-storage.

Как интерпретировать результаты SMART и Badblocks

1 ответ1

Всё ещё ищете ответ? Посмотрите другие вопросы с метками hard-drive hardware-failure smart bad-blocks hybrid-storage.

Похожие