Я купил использованный SSHD (ноутбук Seagate SSHD - ST500LM000-1EJ162) на Ebay. Что касается SMART, диск может быть как-то поврежден, я не уверен. Чтобы правильно интерпретировать значения SMART, мне нужна ваша помощь.
Что касается SMART, у меня огромное количество ошибок Raw-Read-Error и Seek-Error. До сих пор я читал много разных тем на эту тему, и я обнаружил, что эти два упомянутых значения почти не имеют значения, потому что не существует стандартизации того, какая ошибка должна возникать, чтобы допустить эти два значения ( Ошибка чтения и поиска ошибки). Это производитель принимает решение по этому вопросу - в общем: Seagate, как правило, имеет высокие значения RAW для необработанных считываний и ошибок поиска, в то время как Western Digital, как правило, имеют низкие значения RAW в этом сегменте. Из-за этого я читал, что было бы бесполезно пытаться интерпретировать RAW-значения этих двух атрибутов, вместо этого я должен сравнить столбцы с именем VALUE с WORST и THRESHOLD. И тут возникает следующая проблема. Теперь все наоборот: более высокое значение, чем THRESHOLD, является предпочтительным.
Чтобы было понятнее, взгляните на smartctl -a /dev/sdb/
snippet ниже
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 120 099 006 Pre-fail Always - 237676480
Что касается SMART, у меня есть Raw_Read_Error_Rate со значением RAW 237676480. Это выглядит опасно в первую очередь. А вот по поводу колонок VALUE WORST THRESH
у меня актуальная (?) ЗНАЧЕНИЕ 120. Самый худший случай был 099, и если он падает ниже THRESH 006, диск следует считать поврежденным.
То же самое касается перераспределенного сектора. Чем ниже значения столбца по сравнению со значением THRESH, тем хуже состояние диска.
Что касается приведенного ниже фрагмента SMART, мой диск никогда ничего не перераспределял.
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
Теперь давайте посмотрим на Reported-Uncorrected-Error. Насколько я понимаю, эти ошибки учитываются каждый раз, когда на диске не удается перераспределить поврежденный сектор, в результате чего данные, хранящиеся в таком секторе, теряются.
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always - 1
Что касается приведенного выше фрагмента SMART, то на диске был один неисправленный сектор за время существования. Что касается столбцов VALUE и WORST, не нужно бояться каких-либо сбоев диска.
Другим атрибутом является Airflow-Temperature-Cel. Сначала я установил диск в свой 12-летний ноутбук и запустил badblocks
чтобы проверить мой диск. Пока badblocks
работали в течение нескольких часов, я проверил значение температуры SMART и увидел, что столбец VALUE равен WORST, и оба значения упали ниже THRESH. В качестве RAW_VALUE у меня было утверждение типа: DISK IS FAILING. Поэтому я решил выключить свой ноутбук и установить этот SSHD на моем домашнем сервере, который имеет лучший поток воздуха и перезапустил badblocks
. Поэтому при проверке этого атрибута SMART сейчас столбец WORST описывает случай, который произошел накануне в моем ноутбуке, а столбец VALUE показывает фактическую температуру. Сравнивая VALUE с THRESH, температура в порядке. У меня проблемы с интерпретацией RAW_VALUE. Здесь фрагмент
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 190 Airflow_Temperature_Cel 0x0022 068 037 045 Old_age Always In_the_past 32 (0 120 37 26 0
И последнее, но не менее важное: есть некоторая информация SMART, которую я никогда не читал ни в одном из выходов SMART за всю свою жизнь, и я абсолютно не знаю, как их интерпретировать:
Error 4 occurred at disk power-on lifetime: 521 hours (21 days + 17 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 71 03 80 04 11 40 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ea 00 00 00 00 00 00 00 00:13:30.508 FLUSH CACHE EXT 61 00 08 00 09 9c 40 00 00:13:30.507 WRITE FPDMA QUEUED 61 00 08 78 e1 42 40 00 00:13:30.507 WRITE FPDMA QUEUED 61 00 28 f0 44 9d 40 00 00:13:30.507 WRITE FPDMA QUEUED 61 00 08 00 6f 71 47 00 00:13:29.805 WRITE FPDMA QUEUED Error 3 occurred at disk power-on lifetime: 519 hours (21 days + 15 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 00 a0 25 e7 06 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ea 00 00 00 00 00 00 00 00:11:47.000 FLUSH CACHE EXT 61 00 08 88 c4 a0 40 00 00:11:45.863 WRITE FPDMA QUEUED 60 00 08 40 d4 08 49 00 00:11:45.863 READ FPDMA QUEUED 61 00 08 00 09 9c 40 00 00:11:45.863 WRITE FPDMA QUEUED 60 00 12 19 47 5a 40 00 00:11:45.863 READ FPDMA QUEUED Error 2 occurred at disk power-on lifetime: 519 hours (21 days + 15 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 40 d4 08 09 Error: WP at LBA = 0x0908d440 = 151573568 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 61 00 08 78 e1 42 40 00 00:10:28.019 WRITE FPDMA QUEUED 61 00 08 e0 96 a0 40 00 00:10:27.914 WRITE FPDMA QUEUED 61 00 08 98 95 a0 40 00 00:10:27.914 WRITE FPDMA QUEUED 61 00 08 70 95 a0 40 00 00:10:27.914 WRITE FPDMA QUEUED 61 00 08 58 95 a0 40 00 00:10:27.914 WRITE FPDMA QUEUED Error 1 occurred at disk power-on lifetime: 426 hours (17 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 71 03 80 04 11 40 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ea 00 00 00 00 00 00 00 00:35:26.857 FLUSH CACHE EXT 61 00 08 00 09 9c 40 00 00:35:26.856 WRITE FPDMA QUEUED 61 00 08 ff ff ff 4f 00 00:35:26.161 WRITE FPDMA QUEUED 61 00 08 ff ff ff 4f 00 00:35:26.161 WRITE FPDMA QUEUED 61 00 08 ff ff ff 4f 00 00:35:26.160 WRITE FPDMA QUEUED
Судя по сообщениям, которые я читал на разных форумах, люди склонны советовать заменять диски, прежде чем все станет хуже. Также я прочитал, как несколько человек комментируют, что им удалось использовать такие диски в течение нескольких лет, прежде чем они умерли до смерти. Для меня это новая земля. У меня никогда не было диска с таким количеством ошибок. Вероятно, владелец раньше плохо справлялся с этим диском. Например, сильно трясло его ноутбук, или SATA-разъемы не подходили идеально, что тоже приводило к ошибкам. Как я уже сказал, я понятия не имею, как интерпретировать эти параметры. Это как эксперимент, который я собираюсь провести с этим диском.
Я проверил диск с помощью badblocks -wvs -b 4096 -o badblox.result /dev/sdb
и не обнаружил ошибок - НЕ КОПИРУЙТЕ И ВСТАВЛЯЙТЕ ЭТУ КОМАНДУ БАДБЛОКОВ !!! , Но при сравнении результатов smartctl -a /dev/sdb
до и после запуска badblocks
число Raw_Read_Error_Rate и Seek_Error_Rate значительно увеличилось, в то время как все остальные значения атрибутов остались прежними. Проверьте фрагмент ниже:
Перед запуском badblocks
.
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 104 099 006 Pre-fail Always - 6995776 7 Seek_Error_Rate 0x000f 059 055 030 Pre-fail Always - 107395771838
После того, как babdblocks
закончил.
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 120 099 006 Pre-fail Always - 237676480 7 Seek_Error_Rate 0x000f 059 055 030 Pre-fail Always - 107395783395
Весь SMART Output можно просмотреть на PasteBin:
- Перед запуском
badblocks
https://pastebin.com/d2Bg8htn - После запуска
badblocks
https://pastebin.com/9U9f7TkM
Итак, мои вопросы:
- Какой серьезный ущерб имеет этот диск?
- Правильна ли моя интерпретация относительно Raw-Read и Seek-Error?
- Ноль перераспределенных секторов - это хорошо?
- Наличие только одной не перераспределенной ошибки не так уж плохо?
- Ноль ошибок при запуске
badblocks
означает, что диск в хорошем состоянии? - Как я должен интерпретировать ошибку 1 к ошибке 4?
- Любой тест, который я должен сделать, кроме
smartctl -t long /dev/sdb
который на самом деле работает?