2

У меня есть один маленький сервер в удаленном месте, который вызывает у меня некоторые головные боли, так как теперь он, похоже, съел третий жесткий диск в определенном слоте подряд.

Последняя замена была сделана в мае (WD WD30PURX на 3 ТБ, если это имеет значение, она длилась всего 8 месяцев), и через некоторое время я снова заметил ошибки чтения. Тогда мне было интересно, действительно ли мне не повезло с этим или есть проблема с контроллером.

Обычно я думал, что смарт говорит только о том, что испытывал накопитель, но потом я подумал, что, возможно, возможно, что он мог нормально читать свои сектора, но не мог записать их в контроллер, и это было зарегистрировано как ошибка?

То, что вызывало у меня подозрение, заключалось в том, что в тот день, когда я впервые обнаружил интеллектуальные оповещения, все поврежденные сектора находились в диапазоне от 3330891687 до 3303035895, из-за чего это выглядело как какая-то плохая поверхность, а запуск всех видов инструментов через жесткий диск приводил к ошибок там, но в конце концов, каждый запрос на чтение был успешным, и с тех пор сектор был "исцелен". Это показалось мне немного похожим на перераспределение секторов, но не было ни одного записанного.

В общей сложности было 4527 ошибок чтения в 4153 различных секторах, теперь я не могу найти ни одного плохого (прогонял несколько раз по всему диску).

Затем, через несколько дней, при сканировании всего диска (умном и с помощью бадблоков) ошибки не было обнаружено, и диск работает нормально.

Ошибки появились в системном журнале как:

 [517871.828215] ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
 [517871.828219] ata6.00: BMDMA stat 0x25
 [517871.828223] ata6.00: failed command: READ DMA EXT
 [517871.828229] ata6.00: cmd 25/00:00:00:4f:68/00:02:c6:00:00/e0 tag 0 dma 262144 in
 [517871.828229]          res 51/40:cf:30:50:68/40:00:c6:00:00/e0 Emask 0x9 (media error)
 [517871.828232] ata6.00: status: { DRDY ERR }
 [517871.828234] ata6.00: error: { UNC }
 [517871.840411] ata6.00: configured for UDMA/133
 [517871.840538] sd 5:0:0:0: [sdd] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
 [517871.840543] sd 5:0:0:0: [sdd] tag#0 Sense Key : Medium Error [current] [descriptor]
 [517871.840547] sd 5:0:0:0: [sdd] tag#0 Add. Sense: Unrecovered read error - auto reallocate failed
 [517871.840551] sd 5:0:0:0: [sdd] tag#0 CDB: Read(16) 88 00 00 00 00 00 c6 68 4f 00 00 00 02 00 00 00
 [517871.840554] blk_update_request: I/O error, dev sdd, sector 3328725040
 [517871.840576] ata6: EH complete

а в SMART вроде:

Error 4527 [14] occurred at disk power-on lifetime: 1282 hours (53 days + 10 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 01 00 00 00 c6 49 3c a0 e0 00  Error: UNC 256 sectors at LBA = 0xc6493ca0 = 3326688416

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  25 00 00 01 00 00 00 c6 49 3c 00 e0 08  5d+23:59:09.617  READ DMA EXT
  25 00 00 00 18 00 00 c6 49 38 e8 e0 08  5d+23:59:09.617  READ DMA EXT
  25 00 00 00 10 00 00 c5 9d e7 00 e0 08  5d+23:59:09.610  READ DMA EXT
  25 00 00 00 c0 00 00 c5 9d b5 00 e0 08  5d+23:59:09.581  READ DMA EXT
  35 00 00 00 18 00 00 c6 49 38 e8 e0 08  5d+23:59:09.581  WRITE DMA EXT

мне это сначала кажется, что есть поверхностная ошибка и перераспределение не удалось. Однако из этого я привык видеть, что некоторые интеллектуальные счетчики значений растут, в частности либо текущие ожидающие секторы, либо количество перераспределенных секторов. Но никакая ценность не увеличивается

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   165   145   051    -    36676
  3 Spin_Up_Time            POS--K   100   253   021    -    0
  4 Start_Stop_Count        -O--CK   100   100   000    -    3
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   099   099   000    -    1402
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    2
192 Power-Off_Retract_Count -O--CK   200   200   000    -    0
193 Load_Cycle_Count        -O--CK   200   200   000    -    7
194 Temperature_Celsius     -O---K   119   119   000    -    31
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   001   001   000    -    102665
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

TL; DR

Это просто случай "плохого жесткого диска, который ведет себя нехорошо" или что-то не так на стороне контроллера? Или даже СМАРТ сам по себе сломан? У меня такое ощущение, что мне здесь не хватает чего-то очевидного, что могло бы объяснить несоответствие.


Примечание: у меня есть замена в режиме ожидания, и через несколько дней у меня будет возможность физически посетить сервер, так что до тех пор не будет шатания кабеля и тому подобного.

1 ответ1

2

Краткий ответ и ответ на главный вопрос: Да, контроллер / компьютер может вызвать ошибки SMART. Причина № 1 в том, что если у вас шумный кабель или неисправные / некондиционные драйверы SATA / SAS, и вы повреждаете команды, отправленные через SATA / SAS на диск. Диск проверит CRC и провалит эту команду, а также зарегистрирует эту ошибку в SMART как ошибку CRC команды.

Длинный и сложный ответ, основанный на данных тела: Однако я не думаю, что это так, потому что не было ошибки CRC. Имейте в виду, что есть два "подключения" к жесткому диску со стороны компьютера - данные и питание. Хотя это и не точно, но, скорее всего, если это связано со слотом, питание, поступающее на диск, приводит к тому, что диск ведет себя плохо, если вы не просто ошибки CRC.

Здесь действительно недостаточно данных, чтобы окончательно ответить на ваш вопрос, вполне возможно, что у власти, идущей в этот слот, есть проблемы. Когда сила не определена, все ставки отключены для чтения / записи на диск.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .