3

Моя текущая настройка хранения состоит из двух традиционных жестких дисков и двух SSD в моем Linux-боксе, каждый из которых имеет собственный массив RAID 1, зашифрованный с помощью luks. У меня есть своего рода история, а не конкретный вопрос.

Уже больше года я случайно получаю сообщения об ошибках жесткого сброса в журнале ядра с некоторых из моих дисков. Я бы RMA проблемы диска, и новые диски приведет к остановке проблемы. Через несколько месяцев я, в конце концов, снова увидел бы ту же ошибку в, казалось бы, случайном времени. Диск будет помечен как отказавший в RAID и больше не будет отображаться в fdisk -l . Я перезагрузил бы компьютер, и привод снова появился бы, и я мог бы повторно добавить к массиву, и это восстановило бы. Рано или поздно эта проблема возникнет снова, обычно через несколько часов.

Около шести месяцев назад я заменил два традиционных жестких диска твердотельными накопителями в надежде, что у них не будет почти такой же высокий уровень отказов, как у традиционных накопителей. Однако за последние несколько дней у меня начались проблемы как с одним из новых SSD, так и с одним из традиционных накопителей.

Я начинаю видеть, как картина появляется. Я получаю новый диск, через несколько месяцев у меня начинаются проблемы с ним. Я всегда предполагал, что это происходит из-за высокой частоты отказов жесткого диска, но теперь это происходит с SSD, поэтому я думаю, что это не ошибка диска. В чем еще может быть проблема? У меня было установлено несколько ОС с тех пор, как у меня возникла проблема, поэтому я хочу исключить проблему с программным обеспечением. Это оставляет либо кабели SATA, либо материнскую плату. Может ли шифрование диска создавать слишком большую нагрузку на диски? Могу ли я что-нибудь сделать, чтобы узнать больше информации? Спасибо как всегда.

Ниже приведен вывод проблемы dmesg из вопроса, который я задал несколько месяцев назад, когда у меня возникла та же проблема.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete

2 ответа2

3

У вас есть вопрос здесь. Я думаю (если я правильно понимаю), каков процесс определения причины этого сбоя?

Я инженер по сетевой безопасности. Так что поймите, я съеживаюсь, печатая это. Устранить это как проблему шифрования. Расшифруйте диски и посмотрите, есть ли проблема. Недостатком является то, что вам придется использовать их в течение нескольких месяцев в расшифрованном виде.

Кабели являются простым тестом (и вы должны начать там сначала). Поменяйте их местами, но мне трудно поверить, что в этом проблема, если у вас в корпусе неоновые огни.

Это оставляет Мобо. Если это не два других ...

Я уверен, что кто-то включится, если они не согласятся с моим устранением неполадок. Менять кабели не дорого, и временное отключение шифрования представляет собой угрозу безопасности, которую может определить только вы, если вы готовы принять.

3

Похоже, у вас есть много ошибок в вашей ссылке SATA. В результате хост не может получить команды надежно через ссылку, и когда это происходит, иногда возвращаемые данные повреждены.

В сообщениях вы видите, что скорость ограничена или ожидаемый идентификатор диска не был получен. Вы также видите непонятные сообщения от разных уровней драйвера, которые не обязательно отражают то, что происходит на аппаратном уровне SATA. Например, «ограничение скорости UDMA/133:PIO3» строго относится только к параллельным дискам ATA (это просто означает, что драйвер пытается снизить скорость интерфейса, чтобы увидеть, устраняются ли ошибки), но сообщения об ошибках ясно указывают, что самая низкая Уровень, который на самом деле имеет дело с аппаратным обеспечением, понимает, что он говорит с диском SATA.

Вы подумали, что это могут быть кабели SATA. Попробуйте заменить их и убедитесь, что они рассчитаны на SATA 3.0 Гбит / с (также называемый "SATA 2" или "SATA II"). Я не думаю, что ваши диски являются проблемой. Почему после замены диска появляются ошибки в течение нескольких месяцев? Может быть, кабели как-то отсоединяются и замена диска приводит к их повторному подключению. Или, может быть, это просто случайный шанс.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .