4

Недавно я получил ящик Linux с проблемами с общим ресурсом Samba - во-первых, не удалось подключиться, во-вторых, ls -la показала некоторую I/O error (близкую к тому, что видно ниже) без перечисления.

Теперь я полностью обновил коробку, и после обновления с RAID все в порядке, все данные доступны, и Samba работает как чудо. Видимо, я не сохранил предыдущие журналы.

Теперь, даже если все работает, время от времени это появляется в моем journalctl:

kernel: ata4: EH complete
kernel: end_request: I/O error, dev sdc, sector 2839546656
kernel: cdb[0]=0x28: 28 00 a9 40 0b 20 00 00 f0 00
kernel: sd 3:0:0:0: [sdc] CDB:
kernel: ASC=0x47 ASCQ=0x0
kernel: sd 3:0:0:0: [sdc]
kernel:         a9 40 0b a0
kernel:         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00
kernel: Descriptor sense data with sense descriptors (in hex):
kernel: Sense Key : 0xb [current] [descriptor]
kernel: sd 3:0:0:0: [sdc]
kernel: Result: hostbyte=0x00 driverbyte=0x08
kernel: sd 3:0:0:0: [sdc]
kernel: ata4.00: configured for UDMA/133
kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 330)
kernel: ata4: hard resetting link
kernel: ata4.00: error: { ICRC ABRT }
kernel: ata4.00: status: { DRDY ERR }
kernel: [145B blob data]
kernel: ata4.00: failed command: READ DMA EXT
kernel: ata4: SError: { UnrecovData 10B8B BadCRC }
kernel: ata4.00: BMDMA stat 0x26
kernel: ata4.00: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6

smartctl -t extended (SMART длинное (максимальное) сканирование) ничего не говорит уже три раза.

Под "все работает" я имею в виду:

// Read from drive, write to drive.
find > files.txt

// Another read->write.
du -bc > sizes.txt

// 100 GB random writer
dd if=/dev/urandom of=fillerd bs=512 count=209715200

Файлы заканчиваются не поврежденными, полностью читаемыми.

Что изображает ошибка? Я должен беспокоиться? Как мне это исправить?

3 ответа3

5

Существенные записи журнала:

  • ядро: ata4.00: ошибка: {ICRC ABRT}
  • ядро: ata4: SError: {UnrecovData 10B8B BadCRC}

Эти записи журнала указывают на ошибку, возникающую на интерфейсе SATA между ПК и жестким диском.
Интерфейс SATA переносит пакеты ATAPI для данных, команд и отчетов о состоянии, которые проверяются с помощью CRC, Cyclic Redundancy Check, кода.
Сообщение ICRC ABRT указывает на событие "Ошибка интерфейса CRC" и на то, что "Команда прервана". Другие записи журнала являются вспомогательной информацией, относящейся к прерванной команде.
Это не сообщает об ошибке, относящейся к головкам R/W или пластинам жесткого диска, поскольку секторы проверяются с использованием ECC, а не более слабого CRC.
Более подробная информация об этих сообщениях находится на этой вики-странице libata.


См. Этот аналогичный вопрос в разделе "Диски SATA или выбрасывание чипсета DRDY ERR и ICRC ABRT", где источник проблемы был связан со стороной хоста интерфейса SATA, а не с жестким диском.

Обратите внимание, что случайная ошибка интерфейса SATA не считается проблемной:

   For SATA drives, occasional transmission problems are expected even on
   otherwise pretty healthy systems. No need to worry about it too much
   unless the problem repeats itself a lot.

цитируется из этого поста Linux.


smartctl -t расширенный (SMART длинное (максимальное) сканирование) ничего не говорит уже три раза.

Расширенный SMART-тест - это самопроверка, которая выполняется локально для накопителя и, по-видимому, не влияет на интерфейс SATA. Следовательно, это не помогает решить проблему, но усиливает представление о том, что проблема связана с интерфейсом, а не со СМИ.

Вам нужно искать диагностику диска или тренажер, который выполняется с хост-компьютера.
Поскольку расширенный тест SMART, очевидно, может считывать каждый сектор без ошибок, почти идентичный тест для чтения каждого сектора и передачи этого сектора на ПК по шине SATA :

dd if=/dev/sdc of=/dev/null

На интерфейсе SATA будет три источника аппаратного сбоя:

  • кабель SATA. Например, мой диск умирает?
    Простой тест: замените кабель.
  • интерфейс SATA материнской платы.
    Тест: используйте другой порт SATA или установите альтернативный интерфейс, такой как адаптер PCI или USB-SATA с новым кабелем.
  • интерфейс SATA накопителя.
    Тест: установите жесткий диск в другой компьютер с новым кабелем, и посмотрите, появляются ли ошибки на диске.

Но кроме аппаратного сбоя для этой проблемы, были сообщения, что ядро Linux было причиной ошибок SATA:


Нижняя линия

Если вы видите только эти записи ICRC ABRT в журнале на нерегулярное "время от времени" скорости, то вы больше не можете быть проблема. Возможно, первоначальные проблемы могут быть связаны с некоторыми проблемами с ядром, которые были устранены при обновлении системы.

Попробуйте использовать систему и старайтесь делать резервные копии.

1

Независимо от ОС, я всегда нахожу, что после того, как что-то странное происходит с данным жестким диском, оно почти наверняка сломается в течение следующих нескольких месяцев. Если возможно, я бы порекомендовал вам заменить жесткий диск на новый. Другими признаками неисправного жесткого диска будут непригодные для использования файлы, которые вы все равно сможете копировать и перемещать, а также программы, которые внезапно обнаруживают некоторые причуды.

В одном из моих портативных компьютеров выход жесткого диска был на выходе. Случилось так, что я смог нормально загрузиться в ОС, но внезапно стали появляться сообщения об ошибках, связанных с самыми странными процессами ОС, при выполнении действий, которые работали очень хорошо минуту назад - один из системных файлов ОС был полуразрушен из-за ломающийся HDD. После замены жесткого диска это полностью прекратилось, и система работала нормально в течение 4 лет.

Вы также можете попробовать запустить SMART- сканирование жесткого диска. Вы можете найти их на сайте производителя. У Seagate и Western Digital, по крайней мере, есть, но я не уверен, что они доступны для Linux. Иногда при полном сканировании будет обнаружен сломанный диск, который при быстром сканировании во время POST не будет обнаружен.

Изменить: я нашел это для Linux, но у меня нет личного опыта с ним: http://sourceforge.net/apps/trac/smartmontools/wiki

0

Ваш жесткий диск находится на выходе (несмотря на умный результат). Возможно, что это контроллер, но жесткий диск гораздо более вероятен.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .