17

У меня есть диск в программном RAID-1 с двумя дисками, для которого недавно в статусе SMART появился "автономный неисправимый сектор".

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

Это, по-видимому, является лишь признаком неизбежного сбоя диска, если он происходит все чаще (а поскольку диск зеркально отражен, большой риск реальной потери данных также отсутствует). В то время самопроверка также в какой-то момент не удалась, и smartd отправил мне электронное письмо, чтобы уведомить меня об этом, как и должно быть.

Однако запись в поврежденный сектор обычно приводит к тому, что диск использует вместо него один из резервных секторов, что, по-видимому, и произошло, потому что, поскольку я dd диск, все самотестирование прошло нормально. И badblocks также не нашли причин жаловаться.

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
[...]
# 5  Extended offline    Completed without error       00%      5559         -
# 6  Short offline       Completed without error       00%      5540         -
# 7  Short offline       Completed: read failure       90%      5524         63273368

Число неисправных секторов не уменьшилось, хотя и не должно, так как сломанный сектор все еще там, хотя и не используется. Тем не менее, smartd продолжает отправлять мне электронные письма каждую ночь:

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Offline uncorrectable sectors

Это чрезвычайно раздражает и, очевидно, ошеломляет мой здоровый рефлекс паники на smartd письма.

Диск Western Digital WD20EARS, версия smartd - 5.41 2011-06-09 r3365.

2 ответа2

22

Может быть, вам нужен -U + / -U 198+ в конфигурационном файле (+ имеет значение).

Если указано «+», отчет распечатывается только в том случае, если число секторов увеличилось с момента последнего цикла проверки. Некоторые диски не сбрасывают этот атрибут при перераспределении плохого сектора. Смотрите также ´-v 198, увеличивая´ ниже.

smartd.conf (5)

0

Есть две возможности, откуда приходят эти письма. SmartD может отправлять письма самостоятельно, но, скорее всего, он не настроен таким образом, поэтому я предполагаю, что эти письма отправляются с помощью logcheck. Если это предположение неверно, вам не нужно читать дальше.

logcheck сканирует файлы журнала и отправляет письма, если считает, что вам следует беспокоиться обо всем, что случилось с вашей системой.

У вас есть возможность написать правило игнорирования проверки журнала, которое сообщает logcheck не отправлять сообщения, которые соответствуют определенному шаблону.

Вы можете (в системах на основе Debian) создать файл с именем "/etc/logcheck/ignore.d.server/smartd_own" со следующим содержимым:

^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$

Это должно отфильтровать раздражающие письма, но написать вам снова, если счетчик неисправимых секторов увеличивается.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .