Недавно у меня произошел сбой массива raid5 (два из четырех дисков вышли из строя) на компьютере без головы, который я сидел в шкафу и выполнял роль файлового сервера. У меня не было адекватного мониторинга на месте, поэтому я пропустил тот факт, что первый провалился.

Я заменил два диска и восстановил как raid6 с XFS .

Для мониторинга у меня есть настройки mdmonitor и smartd ( конфиг ниже).

Ранее система работала в течение нескольких месяцев без какой-либо нестабильности (она работала в течение 6 месяцев с первым неисправным диском!). Теперь, однако, он начал перезагружаться, и я не могу понять, что его вызывает.

AFAIK единственное изменение в системе - это то, что я перешел с raid5/ext4 на raid6/xfs и включил mdmonitor и smartd .

Вы можете видеть, что это много перезагружается!

last reboot:

reboot   system boot  3.9.10-100.fc17. Tue Jun  3 13:36 - 14:23  (00:46)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 12:26 - 14:23  (01:56)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 10:20 - 14:23  (04:02)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 09:07 - 14:23  (05:15)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 07:58 - 14:23  (06:24)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 06:49 - 14:23  (07:33)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 05:35 - 14:23  (08:47)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 04:27 - 14:23  (09:55)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 03:17 - 14:23  (11:05)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 02:22 - 14:23  (12:00)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 01:12 - 14:23  (13:10)    
reboot   system boot  3.9.10-100.fc17. Tue Jun  3 00:04 - 14:23  (14:19)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 22:51 - 14:23  (15:32)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 21:29 - 14:23  (16:53)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 20:15 - 14:23  (18:07)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 19:01 - 14:23  (19:21)    
reboot   system boot  3.9.10-100.fc17. Mon Jun  2 16:26 - 14:23  (21:56)    

Вот выдержка из /var/log/messages со времени неизвестной перезагрузки:

/var/log/messages:

09:38:15 smartd[641]: Device: /dev/sda [SAT], SMART Usage Attribute: 188 Command_Timeout changed from 99 to 100
09:38:17 smartd[641]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 99 to 100
09:54:57 kernel: [ 2848.075773] Clocksource tsc unstable (delta = -631754440 ns)
09:54:57 kernel: [ 2848.076234] Switching to clocksource hpet
10:08:15 smartd[641]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 62 to 61
10:08:15 smartd[641]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 38 to 39
10:13:12 dbus-daemon[694]: dbus[694]: [system] Activating service name='org.freedesktop.PackageKit' (using servicehelper)
10:13:12 dbus[694]: [system] Activating service name='org.freedesktop.PackageKit' (using servicehelper)
10:13:12 dbus-daemon[694]: dbus[694]: [system] Successfully activated service 'org.freedesktop.PackageKit'
10:13:12 dbus[694]: [system] Successfully activated service 'org.freedesktop.PackageKit'
10:20:55 kernel: imklog 5.8.10, log source = /proc/kmsg started.
10:20:55 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="622" x-info="http://www.rsyslog.com"] start
10:20:55 kernel: [    0.000000] Initializing cgroup subsys cpuset
10:20:55 kernel: [    0.000000] Initializing cgroup subsys cpu
10:20:55 kernel: [    0.000000] Linux version 3.9.10-100.fc17.x86_64 (mockbuild@bkernel01.phx2.fedoraproject.org) (gcc version 4.7.2 20120921 (Red Hat 4.7.2-2) (GCC) ) #1 SMP Sun Jul 14 01
:31:27 UTC 2013

/etc/mdadm.conf:

ARRAY /dev/md0 metadata=1.2 name=nas:0 UUID=05f5ca2c:db826606:c2ae0648:2da1b4a0
MAILADDR ...
MAILFROM ...

/etc/smartd.conf: (взято отсюда)

DEVICESCAN
 -a              \ # Implies all standard testing and reporting.
 -n standby,10,q \ # Don't spin up disk if it is currently spun down
                 \ #   unless it is 10th attempt in a row. 
                 \ #   Don't report unsuccessful attempts anyway.
 -o on           \ # Automatic offline tests (usually every 4 hours).
 -S on           \ # Attribute autosave (I don't really understand
                 \ #   what it is for. If you can explain it to me
                 \ #   please drop me a line.
 -R 194          \ # Show real temperature in the logs.
 -R 231          \ # The same as above.
 -I 194          \ # Ignore temperature attribute changes
 -W 3,50,50      \ # Notify if the temperature changes 3 degrees
                 \ #   comparing to the last check or if
                 \ #   the temperature exceeds 50 degrees.
 -s (S/../.././02|L/../../1/22) \ # short test: every day between 2-3am
                                \ # long test every Monday between 10pm-2am
                                \ # (Long test takes a lot of time
                                \ # and it should be finished before
                                \ # daily short test starts.
                                \ # At 3am every day this disk will be
                                \ # utilized heavily as a backup storage)
 -m root         \ # To whom we should send mails.
 -M exec /usr/libexec/smartmontools/smartdnotify

У кого-нибудь есть понимание того, что вызывает перезагрузку?

Примечание:

С другой стороны, относится ли 2-я строка журнала сообщений к отказу другого диска?

SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 99 to 100

Учитывая, что четыре оригинальных диска (из которых два вышли из строя) были куплены одновременно, я полагаю, что оставшиеся два диска тоже могут оказаться на грани отказа?

0