Первоначально поднял на serverfault как этот вопрос.
У меня есть производственный сервер openSUSE 11.1 2.6.34.4 Intel с установленным стандартным ipmiutil-2.4.1.
Сторожевой таймер - это 90-секундный аппаратный таймер, отменяемый каждые 60 секунд из пользовательского пространства заданием cron.
Причиной беспокойства является не сама перезагрузка сторожевого таймера, а неисправность основного сервера, которая его вызывает, если таковая вообще имеется. IMO-сторожевой таймер IPMI выполняет свою работу по восстановлению системы из неисправимого состояния.
Сервер, кажется, стал медленным / медленным. Я говорю это на основе «пропущенных / отсутствующих» / var / log / cron, syslog и других записей журнала приложений.
Это происходило случайным образом под нагрузочными тестами. Нагрузка - это в основном SIP-трафик на SIP-сервер. Проблема не легко воспроизводима, но это случается довольно часто. Это также не является детерминированным в отношении аппаратного обеспечения, времени, типа загружаемой нагрузки.
Я в своем уме и не знаю, плохой ли это драйвер, ошибка ввода- вывода, что-то в этом роде, приложение SIP или что-то еще.
У меня есть объемы подробных отчетов о работе системы:% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin/s, pgpgout/s, fault/s, majflt/s, pgfree/s и т.д. если нужно.
Ни один из отчетов о системной активности не указывает на что-то ненормальное (хотя я не утверждаю, что у меня точно тренированный глаз)