У нас есть сервер под управлением Ubuntu 16.04, на котором мы проводим много экспериментов, с 4 xeon и 2 RAID-контроллерами (каждый из которых заполнен твердотельными накопителями по 1 ТБ). Мы работали на всех 64 ядрах месяцами без проблем. Мы использовали его более года без каких-либо проблем, пока не попробовали новую нагрузку.

При выполнении большого количества операций ввода-вывода на диск (от сотен ГБ до ТБ) за короткий промежуток времени сервер выполняет тихую перезагрузку. Мы не можем найти перезагрузку ни в одном журнале. Запуск "последней перезагрузки" даже не распознает, что перезагрузка произошла, но проверка времени работы покажет, что он недавно перезагрузился.

Тяжелый дисковый ввод-вывод будет последовательно вызывать тихие перезагрузки. Мы попытались восстановить раздел рейда. Мы заменили 1 диск, который выглядел немного странно по сравнению с другими (но все же, казалось, работал). И обновлен с 14.04 до 16.04. Мы также обновили прошивку RAID-контроллеров и твердотельных накопителей, но это не помогло.

Перезагрузки все еще происходят, и мы не совсем уверены, как выяснить, почему. Кажется, ничего не записывает проблему, и я надеялся, что кто-то здесь уже видел это раньше или знает, где лучше искать, кроме syslog и dmesg (последний из которых пуст).

0