Недавно построен новый сервер i9; это работает Ubuntu 14.
Это происходило 4 раза за последние 2 месяца, и сегодня это могло привести к потере дневных экспериментальных данных.
Вот что случилось:
- Сервер работал нормально в течение нескольких недель
- 2 или 3 пользователя одновременно в часы пик
- Сегодня я инициирую передачу SCP (26 МБ) с сервера на удаленный кластер в другой стране (сервер: Канада, кластер: Германия).
- SCP достигает 16%, и все связи SSH прекращаются
- Мой сеанс SSH не отвечает, не может открыть новые сеансы; другие пользователи на сервере видят те же симптомы (не отвечающие сеансы, не в состоянии открыть новые)
- Файл доступен в кластере, однако он неполный / поврежден
Пинг сервера приводит к: "Узел назначения недоступен"
Чтобы снова запустить сервер, нам нужно перезагрузить физическую машину.
Есть идеи, что может быть причиной и как это исправить? Это происходило 4 раза с момента создания нового сервера и каждый раз, когда это происходило при передаче файлов размером 20-30 МБ с сервера в кластер. Хотя это происходит не каждый раз, когда мы переносим эти файлы, это происходит в 5% случаев.
РЕДАКТИРОВАТЬ: Вот журналы во время недоступности сервера SSH (из var/log/syslog):
Sep 26 09:17:01 snail CRON[34116]: (root) CMD ( cd / && run-parts --report/etc/cron.hourly)
Sep 26 10:17:01 snail CRON[34137]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Sep 26 12:36:14 snail rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="763" x-info="http:/ /www.rsyslog.com"] start
Sep 26 12:36:14 snail rsyslogd: rsyslogd's groupid changed to 104
Sep 26 12:36:14 snail rsyslogd: rsyslogd's userid changed to 101
Сервер перестал отвечать на запросы в 11:30, и я перезапустил его (физически) в 12:36; так что журналы ничего не говорят нам о том, что произошло в 11:30
** «улитка» - это имя сервера