Кто-то в моей компании строит высокопроизводительный кластер (50 ядер ЦП, полдюжины машин, 32 модуля памяти на машину). У нас нет опыта работы с кластерами, и мы обеспокоены тем, что это займет слишком много времени (более 2 месяцев). Он говорит о том, что время до отказа оборудования (несколько процессоров / модулей памяти выходит из строя) каждый раз, когда я связываюсь с ним.

Я ищу некоторый совет - нормально ли для нескольких процессоров и модулей памяти выходить из строя в новых кластерах? Или это, скорее всего, человеческая ошибка?

1 ответ1

0

Процессоры почти никогда не выходят из строя, а ОЗУ выходит из строя довольно редко. Если есть проблемы с этими двумя конкретными типами оборудования, то реальная проблема, вероятно, заключается в том, что сборщик столкнулся с непредвиденными проблемами совместимости.

С таким большим объемом памяти (~ 192 модуля неизвестного размера), возможно, что ошибки переворачивания битов могут начать поднимать их головы с пугающей частотой. Я надеюсь, что ОЗУ ECC, в противном случае это может быть причиной многих задержек и фальстартов.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .