Кто-то в моей компании строит высокопроизводительный кластер (50 ядер ЦП, полдюжины машин, 32 модуля памяти на машину). У нас нет опыта работы с кластерами, и мы обеспокоены тем, что это займет слишком много времени (более 2 месяцев). Он говорит о том, что время до отказа оборудования (несколько процессоров / модулей памяти выходит из строя) каждый раз, когда я связываюсь с ним.
Я ищу некоторый совет - нормально ли для нескольких процессоров и модулей памяти выходить из строя в новых кластерах? Или это, скорее всего, человеческая ошибка?