У нас есть сервер с несколькими виртуальными машинами, использующими KVM. Хотя он работает хорошо, мы обеспокоены возможными сбоями оборудования на этом физическом сервере.
Мы выполняем резервное копирование ночью на другой физический сервер, но восстановление резервных копий занимает некоторое время. Если вся система заработает, у нас будет несколько часов простоя.
Нам нужна система аварийного переключения (т.е. другой физический сервер), на которую мы можем переключиться, если в какой-то момент произойдет сбой основного сервера.
У меня есть несколько вопросов по этому поводу:
- Как сделать так, чтобы система аварийного переключения зеркала была основной? Это должны быть разные физические машины, чтобы мы могли убедиться, что один сбой оборудования не убивает все. Есть ли программное обеспечение для чего-то вроде RAID 1 по сети? Это как-то связано с балансировкой нагрузки?
- Как бы мы отправляли запросы на отказоустойчивый компьютер, если основной не отвечает? Должны ли мы регулярно пинговать его и обновлять информацию DNS, если он не отвечает вовремя?
- Было бы здорово иметь что-то, что работало бы на уровне виртуальной машины, то есть, если одна виртуальная машина не работает, запросы к ней должны быть перенаправлены в копию в отказоустойчивой системе.