У всех моих друзей и у меня туберкулез в нашей системе (ах). Однако ни у кого из нас нет полных резервных копий, которые географически распределены, потому что при таком количестве данных такие решения, как Dropbox, S3 и др. являются дорогостоящими для нас. Однако у каждого из нас есть локальное хранилище в избытке. Каждый туберкулез фактически не используется.
Мы начали думать: если бы мы могли объединить наши хосты в какую-либо форму распределенной файловой системы, каждый из нас мог бы получить географически распределенные резервные копии наших полных наборов данных, одновременно добиваясь более высокого использования имеющейся у нас емкости хранения. Идеальное решение ... мы думаем.
- Нас как минимум 3. Конечно, 6 или больше, если проект приносит плоды.
- У каждого из нас есть 1-2 ТБ данных, и, по крайней мере, столько, чтобы сэкономить.
- Мы все разбросаны по WAN.
- Нам потребуется возможность любого хоста (ов) входить и выходить из облачного сервиса произвольно.
- Реальная (ish) временная синхронизация. В противном случае мы бы просто встречались раз в неделю за пивом и торговали вокруг кучи внешних жестких дисков.
- Требуется F/OSS, но у нас много смазки для локтя.
- Если мы сможем использовать / изучить / использовать распределенную вычислительную платформу в этом процессе, тем лучше.
Мы начали думать о создании интерфейса Dropbox-esque поверх OpenStack или Hadoop, но я хотел бы услышать, есть ли другие альтернативы, которые мы игнорируем. Возможно, для нашего случая есть еще более простое решение? Возможно ли что-то подобное, учитывая малое количество узлов в кластере?
NB. Естественно, что первоначальная синхронизация / балансировка / передача / и т.д. Займет как минимум несколько дней, но это приемлемо.