Если я использую настройку с одним узлом в Hadoop
где у него только один диск, я легко смогу использовать его для работы с Hadoop
и прочим, но будет ли в этом случае преимущество использования Hadoop
по сравнению с другой парадигмой (обработка в Python
без используя mapreduce и т. д.)
2 ответа
Hadoop полностью основан на распределенной файловой системе (HDFS), и здесь кроется настоящая сила.
Но в то же время важно изучить структуру и понять ее компоненты. Именно поэтому Hadoop предлагает 3 режима установки.
Отвечая на ваш точный вопрос, один диск не извлекает выгоду из HDFS-части hadoop. Но опять же это поможет в понимании MapReduce Компонента Hadoop.
Если у вас есть система настройки goof, я бы предложил перейти к настройке псевдо-кластера, чтобы две виртуальные машины взаимодействовали друг с другом.
Преимущество Hadoop заключается в том, что он использует распределенную файловую систему (HDFS) и модель распределенного программирования (MapReduce). Обработка не может быть распараллелена в одном узле кластера с одним диском, поэтому - из-за накладных расходов Hadoop - более простые парадигмы, вероятно, будут быстрее.
Даже при использовании полноценного кластера вы не увидите преимущества Hadoop, если набор дат слишком мал или алгоритм не подходит для распределенной обработки (например, поиск медианного значения).