У меня свежая установка Ubuntu Server на virtualbox. Моя цель - добиться следующего.

  1. Установите Hadoop и Spark;
  2. Запустите Spark поверх Hadoop, используя его hdf в качестве хранилища;
  3. Установите Jupyter и разработайте / запустите Scala и Pyspark.

Hadoop будет работать как один узел. Мои вопросы

  1. Должен ли я сначала установить Hadoop, настроить его, а затем установить Spark?
  2. Как установить и запустить Jupyter с ядром Scala для запуска приложений с использованием Spark и Hadoop?

Любой ответ и / или указатели на прохождение игры будут высоко оценены.

1 ответ1

0

Как вы сказали, это Spark "поверх Hadoop", так что да, вы должны начать с Hadoop (HDFS/YARN), и когда у вас есть работающий кластер (распределенная оболочка - хорошая тестовая утилита), вы можете установить Spark. Вам нужно только зажечь на краевых узлах (машинах пользователя), но так как это кластер из одного узла, я думаю, что все будет работать бок о бок. Таким образом, конфигурация еще проще, поскольку все зависимости hadoop и переменные окружения уже должны быть установлены правильно.

Вы можете указать, какой исполняемый файл Python pyspark (модуль python) должен использовать. Это может быть легко:

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

Затем, запуская "pyspark", вы должны открыть записную книжку, которая будет вашим Spark Driver.

Я испытываю опыт работы с Hadoop 3, поэтому, если вы хотите использовать графические процессоры, лучше придерживаться Hadoop 2.9.xx. Spark не тестировался так много под Hadoop 3.x, так что это беспорядок, когда все работает.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .