У меня свежая установка Ubuntu Server на virtualbox. Моя цель - добиться следующего.
- Установите Hadoop и Spark;
- Запустите Spark поверх Hadoop, используя его hdf в качестве хранилища;
- Установите Jupyter и разработайте / запустите Scala и Pyspark.
Hadoop будет работать как один узел. Мои вопросы
- Должен ли я сначала установить Hadoop, настроить его, а затем установить Spark?
- Как установить и запустить Jupyter с ядром Scala для запуска приложений с использованием Spark и Hadoop?
Любой ответ и / или указатели на прохождение игры будут высоко оценены.