Я беру курс, предлагаемый www.statistics.com Advanced Analytics и Machine Learning с Hadoop, - и читаю материалы курса. Я наткнулся на следующее утверждение (выделение мое):

… Поскольку MapReduce разработан для работы в режиме потоковой передачи с диска, это создает ряд ограничений при выполнении анализа данных, который влечет за собой итеративную обработку (включая многие алгоритмы машинного обучения) или интерактивный анализ данных, который требует отзывчивой обратной связи ,

Я гуглил термин «потоковая передача с диска» и не был удовлетворен результатами первой страницы.

Может ли кто-нибудь объяснить, что означает, что модель программирования (например, MapReduce) «предназначена для работы в режиме потоковой передачи с диска» и почему этот факт заслуживает внимания (учитывая контекст выше)?

1 ответ1

1

Дисковая потоковая передача - это процесс, в котором файлы остаются открытыми, пока вы выполняете несколько операций чтения или записи в цикле. Дисковая потоковая передача используется для экономии памяти за счет уменьшения количества взаимодействий функции с ОС до открытия и закрытия файлов.

Для получения дополнительных ссылок, пожалуйста, прочитайте эту статью " http://zone.ni.com/reference/en-XX/help/371361L-01/lvconcepts/basics_disk_streaming/ ".

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .