Каковы функциональные причины, по которым Hadoop не может быть хранилищем данных
На нескольких сайтах можно увидеть заявления о том, что кластер Hadoop не является заменой традиционного хранилища данных. Однако я не могу найти реальные причины, почему.
Я знаю, что технически есть некоторые вещи, которые недоступны / не доступны в Hadoop, но я действительно ищу функциональное влияние.
Что я нашел до сих пор, включая смягчение
Я нашел несколько аргументов, но ни один из них не настолько критичен, чтобы я не советовал использовать Hadoop в качестве DWH. Вот выбор:
- Вы не можете выполнять быстрые специальные запросы или отчеты, так как Hadoop имеет тенденцию накладывать накладные расходы на карту и сокращать количество рабочих мест.
Тем не менее, в ситуации, которую я рассматриваю, это не должно быть проблемой, поскольку данные доступны только через (обычный) datamart. Кроме того, вы могли бы использовать spark sql, если вы хотите копаться в некоторых таблицах.
- Вы не можете получить определенные результаты, так как Hadoop не поддерживает хранимые процедуры.
В ситуации, которую я смотрю, не так много хранимых процедур (к счастью!) и используя такие инструменты, как R или Python, вы действительно можете получить любой результат, который вам нужен.
- Вы не можете оправиться от бедствий, так как Hadoop не имеет встроенных резервных копий
Однако, поскольку весь код написан по сценарию и данные могут быть выгружены в резервную копию, должно быть возможно восстановление после аварий.
- Вы не можете обеспечить соблюдение и конфиденциальность, так как нет безопасности и происхождения данных
С таким инструментарием, как Knox + Ranger + Atlas, этого можно достичь.
- Нелегко создавать запросы, так как вы не можете построить поток, но вам нужно написать SQL или PIG-код.
Похоже, есть несколько инструментов, таких как Talend, где вы можете создавать потоки с помощью значков, как в обычных построителях запросов.
- Hadoop поддерживать сложнее, так как требует определенных знаний
Да, но в ситуации, на которую я смотрю, есть немало знаний, поскольку в настоящее время они используют аналитическую платформу Hadoop.