Hadoop e colmeia

Para fazer uma longa história curta, Hive fornece Hadoop com uma ponte para o mundo do RDBMS e fornece um dialeto SQL conhecido como Hive Query Language (HiveQL), que pode ser usado para executar tarefas SQL-like. Essa é a grande notícia, mas há mais a colméia do que os olhos, como se costuma dizer, ou mais aplicações dessa nova tecnologia do que você pode apresentar em um passo do elevador padrão.

Video: Hadoop MapReduce Fundamentals 2 of 5

Por exemplo, colmeia também torna possível o conceito conhecido como armazém de dados da empresa (EDW) de aumento, um caso de uso que conduz para o Apache Hadoop, onde armazéns de dados são configurados como SGBDRs construído especificamente para a análise de dados e relatórios.

Agora, alguns especialistas argumentam que Hadoop (com Hive, HBase, Sqoop, e seus amigos variados) pode substituir o EDW. No entanto, Apache Hadoop é um grande Adição para a empresa e que pode aumentar e complementar EDWs existentes. Hive, HBase, e Sqoop permitir EDW aumento.

Video: Easiest way to install/ setup Hadoop 2.x (Hadoop 2.2.0)

Intimamente associada com a tecnologia de RDBMS / EDW é extracto, transformar, e tecnologia de carga (ETL). Para entender o que ETL faz, que ajuda a saber que, em muitos casos de uso, os dados podem não ser imediatamente carregado no banco de dados relacional - ele deve primeiro ser extraído da sua fonte nativa, transformada em um formato apropriado, e depois carregado no RDBMS ou EDW.



Por exemplo, uma empresa ou uma organização pode extrair dados de texto não estruturados a partir de um fórum na Internet, transformar os dados em um formato estruturado que é tanto valioso e útil, e depois carregar os dados estruturados em seu EDW.

Você pode ver que Hive é uma ferramenta de ETL poderoso em seu próprio direito, juntamente com o grande jogador neste reino: Apache Pig. Novamente, os usuários podem tentar configurar Hive e Pig como a novas ferramentas de ETL para o data center. (Deixe-os tentar.)

Tal como acontece com o debate sobre EDW contra Apache Hadoop, estas tecnologias Apache Hadoop não são diretos substituiçãos para ferramentas de ETL existente, mas em vez disso são novas e poderosas ferramentas de ETL para ser usado quando necessário.

Video: Hadoop Architecture | HDFS Architecture | HDFS Tutorial | Hadoop Tutorial | Edureka

Por último, mas não menos importante, Apache Hive fornece ferramentas analíticas poderosas, tudo no âmbito da HiveQL. Estas ferramentas devem olhar e sentir bastante familiar para os profissionais de TI que entendem como usar SQL.


Publicações relacionadas