Grandes dados mina com colmeia
Colmeia é, uma camada de dados de armazenagem orientada para lote construído sobre os elementos de ncleo de Hadoop (HDFS e MapReduce) e é muito útil em dados grandes. Ele oferece aos usuários que sabem SQL com uma implementação simples SQL-lite chamada HiveQL sem sacrificar o acesso via mapeadores e redutores. Com Hive, você pode obter o melhor dos dois mundos: acesso SQL-like para dados estruturados e análise de dados grande sofisticada com MapReduce.
Diferentemente da maioria dos data warehouses, Hive não é projetado para respostas rápidas às consultas. Na verdade, as consultas podem demorar vários minutos ou mesmo horas, dependendo da complexidade. Como resultado, Hive é melhor usado para mineração de dados e mais profundas análises que não exigem comportamentos em tempo real. Pois se baseia no fundamento Hadoop, é muito extensível, escalável e resiliente, algo que o depósito médio de dados não é.
Hive utiliza três mecanismos para organização de dados:
tabelas: mesas colmeia são as mesmas tabelas de RDBMS que consistem em linhas e colunas. Porque Hive é mergulhado no Hadoop HDFS, mesas são mapeados para diretórios no sistema de arquivos. Além disso, Hive suporta tabelas armazenadas em outros sistemas de arquivos nativos.
partições: Uma tabela Hive pode suportar uma ou mais partições. Essas partições são mapeadas para subdiretórios no sistema de arquivos subjacente e representam a distribuição de dados em toda a mesa. Por exemplo, se uma tabela é chamado automóveis, com um valor de chave de 12345 e um valor de fabricante Ford, o caminho para a partição seria / Hivewh / automóveis / kv = 12345 / Ford.
baldes: Por sua vez, os dados podem ser divididos em baldes. Baldes são armazenados como arquivos no diretório partição no sistema de arquivos subjacente. Os baldes estão baseados em hash de uma coluna na tabela. No exemplo anterior, você pode ter um balde chamado Foco, contendo todos os atributos de um automóvel Ford Focus.
metadados Hive é armazenado externamente no “metastore.” O metastore é um banco de dados relacional que contém as descrições detalhadas do esquema Hive, incluindo tipos de coluna, proprietários, dados de chave e valor, estatísticas de mesa, e assim por diante. O metastore é capaz de sincronizar dados de catálogo com outros serviços de metadados no ecossistema Hadoop.
Video: Banco de dados I: modelo entidade relacionamento (MER): 30/04/2014 - Módulo 3, Aula 2
Hive suporta uma linguagem SQL, chamado HiveQL. HiveQL suporta muitas das primitivas de SQL, como select, juntar, agregar, união de tudo, e assim por diante. Ele também suporta consultas multi-table e inserções, compartilhando os dados de entrada dentro de uma única declaração HiveQL. HiveQL podem ser estendidos para suportar a agregação definido pelo utilizador, a transformação em coluna, e os scripts MapReduce incorporados.