Armazenar grandes dados com hbase

Video: Big Data os grandes armazéns de dados em cloud computing

HBase é um não-relacional da base de dados (colunar) distribuído, que utiliza como seu armazenamento HDFS persistência para projectos de dados grandes. Ele é modelado após Google BigTable e é capaz de hospedagem tabelas muito grandes (milhares de milhões de colunas / linhas), porque ele é mergulhado em clusters Hadoop de hardware commodity.

HBase fornece aleatória, em tempo real, acesso de leitura / gravação para big data. HBase é altamente configurável, proporcionando uma grande flexibilidade para lidar com grandes quantidades de dados de forma eficiente. Agora, dê uma olhada em como HBase pode ajudar a resolver seus desafios de big data.

HBase é um banco de dados colunar, então todos os dados são armazenados em tabelas com linhas e colunas semelhantes a sistemas de gerenciamento de banco de dados relacionais (RDBMSs). A intersecção de uma fila e de uma coluna é chamada uma célula. Uma diferença importante entre tabelas HBase e tabelas de RDBMS é versionamento.



Cada valor de célula inclui um atributo “versão”, que nada mais é do que um timestamp identificar exclusivamente o celular. Versioning rastreia mudanças na célula e torna possível recuperar qualquer versão do conteúdo caso seja necessário. HBase armazena os dados em células em ordem decrescente (usando o timestamp), então uma leitura sempre vai encontrar os valores mais recentes primeiro.

Colunas em HBase pertencem a uma família de coluna. O nome da família coluna é utilizado como um prefixo para identificar os membros da sua família. Por exemplo, frutas: maçã e frutas: Banana são membros da frutas família coluna. implementações HBase são ajustados ao nível da família coluna, por isso é importante estar consciente de como você está indo para acessar os dados e como grande você espera que as colunas para ser.

Video: #02 - Curso Básico de MySQL - Comando CREATE e TIPOS DE DADOS

As linhas em tabelas HBase também tem uma chave que lhes estão associados. A estrutura da chave é muito flexível. Pode ser um valor calculado, uma corda, ou mesmo outra estrutura de dados. A chave é usada para controlar o acesso às células na fila, e que estão armazenados na ordem de valor baixo para um valor elevado.

Todos esses recursos juntos compõem o esquema. O esquema é definido e criado antes de quaisquer dados podem ser armazenados. Mesmo assim, as tabelas podem ser alteradas e novas famílias de colunas podem ser adicionados após o banco de dados está instalado e funcionando. Essa extensibilidade é extremamente útil quando se lida com dados grandes, porque você não sabe sempre sobre a variedade de seus fluxos de dados.


Publicações relacionadas