De armazenamento de dados e processamento estruturado em hadoop

Ao considerar as capacidades do Hadoop para trabalhar com dados estruturados (ou trabalhar com dados de qualquer tipo, para que o assunto), lembre-se características principais do Hadoop: Hadoop é, em primeiro lugar, uma plataforma de armazenamento e processamento de dados de uso geral projetado para escalar a milhares de nós de computação e petabytes de dados.

Não há nenhum modelo de dados em dados Hadoop si- é simplesmente armazenado no cluster Hadoop como arquivos brutos. Como tal, os principais componentes do próprio Hadoop não têm capacidades especiais para catalogação, indexação, ou consultar dados estruturados.

A beleza de um sistema de armazenamento de dados de uso geral é que ele pode ser estendido para fins muito específicos. A comunidade Hadoop fez exatamente isso com uma série de projetos Apache - projetos que, em sua totalidade, compõem o Hadoop ecossistema. Quando se trata de armazenamento de dados estruturada e processamento, os projectos descritos nesta lista são os mais comumente utilizados:

  • hive: Uma estrutura de armazenamento de dados para Hadoop. dados catálogos colmeia em arquivos estruturados e fornece uma interface de consulta com a linguagem SQL-like chamado HiveQL.



  • HBase: UMA distribuído banco de dados - um banco de dados NoSQL que se baseia em vários computadores, em vez de uma única CPU, em outras palavras - que é construído em cima do Hadoop.

  • Giraph: Um mecanismo de processamento gráfico de dados armazenados no Hadoop.

Muitos outros projetos Apache suportar diferentes aspectos da análise de dados estruturados, e alguns projetos se concentrar em um número de estruturas e interfaces.

Ao determinar a arquitetura ideal para suas necessidades de análise, certifique-se de avaliar os atributos e capacidades dos sistemas que você está considerando. A tabela compara armazenamentos de dados baseados em Hadoop (Hive, Giraph e HBase) com RDBMS tradicional.

Uma comparação de armazenamento Hadoop-based e RDBMS
CritériocolméiaGiraphHBaseRDBMS
dados mutáveisNãosimsim
layout de dadosarquivos brutos armazenados em HDFS- Hive suporta proprietária
orientada para a linha ou formatos orientado por colunas.
A escassa, distribuídos, persistente multidimensional classificadas
mapa
orientada para a linha ou coluna orientada-
Tipos de dadostipos de dados Bytes- são interpretados na consulta.suporte tipo de dados rico
ferragensagrupado em Hadoop commodities x86 Servidores- cinco ou mais é típico
porque a tecnologia de armazenamento subjacente é HDFS, que por padrão
requer três réplicas.
Tipicamente grandes, sistemas multiprocessador escaláveis
Alta disponibilidadeSim- construído na arquitetura HadoopSim, se o hardware e RDBMS estão configurados corretamente
índicessimNãoRow-chave única ou mesa especial necessáriosim
linguagem de consultaHiveQLGiraph APIcomandos HBase API (,,,,,, HiveQLSQL
EsquemaEsquema definido como arquivos são catalogados com o Data Hive
Definition Language (DDL)
Esquema de leituraVariabilidade no esquema entre linhasEsquema de carga
Taxa de transferênciaMilhões de lê e escreve por segundoMilhares de lê e escreve por segundo
transaçõesNenhumFornece suporte ACID em apenas uma única linhaFornece multi-linha e tabela cruzada suporte transacional com
completa ACID conformidade propriedade
velocidade de transaçãovelocidade modesta para queries- interativo rápido para a tabela completa
scans
Rápido para interativo queries- rápido para varreduras de tabela cheiaRápido para queries- interativo mais lento para varreduras de tabela cheia
tamanho típicoVaria de terabytes para petabytes (de centenas de milhões
a bilhões de linhas)
De gigabytes a terabytes (de centenas de milhares de
milhões de linhas)

Publicações relacionadas