Hadoop como um arquivo queryable de data warehouse frio

Uma multidão de estudos mostram que a maioria dos dados em um data warehouse empresarial raramente é consultado. fornecedores de banco de dados têm respondido a essas observações através da implementação de seus próprios métodos para separar o que os dados são colocados em locais onde.

Um método ordena o universo de dados em denominações de quente, quente, frio ou, onde quente dados (às vezes chamados ativo dados) é usada frequentemente, caloroso dados é utilizado de tempos a tempo- e frio dados é raramente usado. A solução proposta por muitos fornecedores é armazenar os dados frios sobre discos mais lentos dentro dos recintos de armazenamento de dados ou para criar estratégias de cache inteligente para manter os dados quentes na memória, entre outros.

O problema com esta abordagem é que, apesar de armazenamento mais lento é usado, ainda é caro para armazenar, dados raramente usados ​​frias em um armazém. Os custos aqui decorre de hardware e licenciamento de software. Ao mesmo tempo, os dados frio e dormente é muitas vezes arquivados em fita.

Este modelo tradicional de arquivamento de dados quebra quando você deseja consultar todos os dados frios de uma forma rentável e relativamente eficiente - sem ter que solicitar fitas antigas, em outras palavras.

Se você olhar para as características de custo e operacionais do Hadoop, de fato, parece que ele está prestes a se tornar a nova fita de backup. Hadoop é barato, em grande parte porque os sistemas Hadoop são projetados para usar um grau inferior de hardware do que o que é normalmente implantado em sistemas de data warehouse. Outra significativa redução de custos é o licenciamento de software.

licenças comerciais de distribuição do Hadoop exigem uma fração do custo de licenças de software de armazenamento de dados relacionais, que são famosos por serem caros. Do ponto de vista operacional, o Hadoop é projetado para escalar facilmente apenas através da adição de nós escravos adicionais a um cluster existente. E como nós escravos são adicionados e conjuntos de dados crescer em volume, estruturas de processamento de dados do Hadoop ativar suas aplicações para lidar perfeitamente o aumento da carga de trabalho.



Hadoop representa uma maneira simples, flexível e barata para empurrar processamento em literalmente milhares de servidores.

Com sua arquitetura escalável e de baixo custo, Hadoop parece ser uma escolha perfeita para o arquivamento de dados do warehouse. . . exceto por uma pequena questão: A maioria do mundo de TI é executado em SQL e SQL por conta própria não joga bem com Hadoop.

Claro, o movimento NoSQL mais Hadoop-friendly está vivo e bem, mas a maioria dos usuários de poder agora usar SQL por meio de comuns, conjuntos de ferramentas off-the-shelf que geram consultas SQL sob o capô - produtos tais como Tableau, Microsoft Excel, e IBM Cognos BI.

Video: Hadoop (осень 2014)

É verdade que o ecossistema Hadoop inclui Hive, mas Hive suporta apenas um subconjunto de SQL, e embora o desempenho está melhorando (juntamente com suporte SQL), não é assim tão rápido em responder a consultas menores como sistemas relacionais são. Recentemente, tem havido grandes progressos em torno do acesso SQL para Hadoop, que abriu o caminho para o Hadoop para se tornar o novo destino para os arquivos de armazenamento de dados on-line.

Dependendo do fornecedor Hadoop, SQL (ou SQL-like) APIs estão se tornando disponíveis para que os mais comuns de relatórios e ferramentas de análise off-the-shelf pode perfeitamente emitir SQL que executa em dados armazenados no Hadoop. Por exemplo, a IBM tem o seu SQL API Big, Cloudera tem Impala, ea própria Hive, através da iniciativa Hortonworks Stinger, está se tornando cada vez mais compatível com SQL.

Video: Hadoop Datawarehouse

Apesar de vários pontos de vista existem (alguns visam reforçar Hive- alguns, para estender Hive- e outros, para fornecer uma alternativa), todas estas soluções tentar resolver duas questões: MapReduce é uma solução pobre para executar consultas menores, e acesso SQL é - por enquanto - a chave para permitir que os trabalhadores de TI a usar suas habilidades SQL existentes para obter valor a partir de dados armazenados no Hadoop.


Publicações relacionadas