Cloudera impala e hadoop

Cloudera é um líder de software e serviços de provedor de Apache Hadoop no mercado de dados grande. Como Apache Broca, tecnologia Impala da Cloudera visa melhorar o tempo de resposta de consulta interativa para os usuários do Hadoop. Apache Hive tem proporcionado um mecanismo de consulta familiar e poderosa para os usuários do Hadoop, mas os tempos de resposta da consulta são muitas vezes inaceitável devido à dependência do ramo de MapReduce. A resposta de Cloudera para este problema é Impala.

Video: An Introduction to Impala – Low Latency Queries for Apache Hadoop

Cloudera desenvolveu um motor de consulta MPP, escrita em C ++, para substituir a camada de MapReduce alavancado por Apache colmeia. Ao contrário Dremel e Broca, Cloudera decidiu que um motor nativo C ++ MPP - em vez de um motor de Java - foi a resposta para, consultas Hadoop interativos rápidos.



Note-se que Impala utiliza HiveQL como uma interface de programação e mecanismos de consulta Exec do Impala são co-localizado com nós de dados HDFS, em consonância com a abordagem Hadoop dos dados co-localização com tarefas de processamento. Impala também pode usar HBase como armazenamento de dados. Neste sentido, Impala é uma extensão do Apache Hadoop, proporcionando uma alternativa muito de alto desempenho para o modelo Hive-on-top-of-MapReduce.

Video: What is Cloudera Impala?

Cloudera e Twitter liderou o desenvolvimento do novo formato de arquivo Hadoop, que pode ser usado com Impala e está disponível como open source no GitHub. O formato de arquivo Parquet fornece um meio colunar robusta para armazenar dados no Hadoop. Ele suporta compressão e codificação altamente eficiente, e é eficaz para o armazenamento de estruturas de dados aninhados.

Você pode encontrar tecnologia Impala da Cloudera, que também foi inspirado pela invenção Dremel do Google.


Publicações relacionadas