O ecossistema apache hadoop
Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns desses projetos.
Conteúdo
Video: O Ecossistema e o Map-D | Workshop de Big Data | #9 | FIAP X
Nome do Projeto | Descrição |
---|---|
Ambari | Um conjunto integrado de ferramentas de administração do Hadoop para Instalação, de monitorização, e a manutenção de um cluster Hadoop. Além disso Estão incluídas ferramentas para adicionar ou remover nós escravos. |
Avro | Um quadro para a serialização eficiente (uma espécie de transformação) de dados em um formato binário compacto |
calha | Um serviço de fluxo de dados para a movimentação de grandes volumes de log dados em Hadoop |
HBase | Um banco de dados colunar distribuída que usa HDFS por sua armazenamento subjacente. Com HBase, você pode armazenar dados em extremamente tabelas grandes com estruturas de coluna variável. |
HCatalog | Um serviço para fornecer uma visão relacional dos dados armazenados no Hadoop, incluindo um método padrão para dados tabulares |
colméia | Um armazém de dados distribuídos por dados que é armazenado na HDFS- também fornece uma linguagem de consulta que&rsquo-s baseados em SQL (HiveQL) |
Matiz | A interface de administração Hadoop com ferramentas GUI úteis para navegação de arquivos, emitindo consultas Hive e Pig, e desenvolver Oozie workflows |
cornaca | Uma biblioteca de aprendizado de máquina algoritmos estatísticos que eram implementado em MapReduce e pode ser executado nativamente no Hadoop |
Oozie | Uma ferramenta de gerenciamento de fluxo de trabalho que pode lidar com a programação e encadeamento de aplicações Hadoop |
Porco | Uma plataforma para a análise de grandes conjuntos de dados que é executado em HDFS e com uma camada da infra-estrutura que consiste de um compilador que produz seqüências de programas MapReduce e uma camada de idioma que consiste na linguagem de consulta chamado Pig Latin |
Sqoop | Uma ferramenta para mover de forma eficiente grandes quantidades de dados entre bancos de dados relacionais e HDFS |
Zelador do zológico | A interface simples para a coordenação centralizada de serviços (Tais como de nomenclatura, a configuração e a sincronização) usado por aplicações distribuídas |
O ecossistema Hadoop e suas distribuições comerciais continuam a evoluir, com tecnologias e ferramentas novas ou melhoradas emergentes o tempo todo.
Video: Hadoop Learning | 05 - I/O
A figura mostra os vários projectos ecossistema Hadoop e como se relacionam com um outro: