Execução de aplicativos antes hadoop 2

Video: Hadoop 2.x architecture hindi

Porque muitas implementações Hadoop existentes ainda ainda não estão usando mais um recurso Negotiator (FIO), dê uma rápida olhada em como Hadoop conseguiu seu processamento de dados antes dos dias de Hadoop 2. Concentre-se no papel que JobTracker daemons mestre e daemons de escravos TaskTracker jogado em tratar o processamento MapReduce.

Todo o ponto de empregar sistemas distribuídos é ser capaz de implantar recursos de computação em uma rede de computadores independentes de uma forma que é, fácil e barata tolerante a falhas.

Em um sistema distribuído como o Hadoop, onde você tem um cluster de nós de computação independentes, todos trabalhando em paralelo, uma grande dose de complexidade vai para garantir que todas as peças trabalham juntos. Como tal, estes sistemas têm tipicamente camadas distintas para lidar com tarefas diferentes para suportar o processamento de dados em paralelo.

Esse conceito, conhecido como o separação de preocupações, garante que se você for, por exemplo, o programador da aplicação, você não precisa se preocupar com os detalhes específicos para, digamos, o failover de tarefas mapa. Em Hadoop, o sistema é constituído por estas quatro camadas distintas, como mostrado:

  • armazenamento distribuído: O Hadoop Distributed File System (HDFS) é a camada de armazenagem de dados, onde os resultados intermédios, e os conjuntos de resultados finais são armazenados.



  • Gestão de recursos: Além de espaço em disco, todos nós escravos no cluster Hadoop tem ciclos de CPU, RAM e largura de banda de rede. Um sistema como Hadoop precisa ser capaz de dividir esses recursos para que vários aplicativos e usuários podem compartilhar o cluster de forma previsível e ajustáveis. Este trabalho é feito pelo daemon JobTracker.

  • estrutura de processamento: O fluxo do processo MapReduce define a execução de todas as aplicações em Hadoop 1. Isso começa com o mapa de fase continua com agregação com shuffle, tipo, ou merge- e termina com a fase reduzir. Em Hadoop 1, este também é gerenciado pelo daemon JobTracker, com execução local a ser gerido por daemons TaskTracker em execução nos nós escravos.

  • Application Programming Interface (API): Os aplicativos desenvolvidos para Hadoop 1 precisava de ser codificado utilizando a API MapReduce. Em Hadoop 1, os projetos Hive e Pig fornecer programadores com interfaces mais fáceis para escrever aplicações Hadoop, e debaixo do capô, o seu código compila até MapReduce.

Video: Hadoop 2.0 Features | Namenode High Availability | Hadoop Tutorial for Beginners | Edureka

No mundo do Hadoop 1 (que era o único mundo que você tinha até muito recentemente), todo o processamento de dados girava em torno de MapReduce.


Publicações relacionadas