Hadoop tratador para big data
maior técnica do Hadoop para enfrentar os desafios de big data é sua capacidade de dividir e conquistar com Zookeeper. Depois de que o problema tenha sido dividido, a conquista baseia-se na capacidade de empregar distribuído e técnicas de processamento paralelo em todo o cluster Hadoop.
Conteúdo
Video: HDInsight! Hadoop ! Hive ! Uma introdução do mundo Big Data para DBA's
Para alguns problemas de big data, as ferramentas interativas são incapazes de fornecer os insights ou pontualidade necessárias para tomar decisões de negócios. Nesses casos, você precisa criar aplicações distribuídas para resolver esses problemas de big data. Zookeeper é forma de coordenar todos os elementos destas aplicações distribuídas de Hadoop.
Zookeeper como uma tecnologia é realmente simples, mas suas características são poderosos. Sem dúvida, seria difícil, se não impossível, para criar aplicações flexíveis e tolerantes a falhas distribuído Hadoop sem ele. Algumas das capacidades do Zookeeper são os seguintes:
sincronização de processos: Tratador coordena o arranque e a paragem de múltiplos nós no cluster. Isto garante que todo o processamento ocorre no fim pretendido. Quando um grupo processo todo é completa, em seguida, e só então pode ocorrer um processamento subsequente.
Gerenciamento de configurações: Zookeeper pode ser usado para enviar atributos de configuração para qualquer ou todos os nós do cluster. Quando o processamento é dependente de recursos particulares que estão disponíveis em todos os nós, Zookeeper garante a consistência das configurações.
Auto-eleição: Zookeeper compreende a composição do cluster e pode atribuir um papel “líder” de um dos nós. Este líder / master lida com todas as solicitações do cliente em nome do cluster. Caso o nó líder falhar, outro líder será eleito entre os nós restantes.
mensagens confiável: Mesmo que as cargas de trabalho em Zookeeper são fracamente acoplada, você ainda tem uma necessidade de comunicação entre e entre os nós do cluster específicos do aplicativo distribuído. Zookeeper oferece uma publish / subscribe capacidade que permite a criação de uma fila. Esta fila garante a entrega de mensagens, mesmo no caso de uma falha de nó.
Video: Hadoop Ecosystem | Big Data Analytics Tools | Hadoop Tutorial | Edureka
Porque Zookeeper está a gerir grupos de nós em serviço para uma única aplicação distribuída, é melhor implementada através racks. Isto é muito diferente do que os requisitos para o próprio (dentro de cremalheiras) cluster. A razão subjacente é simples: Zookeeper precisa executar, ser resiliente, e ser tolerante a falhas em um nível acima do próprio cluster.
Lembre-se que um cluster Hadoop já é tolerante a falhas, por isso vai curar-se. Zookeeper só precisa se preocupar com a sua própria tolerância a falhas.
O ecossistema Hadoop e as distribuições comerciais suportados são sempre em mutação. Novas ferramentas e tecnologias são introduzidas, as tecnologias existentes são melhoradas, e algumas tecnologias são aposentados por um (espero melhor) de substituição. Esta é uma das maiores vantagens do código aberto.
Outra é a adoção de tecnologias de código aberto por empresas comerciais. Estas empresas melhorar os produtos, tornando-os melhor para todos, oferecendo apoio e serviços a um custo modesto. Esta é a forma como o ecossistema Hadoop evoluiu e por que é uma boa escolha para ajudar a resolver seus desafios de big data.