Nós de borda em clusters hadoop

nós de borda são a interface entre o cluster Hadoop ea rede externa. Por esta razão, eles são muitas vezes referidos como porta de entrada

nós. Mais comumente, nós de borda são usados ​​para executar aplicativos cliente e ferramentas de administração do cluster.

Eles também são muitas vezes utilizados como áreas de teste para dados que estão sendo transferidos para o cluster Hadoop. Como tal, Oozie, Porco, Sqoop e ferramentas de gestão, tais como Hue e Ambari correr bem lá. A figura mostra os processos que podem ser executados em nós de borda.

Video: Hadoop Multi Node Cluster Setup | Hadoop Installation | Hadoop Administration Tutorial | Edureka

nós de borda são muitas vezes negligenciados em Hadoop arquitetura hardware discussões. Esta situação é lamentável, porque nós de borda servem a um propósito importante em um cluster Hadoop, e eles têm requisitos de hardware que são diferentes de nós mestre e nós escravos.

Em geral, é uma boa idéia para minimizar as implantações de ferramentas de administração sobre nós mestre e nós escravos para garantir que os serviços de Hadoop críticos como o NameNode têm tão pouco a competição por recursos quanto possível.

Você deve evitar colocar um utilitário de transferência de dados como Sqoop em nada, mas um nó de borda, como os volumes de transferência de dados de alta podia arriscar a capacidade dos serviços de Hadoop no mesmo nó para se comunicar. A troca de serviços mensagens Hadoop são seu sangue, tão alta latência significa todo o nó pode ser cortado do cluster.

A figura mostra dois nós de borda, mas para muitas clusters Hadoop um único nó de borda seria suficiente. nós de borda adicionais são mais comumente necessários quando o volume de dados a serem transferidos dentro ou fora do cluster é demais para um único servidor de manusear.

armazenamento recomendada



Para nós de borda de um cluster Hadoop, usar o armazenamento classe empresarial. Para nós de borda focados em ferramentas de administração e aplicativos cliente em execução, use quatro unidades de 900GB SAS, juntamente com um controlador de disco rígido RAID configurado para RAID 1 + 0.

Video: Hadoop Administration Tutorial - 2 | Hadoop Admin Training - 2 | Hadoop 2.0, Cluster & Distributions

nós de borda orientadas para a ingestão de dados, obviamente, precisam de muito mais espaço de armazenamento, para que possa adicionar unidades para o nó de extremidade. Neste caso, use unidades LFF SAS porque capacidades muito maiores estão disponíveis, em comparação com drives SAS menor fator de forma.

processadores recomendados

Um nó de borda de uso geral seriam bem servidos por um processador configuração semelhante à usada para nós escravo - especificamente, um servidor de tomada dupla com processadores Ivy Bridge clock de entre 2 e 2,5 GHz.

memória recomendada

Para a maioria das cargas de trabalho em nós de borda, 48GB de RAM é suficiente.

Video: Automate Hadoop Cluster Deployment

networking recomendado

Para permitir a comunicação entre a rede externa eo cluster Hadoop, nós de borda precisa ser multi-homed para a sub-rede privada do cluster Hadoop, bem como na rede corporativa.

Um computador multi-homed é aquele que tem dedicado conexões a várias redes. Esta é uma ilustração prática da razão pela qual nós de borda são perfeitamente adequados para a interação com o mundo fora do cluster Hadoop. Mantendo seu cluster Hadoop em sua própria sub-rede privada é uma excelente prática, assim que estes nós de borda servir como uma janela controlado dentro do cluster.

Para nós de borda que servem a finalidade de executar aplicações de cliente ou ferramentas de administração, dois pares de ligações de rede 1GbE ligados são recomendados: um par para ligar ao cluster Hadoop e outro par para a rede externa.

Video: Practice on Hadoop 2.6.0 Cluster mode with Name Node High Avialabilty with QJM | Kalyan Hadoop

nós de borda orientada para manipulação de altas taxas de transferência de dados de entrada e de saída vai precisar de dois (ou mais) pares de conectores de rede 10GbE ligados: um par para ligar ao cluster Hadoop e outro par para a rede externa ou dados específicos ingerir fontes.


Publicações relacionadas