Factores de forma implantação alternativos para hadoop

Embora Hadoop funciona melhor quando ele é instalado em um computador físico, onde o processamento tem acesso direto ao armazenamento dedicado e redes, Hadoop tem implementações alternativas. E embora eles são menos eficientes do que o hardware dedicado, em certos casos, as alternativas são opções que valem a pena.

Video: Distributed TensorFlow (TensorFlow Dev Summit 2017)

servidores virtualizados

A grande tendência em TI centra na última década é a virtualização, onde um grande servidor pode hospedar várias “máquinas virtuais” que parecem e agem como máquinas individuais. No lugar de hardware dedicado, todo o conjunto de aplicações e repositórios de uma organização é implantado em hardware virtualizado.

Video: Horizon - Urs Hölzle - Infrastructure for the Long Term

Esta abordagem tem muitas vantagens: A centralização da TI simplifica a manutenção, investimento em TI é maximizada por causa do menor número de ciclos de CPU não utilizados, ea pegada global de hardware é menor, resultando em um menor custo total de propriedade.

Organizações em que as implantações de TI são totalmente virtualizados, por vezes, obriga que cada nova aplicação seguem este modelo. Embora Hadoop pode ser implementado desta maneira, essencialmente, como um cluster virtual (com nós mestre virtuais e nós escravo virtuais), o desempenho é prejudicado, parcialmente porque para a maioria dos ambientes virtuais, o armazenamento é baseado em SAN e não está ligado localmente.

Video: Fator de Compacidade e de Forma - Exercícios #007

Porque Hadoop é projetado para funcionar melhor quando todos os núcleos de CPU disponíveis são capazes de ter acesso rápido a girar de forma independente discos, um gargalo é criado como todo o mapa e tarefas reduzir iniciar o processamento de dados através da rede limitada entre a CPU ea SAN. Desde o grau de isolamento entre os recursos de servidores virtualizados é limitado (servidores virtuais compartilham recursos com os outros), as cargas de trabalho do Hadoop também pode ser afetada por outra atividade.

Quando o desempenho do seu servidor virtual é afetado pela carga de trabalho de outro servidor, que é realmente conhecido em círculos de TI como um problema “vizinho barulhento”!



ambientes virtualizados pode ser bastante útil, embora, em alguns casos. Por exemplo, se sua organização precisa para completar uma análise exploratória de uma só vez de um grande conjunto de dados, você pode facilmente criar um cluster temporária em seu ambiente virtualizado. Este método é muitas vezes uma maneira mais rápida para obter a aprovação interna do que suportar as dificuldades burocráticas de aquisição de novo hardware dedicado.

Como você experimentar com Hadoop, muitas vezes você executá-lo em suas máquinas portáteis através de uma máquina virtual (VM). Hadoop é extremamente lento neste tipo de ambiente, mas se você estiver usando pequenos conjuntos de dados, é uma ferramenta de aprendizagem e teste valioso.

implantações de nuvem

Variações de ambientes virtualizados são provedores de computação em nuvem, como Amazon, Rackspace e IBM SoftLayer. A maioria dos grandes provedores de nuvem pública têm agora MapReduce do Hadoop ou ofertas disponíveis para uso. Mais uma vez, seu desempenho é inferior ao implantar seu cluster em hardware dedicado, mas está melhorando.

Video: INTERCAMBIO DE CALOR (factor de forma)

Os provedores de nuvem estão fazendo ambientes Hadoop otimizados disponível onde nós escravos ter anexado localmente armazenamento e rede dedicada. Além disso, hypervisors estão se tornando muito mais eficiente, com sobrecarga reduzida e latência.

Não considere uma solução em nuvem para aplicações de longo prazo, porque o custo de alugar os recursos de computação em nuvem é significativamente maior do que a de possuir e manter um sistema comparável. Com um provedor de nuvem, você está pagando por conveniência e por ser capaz de descarregar a sobrecarga de provisionamento de hardware. No entanto, a nuvem é uma plataforma ideal para tarefas de testes, educação e processamento de dados de uma só vez.

Além de considerações de desempenho e custo, você tem considerações regulatórias com as implantações de nuvem pública. Se você tiver dados sensíveis, que devem ser armazenadas em casa ou no país, a implementação de nuvem pública não é uma opção. Em casos como este, onde você precisa a conveniência de uma implantação baseada em nuvem, uma nuvem privada é uma boa opção, se estiver disponível.


Publicações relacionadas