Como escolher uma distribuição do hadoop

distribuições Hadoop Commercial oferecem várias combinações de componentes de código aberto da Apache Software Foundation e em outros lugares - a idéia é que os vários componentes foram integrados em um único produto, poupando-lhe o esforço de ter que montar o seu próprio conjunto de componentes integrados. Além de software de fonte aberta, os fornecedores costumam oferecer software proprietário, apoio, serviços de consultoria e treinamento.

Como você ir sobre como escolher uma distribuição Hadoop das inúmeras opções que estão disponíveis? Quando se trata de criação de seu próprio ambiente, você é o único que tem que escolher, e essa escolha deve ser baseada em um conjunto de critérios destinados a ajudá-lo a tomar a melhor decisão possível.

Nem todas as distribuições Hadoop tem os mesmos componentes (embora todos eles têm capacidades centrais do Hadoop), e não todos os componentes em uma distribuição em particular são compatíveis com outras distribuições.

Os critérios para escolher a distribuição mais adequado pode ser articulada como este conjunto de questões importantes:

  • O que você quer alcançar com o Hadoop?

  • Como você pode usar o Hadoop para obter insights de negócios?

  • Que problemas de negócio que você quer resolver?

  • Que dados serão analisados?

  • Você está disposto a usar componentes proprietários, ou você prefere ofertas de código aberto?

  • É a infra-estrutura Hadoop que você está considerando flexível o suficiente para todos os seus casos de uso?

  • Que existente ferramentas que você deseja integrar com Hadoop?

  • Será que os seus administradores precisam de ferramentas de gestão? (Distribuição do núcleo do Hadoop não inclui ferramentas administrativas.)

  • Será que a oferta que você escolher lhe permitem mover-se para um produto diferente, sem obstáculos, tais como vendor lock-in? (Código do aplicativo que não é transferível para outras distribuições ou dados armazenados em formatos proprietários representam bons exemplos de lock-in.)



  • Será que a distribuição você está pensando em satisfazer suas necessidades futuras, na medida em que você é capaz de antecipar essas necessidades?

Uma abordagem para distribuições comparando é criar um matriz de recurso - uma tabela que detalha as especificações e características de cada distribuição que você está pensando. Sua escolha pode depender do conjunto de características e especificações que melhor atende às exigências em torno de seus problemas de negócios específicos.

Por outro lado, se suas exigências incluem prototipagem e experimentação, a escolha do Apache distribuição mais recente oficial Hadoop pode vir a ser a melhor abordagem. Os lançamentos mais recentes certamente têm os mais novos recursos mais interessantes, mas se você quiser a estabilidade que você não quer emoção. Para a estabilidade, procure um ramo versão mais antiga que tem sido disponível tempo suficiente para ter algumas versões incrementais (estes normalmente incluem correções de bugs e recursos menores).

Sempre que você pensa sobre distribuições Hadoop de código aberto, dar um momento de reflexão (ou talvez o pensamento de muitos momentos) para o conceito de fidelidade de código aberto - o grau em que uma distribuição particular é compatível com os componentes de código aberto dos quais depende. Alta fidelidade facilita a integração com outros produtos que são projetados para serem compatíveis com os componentes de código aberto. Baixa fidelidade? Não muito.

A abordagem de código aberto para o próprio desenvolvimento de software é uma parte importante da sua Hadoop planeja porque promove a compatibilidade com uma série de ferramentas de terceiros que você pode aproveitar em sua própria implementação Hadoop. A abordagem de fonte aberta também permite que o envolvimento com a comunidade Apache Hadoop, que lhe dá, por sua vez, a oportunidade de tocar em uma profunda piscina de habilidades e inovação para enriquecer a sua experiência Hadoop.

Porque Hadoop é um ecossistema em rápido crescimento, algumas partes continuam a amadurecer como a comunidade desenvolve ferramentas para atender às demandas da indústria. Um aspecto desta evolução é conhecido como Backporting, onde você aplicar uma nova modificação do software ou patch para uma versão do software que é mais velho do que a versão a que o patch é aplicável.

Um exemplo é failover NameNode: Esta capacidade é uma parte do Hadoop 2, mas foi backported (na sua forma beta) por um número de distribuições em suas ofertas baseados em Hadoop-1 para tanto quanto um ano antes Hadoop 2 tornou-se geralmente disponíveis.

Nem toda a distribuição envolve ativamente em backporting novo conteúdo com a mesma intensidade, embora a maioria fazê-lo para itens como correções de bugs. Se você quiser uma licença de produção de tecnologia de ponta, esta é certamente uma opção-de estabilidade, no entanto, não é uma boa idéia.

A maioria das distribuições Hadoop incluem código proprietário de algum tipo, que muitas vezes vem na forma de instaladores e um conjunto de ferramentas de gestão. Essas distribuições geralmente emergem de diferentes modelos de negócios.

Por exemplo, um modelo de negócio pode ser resumida desta forma: “Estabelecer-se como um líder de código aberto e pioneiro, o mercado de sua empresa como tendo a melhor experiência, e vender essa experiência como um serviço” Red Hat, Inc. é um exemplo de um fornecedor que usa esse modelo.

Em contraste com esta abordagem, o e-estender abraço modelo de negócio tem fornecedores construindo capacidades que estendem as capacidades do software de fonte aberta. MapR e IBM, que ambos oferecem sistemas de arquivos alternativos para o Hadoop Distributed File System (HDFS), são bons exemplos.

As pessoas às vezes erroneamente jogar o rótulo de “fork” estas inovações, fazendo uso do jargão usado por programadores de software para descrever situações em que alguém toma uma cópia de um programa de código aberto como o ponto de partida para o seu próprio desenvolvimento (independente).

Os sistemas de arquivos alternativos fornecidos pela MapR e IBM são completamente diferentes sistemas de arquivos, e não um fork do código aberto HDFS. Ambas as empresas permitem que seus clientes para escolher seu sistema de arquivos distribuídos de propriedade ou HDFS. No entanto, nesta abordagem, a compatibilidade é crítica, e o fornecedor deve manter-se atualizado com interfaces em evolução. Os clientes precisam saber que os fornecedores podem ser invocadas para sustentar suas extensões.


Publicações relacionadas