10 razões para adotar hadoop

Hadoop é uma plataforma poderosa e flexível para análise de dados em grande escala. Esta declaração por si só é uma boa razão para considerar o uso de Hadoop para seus projetos de análise. Para ajudar ainda mais inclinar a balança, a seguir estão dez razões para implantar Hadoop como parte de sua solução de dados grande.

Conteúdo

Hadoop é relativamente barato
Video: razões para adotar um cachorro - minha experiência - vlog - ongs na descrição
Hadoop tem uma comunidade ativa de código aberto
Hadoop está sendo amplamente adotado em todos os setores
Hadoop pode facilmente escalar para fora como seus dados crescem
Ferramentas tradicionais estão integrando com hadoop
Video: 10 motivos para adotar um gato preto
Hadoop pode armazenar dados em qualquer formato
Hadoop é projetada para executar análises complexas
Hadoop pode processar um conjunto de dados completo
Hardware está a ser optimizado para o hadoop
Hadoop pode cada vez mais lidar com cargas de trabalho flexíveis

Hadoop é relativamente barato

O custo por terabyte para implementar um cluster Hadoop é mais barato do que o custo por terabyte para configurar um sistema de backup em fita. Concedido, um sistema Hadoop custa mais de operar, porque as unidades de disco que contém os dados estão todos online e alimentado, ao contrário de unidades de fita. Mas essa métrica interessante ainda mostra o valor potencial enorme de um investimento em Hadoop.

Video: Razões para adotar um cachorro - minha experiência - vlog - ongs na descrição

A principal razão Hadoop é barato é sua dependência de hardware commodity. As soluções tradicionais de gerenciamento de dados corporativos dependem de recursos caros para garantir alta disponibilidade e desempenho rápido.

Hadoop tem uma comunidade ativa de código aberto

Sempre que uma organização investe em um pacote de software, uma consideração importante é a relevância de longo prazo do software que comprou. Nenhuma empresa quer comprar licenças de software e desenvolver habilidades específicas em torno de tecnologias que estarão obsoletos ou irrelevantes nos próximos meses e anos.

A este respeito, você não precisa se preocupar com Hadoop. O projeto Apache Hadoop está no caminho da adoção de longo prazo e relevância. Seus principais projetos têm dezenas de committers e centenas de desenvolvedores contribuindo código. Embora algumas dessas pessoas são acadêmicos ou amadores, a maioria deles são pagos por empresas de software empresarial para ajudar a crescer a plataforma Hadoop.

Hadoop está sendo amplamente adotado em todos os setores

Tal como acontece com a adoção da tecnologia de banco de dados relacional a partir de 1980 e em diante, as soluções Hadoop estão surgindo em todos os setores. A maioria das empresas com desafios de gestão de informação de grande escala estão a explorar seriamente Hadoop. amplo consenso a partir de histórias de mídia e relatórios de analistas indicam agora que quase todos os Fortune 500 empresa embarcou em um projeto Hadoop.

Hadoop pode facilmente escalar para fora como seus dados crescem

O aumento dos volumes de dados são um desafio de dados grande generalizado enfrentado agora pelas organizações. Em ambientes altamente competitivos, onde analytics está se tornando cada vez mais o fator decisivo na determinação de vencedores e perdedores, sendo capaz de analisar esses volumes crescentes de dados está se tornando uma prioridade alta.

Mesmo agora, a maioria das ferramentas de processamento de dados tradicionais, como bancos de dados e pacotes estatísticos, exigem hardware de maior escala (mais memória, disco e núcleos de CPU) para lidar com os volumes de dados crescentes. Esta abordagem scale-up está limitando e de custo-eficácia, dada a necessidade de componentes caros.

Em contraste com o modelo em escala-up, onde maior hardware capacidade mais rápido e é adicionado a um único servidor, o Hadoop é projetado para dimensionar com facilidade adicionando nós de dados. Estes nós de dados, que representam o aumento da capacidade de armazenamento de cluster e capacidade de processamento, podem ser facilmente adicionadas em tempo real para um cluster activo.

ferramentas tradicionais estão integrando com Hadoop

Com o aumento da adoção, as empresas estão vindo a depender de Hadoop e estão usando-o para armazenar e analisar dados críticos. Com esta tendência vem um apetite para os mesmos tipos de ferramentas de gerenciamento de dados que as pessoas estão acostumadas a ter para as suas fontes de dados tradicionais, tais como um banco de dados relacional. Aqui estão algumas das mais importantes categorias de aplicativos onde você pode ver a integração com Hadoop:

ferramentas de análise de negócios
pacotes de análise estatística
Video: 10 MOTIVOS PARA ADOTAR UM GATO PRETO
ferramentas de integração de dados

Hadoop pode armazenar dados em qualquer formato

Uma característica do Hadoop reflete um princípio fundamental NoSQL: Dados loja em primeiro lugar, e aplicar quaisquer esquemas depois de ser consultado. Um grande benefício que resulta para Hadoop de agir de acordo com este princípio é que você pode literalmente armazenar qualquer tipo de dados em Hadoop: completamente desestruturado, formatos binários, arquivos de log semi-estruturadas, ou dados relacionais.

Mas junto com essa flexibilidade vem uma maldição: Depois de armazenar dados, você acabará por querer analisá-lo - e análise de dados desorganizados pode ser difícil e demorado. A boa notícia aqui é que um número crescente de ferramentas podem mitigar os desafios de análise comumente visto em grandes conjuntos de dados desorganizados.

Hadoop é projetada para executar análises complexas

Você não só pode armazenar praticamente qualquer coisa em Hadoop, mas também executar praticamente qualquer tipo de algoritmo contra esses dados. Os modelos de aprendizado de máquina e bibliotecas incluídas no Apache Mahout são os principais exemplos, e eles podem ser usados para uma variedade de problemas sofisticados, incluindo classificar elementos com base em um grande conjunto de dados de treinamento.

Hadoop pode processar um conjunto de dados completo

Para os tipos de fraude de análise de casos de uso, dados da indústria de várias fontes indicam que menos de 3 por cento de todas as declarações e reivindicações são auditados. Concedido, em muitas circunstâncias, tais como polling eleição, analisando pequenos conjuntos de amostras de dados é útil e suficiente.

Mas, quando 97 por cento dos retornos e reivindicações não são auditadas, mesmo com regras de amostragem boas, muitas devoluções fraudulentas ainda ocorrem. Ao ser capaz de executar análise de fraude contra todo o corpus de dados, você agora começar a decidir se a amostra.

Hardware está a ser optimizado para o Hadoop

Intel é agora um jogador no mercado de distribuição de Hadoop. Este movimento pela Intel foi um argucioso porque o seu trabalho de distribuição mostra a seriedade e compromisso por trás de seus esforços de integração de código aberto.

Com Hadoop, Intel vê uma tremenda oportunidade para vender mais hardware. Afinal, clusters Hadoop pode caracterizar centenas de nós, todos os processadores que requerem, placas-mãe, memória RAM e discos rígidos. Intel tem investido fortemente na compreensão Hadoop para que ele possa construir otimizações específicas-Intel hardware que seus colaboradores Hadoop pode integrar em projetos Hadoop de código aberto.

Outros grandes fornecedores de hardware (como IBM, Dell e HP) também estão trazendo ativamente ofertas Hadoop-amigáveis para o mercado.

Hadoop pode cada vez mais lidar com cargas de trabalho flexíveis

Durante os quatro anos de preparativos para o lançamento do Hadoop 2, uma grande quantidade de atenção foi dirigida a resolver o problema de ter um único ponto de falha (SPOF) com o HDFS NameNode. Embora este sucesso particular foi, sem dúvida, uma melhoria importante, uma vez que muito fez para permitir a estabilidade da empresa, FIO é um desenvolvimento muito mais significativo.

Até Hadoop 2, a única processamento que poderia ser feito em um cluster Hadoop foi reservada no quadro MapReduce. Este foi aceitável para as análises de log de casos de uso que Hadoop foi originalmente construído para, mas com o aumento da adoção veio a real necessidade de maior flexibilidade.