Por que você deve usar o hadoop para big data?

inovadores de motores de busca como Yahoo! e Google foram confrontados com um problema de dados pântano. Eles precisavam encontrar uma maneira de fazer sentido das quantidades maciças de dados que seus motores foram de coleta. Estas empresas necessários para tanto compreender as informações que eles estavam se reunindo e como eles poderiam rentabilizar esses dados para apoiar o seu modelo de negócio.

Hadoop foi desenvolvido porque representava a forma mais pragmática para permitir às empresas gerenciar grandes volumes de dados com facilidade. Hadoop permitiu grandes problemas a ser dividido em elementos menores, de modo que a análise poderia ser feito rapidamente e de forma rentável.

Ao quebrar o problema de dados grande em pedaços pequenos que poderiam ser processadas em paralelo, você pode processar a informação e reagrupar os pequenos pedaços de apresentar resultados.

Hadoop foi originalmente construído por um engenheiro Yahoo! nomeou Doug Cutting e agora é um projeto de código aberto gerido pela Apache Software Foundation. Está disponível sob a licença Apache v2.0.



Hadoop é um alicerce fundamental no nosso desejo de capturar e processar dados grandes. Hadoop é projetado para paralelizar processamento de dados entre os nós de computação para acelerar cálculos e esconder a latência. Na sua essência, o Hadoop tem dois componentes principais:

Video: What is Hadoop? Other big data terms like MapReduce? Cloudera's CEO talks us through big data trends

  • Hadoop Distributed File System: A confiáveis, de alta largura de banda, de baixo custo, cluster de armazenamento de dados que facilita o gerenciamento de arquivos relacionados entre máquinas.

    Video: Big Data - Intro to Hadoop and MapReduce

  • motor MapReduce: Uma implementação /-processamento de dados distribuído de alto desempenho paralelo do MapReduce algoritmo.

    Video: Scale R to Big Data Using Hadoop and Spark - Phuc H Duong

Hadoop é projetado para processar grandes quantidades de dados estruturados e não estruturados (terabytes para petabytes) e é implementado em racks de servidores de commodities como um cluster Hadoop. Os servidores podem ser adicionados ou removidos do cluster dinamicamente porque Hadoop é projetado para ser “auto-cura.” Em outras palavras, o Hadoop é capaz de detectar alterações, incluindo falhas e ajustar a essas mudanças e continuar a funcionar sem interrupção.


Publicações relacionadas