A importância da mapreduce em hadoop

Video: Intro to Hadoop and MapReduce

Para a maioria da história do Hadoop, MapReduce foi o único jogo na cidade quando se trata de processamento de dados. A disponibilidade de MapReduce tem sido a razão para o sucesso do Hadoop e, ao mesmo tempo, um fator importante para limitar ainda mais a adoção.

MapReduce permite que programadores qualificados para escrever aplicações distribuídas sem ter que se preocupar com a infra-estrutura de computação distribuída subjacente. Este é um negócio muito grande: Hadoop eo quadro MapReduce lidar com todos os tipos de complexidade que os desenvolvedores de aplicativos não precisa lidar.

Por exemplo, a capacidade de adaptar de forma transparente para o cluster por adição de nós e o failover automático de ambos subsistemas de armazenamento de dados e processamento de dados acontecer com impacto de zero em aplicações.

O outro lado da moeda aqui é que, embora MapReduce esconde uma quantidade enorme de complexidade, você não pode dar ao luxo de esquecer o que é: uma interface para programação paralela. Esta é uma habilidade avançada - e uma barreira para a adoção mais ampla. Há simplesmente não são ainda muitos programadores MapReduce, e nem todos têm a habilidade para dominá-lo.



Nos primeiros dias do Hadoop (Hadoop 1 e antes), você só pode executar aplicativos MapReduce em seus clusters. Em Hadoop 2, o componente FIO mudou tudo isso por assumir a gestão de recursos e agendamento da estrutura MapReduce, e fornecendo uma interface genérica para facilitar aplicativos sejam executados em um cluster Hadoop.

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka

Em suma, isso significa MapReduce agora é apenas uma das muitas estruturas de aplicativos que você pode usar para desenvolver e executar aplicativos no Hadoop. Embora seja certamente possível executar aplicações usando outras estruturas no Hadoop, isso não significa que podemos começar a esquecer sobre MapReduce.

MapReduce é atualmente a única estrutura de processamento de dados pronto para produção disponível para Hadoop. Embora outras estruturas acabará por se tornar disponível, MapReduce tem quase uma década de maturidade sob o seu cinto (com quase 4.000 questões JIRA concluída, envolvendo centenas de desenvolvedores, se você está acompanhando).

Video: Hadoop MapReduce Examples - Hadoop MapReduce tutorials - Hadoop

Não há disputa: MapReduce é a estrutura mais madura do Hadoop para processamento de dados. Além disso, uma quantidade significativa de código MapReduce está agora em uso que é improvável que ir a qualquer lugar em breve. Para encurtar a história: MapReduce é uma parte importante da história Hadoop.

Os projetos Apache Hive e Apache Pig são muito populares porque eles são pontos de entrada mais fácil para processamento de dados no Hadoop. Para muitos problemas, especialmente os tipos que você pode resolver com SQL, Hive e Pig são excelentes ferramentas. Mas para uma tarefa mais abrangente, como tratamento estatístico ou de extração de texto e, especialmente, para o processamento de dados não estruturados, você precisa usar MapReduce.


Publicações relacionadas