O fluxo da aplicação mapreduce em hadoop
Video: MapReduce - Hadoop | Serge Abiteboul
Conteúdo
Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar. Especificamente, você quer quebrar um grande conjunto de dados em vários pedaços menores e processá-los em paralelo com o mesmo algoritmo.
Video: Hadoop Mapreduce Tutorial | Hadoop Mapreduce Framework
Com o Hadoop Distributed File System (HDFS), os arquivos já estão divididos em pedaços de tamanho. MapReduce é o que você usa para processar todas as peças.
aplicativos MapReduce ter várias fases, tal como preconizado nesta lista:
Determinar os conjuntos de dados exatos para processar a partir dos blocos de dados. Isso envolve o cálculo onde os registros a serem processados estão localizados dentro dos blocos de dados.
Video: Joins in Hadoop Mapreduce | Mapside Joins | Reduce Side Joins | Hadoop Mapreduce Tutorial | Edureka
Execute o algoritmo especificado contra cada registro no conjunto de dados até que todos os registros são processados.
O exemplo individual da aplicação em execução contra um bloco de dados num conjunto de dados é conhecida como um tarefa mapeador. (Esta é a parte de mapeamento de MapReduce.)
Localmente realizar uma redução intercalar da saída de cada mapeador.
(As saídas são provisoriamente combinados, por outras palavras.) Esta fase é opcional porque, em alguns casos comuns, não é desejável.
Com base nos requisitos de particionamento, grupo das partições aplicáveis de dados de conjuntos de resultados de cada Mapper.
Resumem-se os conjuntos de resultados a partir dos mapeadores em um único conjunto de resultados - a parte do MapReduce Reduzir.
Um exemplo individual da aplicação em execução contra dados de saída do mapeador é conhecido como um tarefa redutor. (Por mais estranho que possa parecer, uma vez que “Reduzir” faz parte do nome do MapReduce, esta fase pode ser aplicações opcional- sem um redutor são conhecidos como empregos só de mapa, que pode ser útil quando não há necessidade de combinar os conjuntos de resultados das tarefas do mapa.)