O fluxo da aplicação mapreduce em hadoop

Video: MapReduce - Hadoop | Serge Abiteboul

Na sua essência, MapReduce é um modelo de programação para o processamento de conjuntos de dados que são armazenados de forma distribuída entre nós escravos de um cluster do Hadoop. O conceito chave aqui é dividir e conquistar. Especificamente, você quer quebrar um grande conjunto de dados em vários pedaços menores e processá-los em paralelo com o mesmo algoritmo.

Video: Hadoop Mapreduce Tutorial | Hadoop Mapreduce Framework

Com o Hadoop Distributed File System (HDFS), os arquivos já estão divididos em pedaços de tamanho. MapReduce é o que você usa para processar todas as peças.

aplicativos MapReduce ter várias fases, tal como preconizado nesta lista:

  1. Determinar os conjuntos de dados exatos para processar a partir dos blocos de dados. Isso envolve o cálculo onde os registros a serem processados ​​estão localizados dentro dos blocos de dados.

    Video: Joins in Hadoop Mapreduce | Mapside Joins | Reduce Side Joins | Hadoop Mapreduce Tutorial | Edureka

  2. Execute o algoritmo especificado contra cada registro no conjunto de dados até que todos os registros são processados.



    O exemplo individual da aplicação em execução contra um bloco de dados num conjunto de dados é conhecida como um tarefa mapeador. (Esta é a parte de mapeamento de MapReduce.)

  3. Localmente realizar uma redução intercalar da saída de cada mapeador.

    (As saídas são provisoriamente combinados, por outras palavras.) Esta fase é opcional porque, em alguns casos comuns, não é desejável.

  4. Com base nos requisitos de particionamento, grupo das partições aplicáveis ​​de dados de conjuntos de resultados de cada Mapper.

  5. Resumem-se os conjuntos de resultados a partir dos mapeadores em um único conjunto de resultados - a parte do MapReduce Reduzir.

    Um exemplo individual da aplicação em execução contra dados de saída do mapeador é conhecido como um tarefa redutor. (Por mais estranho que possa parecer, uma vez que “Reduzir” faz parte do nome do MapReduce, esta fase pode ser aplicações opcional- sem um redutor são conhecidos como empregos só de mapa, que pode ser útil quando não há necessidade de combinar os conjuntos de resultados das tarefas do mapa.)


Publicações relacionadas