Processamento distribuído com mapreduce hadoop

Hadoop MapReduce envolve o processamento de uma sequência de operações em conjuntos de dados distribuídos. Os dados consistem de pares de valores chave, e os cálculos têm somente duas fases: uma fase de mapa e uma fase de redução. trabalhos MapReduce definidas pelo usuário executado nos nós de computação em cluster.

Video: Hadoop Map Reduce Programming 101 - 06 02 Map Reduce Development

De um modo geral, um trabalho MapReduce funciona da seguinte forma:

  1. Durante a fase de mapa, dos dados de entrada é dividido num grande número de fragmentos, cada um dos quais é atribuído a uma tarefa mapa.

  2. Estas tarefas mapa são distribuídos em todo o cluster.

  3. Cada tarefa mapa processa os pares de valores chave a partir do seu fragmento atribuído e produz um conjunto de pares de valores chave intermédios.

  4. O conjunto de dados intermédios é classificada por chave, e os dados classificados é dividido em um certo número de fragmentos que correspondem ao número de tarefas de redução.

  5. Durante a fase reduz-se, cada tarefa reduzir processa o fragmento de dados que foi atribuído a ele e produz um par de chaves de valor de saída.



  6. Estes reduzem tarefas também são distribuídos em todo o cluster e escrever sua saída para HDFS quando terminar.

O quadro Hadoop MapReduce no início (pré-versão 2) lançamentos do Hadoop tem um único serviço mestre chamado de JobTracker e vários serviços de escravos chamados TaskTrackers, um por nó no cluster.

Quando você enviar uma tarefa de MapReduce para o JobTracker, o trabalho é colocado em uma fila e, em seguida, é executado de acordo com as regras de agendamento definidos por um administrador. Como você poderia esperar, o JobTracker gere a atribuição de mapa-e-reduzem as tarefas para as TaskTrackers.

Com Hadoop 2, um novo sistema de gestão de recursos está no lugar chamado FIO (abreviação de Yet UMAnão ela Resource Manager). FIO fornece serviços de agendamento e gerenciamento de recursos genéricos para que você possa correr mais do que apenas aplicativos MapReduce no seu cluster Hadoop. A arquitetura JobTracker / TaskTracker só poderia executar MapReduce.

HDFS também tem uma arquitetura master / slave:

Video: Hadoop Map Reduce Programming 101 - 03 Hadoop Distributed File System

  • serviço de mestre: chamado de NameNode, que controla o acesso a arquivos de dados.

  • serviços de escravos: Chamado DataNodes, eles são distribuídos um nó per no cluster. DataNodes gerenciar o armazenamento que está associada aos nós em que são executados, servindo clientes ler e escrever pedidos, entre outras tarefas.


Publicações relacionadas