Atualizações checkpointing em hadoop distributed file system
Hadoop Distributed File System (HDFS) é um sistema de arquivos registrados, onde as novas alterações em arquivos no HDFS são capturados em um log de edição que está armazenado no NameNode em um arquivo chamado. Periodicamente, quando o arquivo atinge um determinado limite ou depois de um certo prazo, as entradas registradas no diário precisam estar comprometidos com o arquivo mestre.
Conteúdo
Video: 16 Hadoop Distributed File System HDFS
faz o NameNode si não fazer isso, porque ele é projetado para responder a solicitações de aplicativos o mais rápido possível. Mais importante, considerável risco está envolvido em ter esta operação de actualização de metadados gerenciados por um único servidor mestre.
Se os metadados descrevendo os mapeamentos entre os blocos de dados e seus arquivos correspondentes corrompido, os dados originais é tão bom como perdido.
serviços de checkpointing para um cluster Hadoop são tratados por um dos quatro daemons possíveis, que precisam ser executados no seu próprio nó dedicado mestre ao lado nó mestre do daemon NameNode:
NameNode secundário: Antes de Hadoop 2, esta foi a única daemon de pontos de verificação, que executa o processo de ponto de verificação descrita nesta secção. O NameNode secundária tem um nome notoriamente imprecisos porque ele não é de forma “secundária” ou “standby” para a NameNode.
Nó Checkpoint: A Checkpoint Node é o substituto para o NameNode Secundário. Ele executa checkpointing e nada mais.
Nó de backup: Fornece serviços checkpointing, mas também mantém um backup do arquivo e edições.
Standby NameNode: Executa serviço checkpointing e, ao contrário do velho NameNode Secundária, a espera NameNode é um verdadeiro servidor de espera, permitindo um hot-swap do processo NameNode para evitar qualquer tempo de inatividade.
O processo de ponto de verificação
Os passos seguintes descrevem o processo de ponto de verificação, como é realizado pelo NameNode eo serviço checkpointing (note que quatro possíveis daemons pode ser usado para checkpointing):
Quando é hora de executar o ponto de verificação, o NameNode cria um novo arquivo para aceitar as alterações sistema de arquivos registrados.
Nomeia o novo arquivo.
Como resultado, o arquivo não aceita mais mudanças e é copiado para o serviço checkpointing, junto com o arquivo.
Video: Explaining Hadoop's HDFS (Hadoop Distributed File System)
O serviço checkpointing mescla esses dois arquivos, criando um arquivo chamado.
Os serviços checkpointing copia o arquivo para o NameNode.
O NameNode sobrescreve o arquivo com.
O NameNode renomeia o arquivo.
considerações nó de backup
Além de fornecer a funcionalidade de ponto de verificação, o nó de backup mantém o estado atual de todos os metadados bloco HDFS na memória, assim como o NameNode. Neste sentido, ele mantém um backup em tempo real do estado do NameNode.
Como resultado de manter os metadados bloco na memória, o nó de backup é muito mais eficiente do que a Checkpoint Nó em executar a tarefa checkpointing, porque o e arquivos não precisam ser transferidos e, em seguida, fundidos. Essas mudanças já são mescladas na memória.
Outra vantagem de usar o nó de backup é que a NameNode pode ser configurado para delegar o nó de backup para que ele persiste dados revista em disco.
Se você estiver usando o nó de backup, você não pode executar o Checkpoint Node. Não há necessidade de fazê-lo, porque o processo checkpointing já está sendo cuidado.
considerações NameNode espera
O NameNode Standby é o servidor de espera quente designado mestre para o NameNode. Enquanto que serve como espera, que também realiza o processo de ponto de verificação. Como tal, você não pode executar o nó de backup ou Standby Node.
NameNode secundário, Checkpoint nó, nó de backup, e espera NameNode Mestre projeto de servidor
O servidor mestre executar o NameNode Secundária, Checkpoint Nó, nó de backup, ou Standby NameNode daemons têm os mesmos requisitos de hardware como os implementados para o servidor mestre NameNode. A razão é que esses servidores também carregar na memória todos os dados de metadados e localização sobre todos os blocos de dados armazenados no HDFS.