Replicando blocos de dados no hadoop distributed file system
Hadoop Distributed File System (HDFS) é projetado para armazenar dados sobre barato, e mais confiável, hardware. Barato
Conteúdo
Video: Hadoop distributed file system commands
Planejamento futuro para o desastre, o cérebro por trás HDFS tomou a decisão de configurar o sistema para que ele iria armazenar três (contagem &rsquo-em - três) cópias de cada bloco de dados.
HDFS assume que cada unidade de disco e cada nó escravo é inerentemente não confiável, por isso, claramente, é preciso ter cuidado na escolha de onde as três cópias dos blocos de dados são armazenados.
A figura mostra como os blocos de dados a partir do arquivo anterior são listrado em todo o cluster Hadoop - o que significa que estão uniformemente distribuídos entre os nós escravo de modo que uma cópia do bloco ainda estará disponível independentemente de falhas de disco, do nó, ou panfletos.
Video: HDFS ( Hadoop Distributed File System )
O ficheiro mostrado tem cinco blocos de dados, rotulados a, b, c, d, e e. Se você tomar um olhar mais atento, você pode ver este cluster específico é composta de dois racks com dois nós cada um, e que as três cópias de cada bloco de dados foram espalhados os diversos nós escravos.
Cada componente no cluster Hadoop é visto como um potencial ponto de falha, então quando HDFS armazena as réplicas dos blocos originais em todo o cluster do Hadoop, ele tenta garantir que as réplicas de bloco são armazenados em diferentes pontos de falha.
Por exemplo, dê uma olhada no Bloco A. No momento em que precisava de ser armazenado, Slave Node 3 foi escolhido, ea primeira cópia do Bloco A foi armazenado lá. Para vários sistemas de cremalheira, HDFS então determina que as restantes duas cópias do bloco A necessitam de ser armazenadas num bastidor diferente. Assim, a segunda cópia do bloco A é armazenado no Slave nó 1.
A cópia final pode ser armazenado no mesmo rack como a segunda cópia, mas não no mesmo nó escravo, por isso fica armazenado em Slave nó 2.