Configure o ambiente Hadoop com bigtop apache

Se você é confortável trabalhar com VMs e Linux, sinta-se livre para instalar Bigtop em uma VM diferente do que é recomendado. Se você for realmente ousado e tem o hardware, vá em frente e tente instalar Bigtop em um cluster de máquinas no modo totalmente distribuído!

Conteúdo

Passo 1: a descarga de um vm
Video: hadoop 2.x - installing, configuring and deploying the cluster with ambari
Passo 2: o download bigtop
Passo 3: instalar bigtop
Video: moving your spark and hadoop workloads to google cloud platform (google cloud next '17)
Passo 4: começando hadoop
Video: working in the hadoop ecosystem
Passo 5: o download do conjunto de dados de amostra
Video: adam kawa's ignite presentation, "hadoop playlist", at strata 2013
Passo 6: copiando os dados de amostra definida no hdfs

Passo 1: A descarga de um VM

Hadoop é executado em todas as distribuições Linux populares, então você precisa de uma VM Linux. Há um livremente disponível (e legal!) imagem CentOS 6 acessível.

Você vai precisar de um sistema operacional de 64-bit em seu laptop para executar esta VM. Hadoop precisa de um ambiente de 64 bits.

Depois de ter baixado o VM, extraí-lo a partir do arquivo ZIP baixado para o diretório de destino. Do garantir que você tem em torno de 50 GB de espaço disponível como Hadoop e seus dados de amostra vai precisar dele.

Video: Hadoop 2.x - Installing, Configuring and Deploying the Cluster with Ambari

Se você não tiver um jogador VM, você pode fazer o download gratuitamente.

Depois de ter o seu leitor VM configurado, abra o jogador, vá em File → Open, em seguida, vá para o diretório onde você extraiu o Linux VM. Procure um arquivo chamado e selecioná-lo. Você verá informações sobre quantos processadores ea quantidade de memória que vai usar. Descobrir o quanto de memória seu computador tem, e alocar metade dela para o VM de usar. Hadoop precisa de muita memória.

Assim que estiver pronto, clique no botão Play, e sua instância Linux será iniciado. Você verá muitas mensagens de voar como Linux está inicializando e você chegará a uma tela de login. O nome de usuário já está definido para “Tom.” Especifique a senha como “TomTom” e login.

Passo 2: O download Bigtop

De dentro do seu Linux VM, direito, clique na tela e selecione Abrir no Terminal a partir do menu contextual que aparece. Isso abre um terminal Linux, onde você pode executar comandos. Clique dentro do terminal para que você pode ver o cursor piscando e digite o seguinte comando: su -

Você será solicitado para sua senha, então digite “TomTom” como você fez antes. Este comando muda o usuário raiz, que é a conta principal de um computador Linux - você vai precisar disso para instalar Hadoop.

Com o seu acesso root (não deixe o poder chegar a sua cabeça), execute o seguinte comando:

wget -O /etc/yum.repos.d/bigtop.repo 
https://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo

O comando é essencialmente uma solicitação da web, que solicita um ficheiro específico, na URL que você pode ver e escreve-o para um caminho específico - neste caso, que é /.

Passo 3: Instalar Bigtop

Os gênios por trás de Linux têm feito a vida muito fácil para as pessoas que precisam instalar pacotes de software grandes, como Hadoop. O que você baixou na última etapa não foi todo o pacote Bigtop e todas as suas dependências. Foi apenas um arquivo de repositório (Com a extensão), que conta um programa de instalação que pacotes de software são necessários para a instalação Bigtop.

Como qualquer produto de software grande, Hadoop tem muitos pré-requisitos, mas você não precisa se preocupar. Um arquivo bem concebido irá apontar para quaisquer dependências, eo instalador é suficientemente inteligente para ver se eles estão faltando no seu computador e faça o download e instalá-los.

O instalador que você está usando aqui é chamado yum, que você começa a ver em ação agora:

yum install hadoop * mahout * Oozie * hbase * colméia * tom * porco * tratador *

Observe que você está escolhendo e escolhendo os componentes do Hadoop para instalar. Há uma série de outros componentes disponíveis no Bigtop, mas estes são os únicos que você vai usar aqui. Desde que a VM é uma nova instalação Linux, você vai precisar de muitas dependências, assim você terá que esperar um pouco.

Video: Moving your Spark and Hadoop workloads to Google Cloud Platform (Google Cloud Next '17)

O instalador yum é bastante detalhado, assim você pode assistir exatamente o que está sendo baixados e instalados para passar o tempo. Quando o processo de instalação é feito, você deve ver uma mensagem que diz “Complete!”

Passo 4: Começando Hadoop

Antes de iniciar a execução de aplicativos em Hadoop, existem algumas configuração e instalação coisas básicas que você precisa fazer. Aqui eles estão em ordem:

Baixe e instale Java:

yum install java-1.7.0-openjdk-devel.x86_64

Formate a NameNode:

sudo /etc/init.d/hadoop-hdfs-namenode inicialização

Inicie os serviços do Hadoop para seu cluster pseudodistributed:
Video: Working in the Hadoop Ecosystem
```
for i in Hadoop-hdfs-namenode Hadoop-hdfs-DataNode - fazer o serviço sudo $ i começar - done
```
Criar uma estrutura de sub-diretório no HDFS:
```
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
```
Inicie os daemons FIO:

serviço sudo hadoop-fio-ResourceManager início do serviço startsudo hadoop-fio-NodeManager

E com isso, você está feito. Parabéns! Você instalou uma implantação Hadoop trabalhar!

Passo 5: O download do conjunto de dados de amostra

Para baixar o conjunto de dados de amostra, abra o navegador Firefox dentro da VM, e ir para o página dataexpo.

Você não vai precisar de todo o conjunto de dados, assim que começar com um único ano, 1987. Quando você vai baixar, selecione a opção Abrir Archive Manager com.

Após o seu arquivo foi baixado, extraia o arquivo em seu diretório home, onde você vai facilmente ser capaz de encontrá-lo. Clique no botão Extract, e, em seguida, selecione o diretório Desktop.

Video: Adam Kawa's Ignite Presentation, "Hadoop Playlist", at Strata 2013

Passo 6: copiando os dados de amostra definida no HDFS

Lembre-se que seus programas Hadoop só pode trabalhar com dados após ele é armazenado no HDFS. Então, o que você vai fazer agora é copiar o arquivo de dados de voo para 1987 em HDFS. Digite o seguinte comando:

hdfs dfs -copyFromLocal 1987.csv / utilizador / raiz