Configure o ambiente hadoop com bigtop apache
Se você é confortável trabalhar com VMs e Linux, sinta-se livre para instalar Bigtop em uma VM diferente do que é recomendado. Se você for realmente ousado e tem o hardware, vá em frente e tente instalar Bigtop em um cluster de máquinas no modo totalmente distribuído!
Conteúdo
- Passo 1: a descarga de um vm
- Video: hadoop 2.x - installing, configuring and deploying the cluster with ambari
- Passo 2: o download bigtop
- Passo 3: instalar bigtop
- Video: moving your spark and hadoop workloads to google cloud platform (google cloud next '17)
- Passo 4: começando hadoop
- Video: working in the hadoop ecosystem
- Passo 5: o download do conjunto de dados de amostra
- Video: adam kawa's ignite presentation, "hadoop playlist", at strata 2013
- Passo 6: copiando os dados de amostra definida no hdfs
Passo 1: A descarga de um VM
Hadoop é executado em todas as distribuições Linux populares, então você precisa de uma VM Linux. Há um livremente disponível (e legal!) imagem CentOS 6 acessível.
Você vai precisar de um sistema operacional de 64-bit em seu laptop para executar esta VM. Hadoop precisa de um ambiente de 64 bits.
Depois de ter baixado o VM, extraí-lo a partir do arquivo ZIP baixado para o diretório de destino. Do garantir que você tem em torno de 50 GB de espaço disponível como Hadoop e seus dados de amostra vai precisar dele.
Video: Hadoop 2.x - Installing, Configuring and Deploying the Cluster with Ambari
Se você não tiver um jogador VM, você pode fazer o download gratuitamente.
Depois de ter o seu leitor VM configurado, abra o jogador, vá em File → Open, em seguida, vá para o diretório onde você extraiu o Linux VM. Procure um arquivo chamado e selecioná-lo. Você verá informações sobre quantos processadores ea quantidade de memória que vai usar. Descobrir o quanto de memória seu computador tem, e alocar metade dela para o VM de usar. Hadoop precisa de muita memória.
Assim que estiver pronto, clique no botão Play, e sua instância Linux será iniciado. Você verá muitas mensagens de voar como Linux está inicializando e você chegará a uma tela de login. O nome de usuário já está definido para “Tom.” Especifique a senha como “TomTom” e login.
Passo 2: O download Bigtop
De dentro do seu Linux VM, direito, clique na tela e selecione Abrir no Terminal a partir do menu contextual que aparece. Isso abre um terminal Linux, onde você pode executar comandos. Clique dentro do terminal para que você pode ver o cursor piscando e digite o seguinte comando: su -
Você será solicitado para sua senha, então digite “TomTom” como você fez antes. Este comando muda o usuário raiz, que é a conta principal de um computador Linux - você vai precisar disso para instalar Hadoop.
Com o seu acesso root (não deixe o poder chegar a sua cabeça), execute o seguinte comando:
wget -O /etc/yum.repos.d/bigtop.repo
https://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo
O comando é essencialmente uma solicitação da web, que solicita um ficheiro específico, na URL que você pode ver e escreve-o para um caminho específico - neste caso, que é /.
Passo 3: Instalar Bigtop
Os gênios por trás de Linux têm feito a vida muito fácil para as pessoas que precisam instalar pacotes de software grandes, como Hadoop. O que você baixou na última etapa não foi todo o pacote Bigtop e todas as suas dependências. Foi apenas um arquivo de repositório (Com a extensão), que conta um programa de instalação que pacotes de software são necessários para a instalação Bigtop.
Como qualquer produto de software grande, Hadoop tem muitos pré-requisitos, mas você não precisa se preocupar. Um arquivo bem concebido irá apontar para quaisquer dependências, eo instalador é suficientemente inteligente para ver se eles estão faltando no seu computador e faça o download e instalá-los.
O instalador que você está usando aqui é chamado yum, que você começa a ver em ação agora:
yum install hadoop * mahout * Oozie * hbase * colméia * tom * porco * tratador *
Observe que você está escolhendo e escolhendo os componentes do Hadoop para instalar. Há uma série de outros componentes disponíveis no Bigtop, mas estes são os únicos que você vai usar aqui. Desde que a VM é uma nova instalação Linux, você vai precisar de muitas dependências, assim você terá que esperar um pouco.
Video: Moving your Spark and Hadoop workloads to Google Cloud Platform (Google Cloud Next '17)
O instalador yum é bastante detalhado, assim você pode assistir exatamente o que está sendo baixados e instalados para passar o tempo. Quando o processo de instalação é feito, você deve ver uma mensagem que diz “Complete!”
Passo 4: Começando Hadoop
Antes de iniciar a execução de aplicativos em Hadoop, existem algumas configuração e instalação coisas básicas que você precisa fazer. Aqui eles estão em ordem:
Baixe e instale Java:
yum install java-1.7.0-openjdk-devel.x86_64
Formate a NameNode:
sudo /etc/init.d/hadoop-hdfs-namenode inicialização
Inicie os serviços do Hadoop para seu cluster pseudodistributed:
Video: Working in the Hadoop Ecosystem
for i in Hadoop-hdfs-namenode Hadoop-hdfs-DataNode - fazer o serviço sudo $ i começar - done
Criar uma estrutura de sub-diretório no HDFS:
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
Inicie os daemons FIO:
serviço sudo hadoop-fio-ResourceManager início do serviço startsudo hadoop-fio-NodeManager
E com isso, você está feito. Parabéns! Você instalou uma implantação Hadoop trabalhar!
Passo 5: O download do conjunto de dados de amostra
Para baixar o conjunto de dados de amostra, abra o navegador Firefox dentro da VM, e ir para o página dataexpo.
Você não vai precisar de todo o conjunto de dados, assim que começar com um único ano, 1987. Quando você vai baixar, selecione a opção Abrir Archive Manager com.
Após o seu arquivo foi baixado, extraia o arquivo em seu diretório home, onde você vai facilmente ser capaz de encontrá-lo. Clique no botão Extract, e, em seguida, selecione o diretório Desktop.
Video: Adam Kawa's Ignite Presentation, "Hadoop Playlist", at Strata 2013
Passo 6: copiando os dados de amostra definida no HDFS
Lembre-se que seus programas Hadoop só pode trabalhar com dados após ele é armazenado no HDFS. Então, o que você vai fazer agora é copiar o arquivo de dados de voo para 1987 em HDFS. Digite o seguinte comando:
hdfs dfs -copyFromLocal 1987.csv / utilizador / raiz