Seu primeiro programa hadoop: olá hadoop!
Video: HDFS Architecture
Conteúdo
Depois que o cluster Hadoop está instalado e funcionando, você pode executar o seu primeiro programa de Hadoop. Esta aplicação é muito simples, e calcula o total de milhas voadas para todos os voos realizados em um ano. O ano é definido pelo arquivo de dados que você lê na sua aplicação.
Para manter as coisas um pouco mais simples aqui, você vai executar um script Pig para calcular o total de milhas voadas. Você vai ver o mapa e reduzir fases voar na saída.
Aqui está o código para esse script Pig:
records = CARGA `2013_subset.csv` usando PigStorage ( ``) AS (ano, mês, DAYOFMONTH, DayOfWeek, DepTime, CRSDepTime, ArrTime, CRSArrTime, UniqueCarrier, FlightNum, TailNum, ActualElapsedTime, CRSElapsedTime, AirTime, ArrDelay, DepDelay, Origem , Dest, Distância: int, TaxiIn, TaxiOut, Cancelado, CancellationCode, desviadas, CarrierDelay, WeatherDelay, NASDelay, SecurityDelay, LateAircraftDelay) -milage_recs = GRUPO registra ALL-tot_miles = FOREACH milage_recs GERAR SUM (records.Distance) -Store tot_miles INTO / utilizador / raiz / totalmiles-
Você quer colocar esse código em um arquivo no seu VM, então primeiro criar um arquivo. direito; clique na área de trabalho do seu VM e selecione Criar documento a partir do menu contextual que aparece e nomeie o documento. Em seguida, abra o documento em um editor, cole no código, e salve o arquivo.
Video: Momentos Insight
Na linha de comando, execute o seguinte comando para executar o script Pig:
totalmiles.pig porco
Você vai ver muitas linhas de produção, e, finalmente, uma mensagem “Sucesso!”, Seguido de mais estatísticas, e, finalmente, o prompt de comando. Após seu trabalho Pig foi concluída, você pode ver a sua saída:
Video: 13 Getting Started with the Cloudera VM Environment
hdfs dfs -cat / utilizador / raiz / totalmiles / parte-R-00000
Drumroll, por favor ... E a resposta é: 775009272
Video: Oracle Big Data Discovery (legendado PT/BR)
E com isso, você executar o seu primeiro aplicativo Hadoop!