Script com latino de porco no hadoop

Video: Apache Pig: Writing and running a simple script in Hadoop

Hadoop é um ecossistema rico e de rápida evolução com um conjunto crescente de novas aplicações. Ao invés de tentar manter-se com todos os requisitos para novas capacidades, Pig é projetado para ser extensível via funções definidas pelo utilizador, também conhecido como FDU.

UDFs podem ser escritos em uma série de linguagens de programação, incluindo Java, Python e javascript. Os desenvolvedores também estão postando e partilha de uma crescente coleção de UDFs online. (Procure Piggy e DataFu, para citar apenas dois exemplos de tais coleções on-line.) Alguns dos Pig UDFs que fazem parte desses repositórios são funções Load / Store (XML, por exemplo), as funções de data e hora, texto, matemática, e Status de funções.



Pig, também pode ser incorporado em linguagens host tais como Java, Python e javascript, que permite integrar Porco com suas aplicações existentes. Ele também ajuda a superar as limitações na linguagem Pig. Uma das limitações mais citados é que porco não suporta demonstrações de fluxo de controle: if / else, while loop, loop for, e condição.

Video: ETL on Hadoop: Using Pig for log file Analysis on HDInsight Azure

Pig suporta nativamente fluxo de dados, mas precisa ser incorporado dentro de outro idioma para fornecer fluxo de controle. Existem vantagens e desvantagens, no entanto, a incorporação de porco em uma linguagem de controlo de fluxo. Por exemplo, se uma declaração Pig é incorporado em um loop, cada vez que as iterações de loop e executa a instrução Pig, isso faz com que um trabalho MapReduce separada para executar.


Publicações relacionadas