Latino de porco em programas de porco do Hadoop

Pig Latin é o idioma para programas de porco. Pig traduz o script Pig Latin em trabalhos de MapReduce que ele pode ser executado dentro do cluster Hadoop. Quando chega com Pig Latin, a equipe de desenvolvimento seguido três princípios fundamentais de projeto:

Mantenha simples. Pig Latin fornece um método simplificado para interagir com Java MapReduce. É uma abstração, em outras palavras, que simplifica a criação de programas paralelos no cluster Hadoop para fluxos de dados e análise. tarefas complexas podem requerer uma série de transformações de dados inter-relacionados - tais séries são codificados como fluxo de dados sequências.
Escrevendo transformação de dados e flui como scripts Pig Latin, em vez de programas Java MapReduce torna esses programas mais fáceis de escrever, entender e manter, porque a) você não tem que escrever o trabalho em Java, b) você não tem que pensar em termos de MapReduce, e c) você não precisa vir para cima com código personalizado para suportar tipos de dados ricos.
Pig Latin fornece uma linguagem mais simples de explorar seu cluster Hadoop, tornando assim mais fácil para mais pessoas para aproveitar o poder do Hadoop e se tornar produtivo mais cedo.
Torná-lo inteligente. Você deve se lembrar que o Pig Latin Compiler faz o trabalho de transformar um programa Pig Latin em uma série de postos de trabalho Java MapReduce. O truque é ter certeza de que o compilador pode otimizar a execução destes trabalhos Java MapReduce automaticamente, permitindo que o usuário se concentrar em semântica em vez de como otimizar e acessar os dados.

Para youSQL tipos lá fora, esta discussão vai soar familiar. SQL é configurado como uma consulta declarativa que você usa para acessar dados estruturados armazenados em um RDBMS. O motor RDBMS primeiro traduz a consulta a um método de acesso de dados e, em seguida, olha para as estatísticas e gera uma série de abordagens de acesso a dados. O otimizador baseado em custo escolhe a abordagem mais eficiente para a execução.
Não limitar o desenvolvimento. Faça Pig extensível para que desenvolvedores possam adicionar funções para resolver seus problemas de negócios específicos.

armazéns de dados RDBMS tradicionais fazem uso do padrão de processamento de dados ETL, onde você eXtract dados de fontes externas, transform-lo para atender às suas necessidades operacionais, e, em seguida, euoad-lo para o alvo final, quer se trate de um armazenamento de dados operacional, um armazém de dados, ou outra variante de base de dados.

No entanto, com grandes dados, normalmente você quer reduzir a quantidade de dados que você se movendo, assim você acaba trazendo o processamento para os dados em si.

O idioma para os fluxos de dados de suínos, portanto, tem uma passagem sobre a abordagem ETL de idade, e vai com ELT em vez disso: EXtract os dados de suas várias fontes, euOAD-lo em HDFS, e depois transform-lo conforme necessário para preparar os dados para análise posterior.