Modos locais e distribuídas de scripts com execução de suínos na hadoop

Antes que você possa executar o seu primeiro roteiro Porco no Hadoop, você precisa ter uma alça sobre como programas de porco pode ser embalados com o servidor Pig.

Pig tem dois modos de execução de scripts:

  • Modo local: Todos os scripts são executados em uma única máquina sem a necessidade de Hadoop MapReduce e HDFS. Isto pode ser útil para desenvolver e testar a lógica Pig. Se você estiver usando um pequeno conjunto de dados para o desenvolvedor ou testar seu código, em seguida, modo local poderia ser mais rápido do que ir através da infra-estrutura MapReduce.

    modo local não requer Hadoop. Quando executado no modo local, o programa Pig é executado no contexto de uma Máquina Virtual Java local, e acesso a dados é através do sistema de uma única máquina de arquivos local. O modo local é na verdade uma simulação local do MapReduce na classe LocalJobRunner do Hadoop.

  • Modo MapReduce (também conhecido como modo Hadoop): Porco é executado no cluster Hadoop. Neste caso, o Script Pig é convertido em uma série de trabalhos de MapReduce que depois são executados no cluster do Hadoop.

Se você tem um terabyte de dados que você deseja realizar operações sobre e você quer desenvolver interativamente um programa, você pode em breve encontrar coisas abrandar consideravelmente, e você pode começar a crescer o seu armazenamento. modo local permite que você trabalhe com um subconjunto de dados de uma forma mais interativa para que você possa descobrir a lógica (e trabalhar os bugs) do seu programa Pig.

Depois de ter coisas configurar como você quer que eles e suas operações estão funcionando sem problemas, você pode, em seguida, executar o script contra os dados completos definidos usando o modo MapReduce.


Publicações relacionadas