Desenvolvimento de fluxos de trabalho oozie em hadoop

workflows Oozie são, em seu núcleo, dirigido gráficos, onde você pode definir ações (aplicações Hadoop) e fluxo de dados, mas sem looping - ou seja, você não pode definir uma estrutura onde deseja executar uma operação específica mais e mais até alguns condição é satisfeita (para um ciclo, por exemplo).

Video: Analytos Tutorial - Hadoop Essentials - Oozie Part 2

workflows Oozie são bastante flexíveis em que você pode definir decisões com base em condições e caminhos bifurcados para execução paralela. Você também pode executar uma ampla gama de ações.

Nesta figura, você vê um fluxo de trabalho mostrando as capacidades básicas de fluxos de trabalho Oozie. Primeiro, um script Pig é executado, e é imediatamente seguido por uma árvore de decisão. Dependendo do estado da saída, o fluxo de controle pode ir diretamente para uma operação HDFS (Hadoop Distributed File System) arquivo (por exemplo, uma operação de copyToLocal) ou a uma ação garfo.

Se o fluxo de controle passa para a ação garfo, dois trabalhos são executados simultaneamente: um trabalho MapReduce, e uma consulta Hive. O fluxo de controle, em seguida, vai para a operação HDFS uma vez tanto o trabalho MapReduce e consulta Hive são concluída em execução. Após a operação HDFS, o fluxo de trabalho está completo.

Video: Workflow Engines for Hadoop by Joe Crobak



definições de workflow Oozie são escritos em XML, com base no esquema Hadoop Process Definition Language (hPDL). Este esquema particular é, por sua vez, com base na (XPDL) esquema Processo XML Definition Language, que é um padrão independente de produto para definições de processos de negócios de modelagem.

Um fluxo de trabalho Oozie é composto de uma série de ações, que são codificadas por nós XML. Existem diferentes tipos de nós, representando diferentes tipos de ações ou diretrizes de controle de fluxo. Cada fluxo de trabalho Oozie tem seu próprio arquivo XML, onde cada nó e suas interligações são definidas.

nós fluxo de trabalho requerem identificadores únicos, porque eles são usados ​​para identificar o próximo nó a ser processado no fluxo de trabalho. Isto significa que a ordem em que as ações são executadas depende de onde nó de uma ação aparece no XML fluxo de trabalho. Para ver como esse conceito seria, veja o seguinte perfil, que mostra um exemplo da estrutura básica do arquivo XML de um fluxo de trabalho Oozie.

......"trabalho morto."

Neste exemplo, além do início, fim e matar nós, você tem dois nós de ação. Cada nó de ação representa uma aplicação ou um comando a ser executado.


Publicações relacionadas