Aplicações em tempo real e de streaming em hadoop
Video: Stream Twitter data into hadoop using Apache Flume
Conteúdo
O fluxo do processo do fio olha um lote terrível como um quadro para a execução do lote. Você pode se perguntar: “O que aconteceu com essa idéia de flexibilidade para diferentes modos de aplicações?” Bem, a única estrutura de aplicativo atualmente pronto para uso em produção é MapReduce. Logo, o Apache Tez e Apache tempestade estará pronto para uso em produção, e você pode usar o Hadoop para mais do que apenas o processamento em lote.
Video: Hadoop Streaming in Python, hadoop streaming tutorial
Tez, por exemplo, irá apoiar tempo real aplicações - um tipo interativa do aplicativo onde o usuário espera uma resposta imediata. Um objetivo do projeto de Tez é proporcionar uma instalação interativa para os usuários para emitir consultas Hive e receber um conjunto de resultados ou menos apenas alguns segundos.
Outro exemplo de um tipo não-lote de aplicação é de tempestade, que pode analisar dados de streaming. Este conceito é completamente diferente de qualquer MapReduce ou Tez, ambos os quais operam com os dados que já é mantido no disco - em outras palavras, dados em repouso. Tempestade processa dados que ainda não tenha sido armazenado no disco - mais especificamente, os dados que está fluindo em rede de uma organização. É dados em movimento, em outras palavras.
Video: SPARK STREAMING PART-1 ON THE FLY DATA PROCESSING ENGINE Tutorial
Em ambos os casos, as metas de processamento interativo e streaming de dados não funciona se a aplicação Mestres precisam ser instanciado, juntamente com todos os recipientes necessários. O FIO permite aqui é o conceito de um serviço contínuo (a sessão), onde há um mestre de aplicativos dedicados que permanece vivo, esperando para coordenar solicitações. O Mestre aplicativo também tem locações abertas em recipientes reutilizáveis para executar todos os pedidos que chegam.