Log análise de dados com hadoop

análise de log é um caso de uso comum para um projeto Hadoop inaugural. Na verdade, os primeiros usos de Hadoop foram para a análise em grande escala de clickstream

registros - registros que dados de registro sobre as páginas da web que as pessoas visitam e em que ordem eles visitá-los.

Video: Hadoop Tutorial: Analyzing Server Logs

Todos os logs de dados gerados por sua infraestrutura de TI muitas vezes são referidos como escape dados. Um log é um subproduto de um servidor de funcionamento, bem como fumaça saindo do tubo de escape de um motor a trabalhar. escape de dados tem a conotação de poluição ou resíduos, e muitas empresas sem dúvida abordar este tipo de dados com esse pensamento em mente.

Registro de dados, muitas vezes cresce rapidamente, e por causa dos altos volumes produzidos, pode ser tedioso para analisar. E, o valor potencial destes dados é muitas vezes pouco claros. Assim, a tentação em departamentos de TI é armazenar esses dados de log para tão pouco tempo quanto possível. (Afinal, isso custa dinheiro para manter os dados, e se não há nenhum valor de negócio percebida, por armazená-lo?)

Mas Hadoop muda a matemática: O custo de armazenamento de dados é relativamente barato, e Hadoop foi originalmente desenvolvido especialmente para o processamento de lotes em grande escala de dados de registo.

O caso de dados de log análise de uso é um lugar útil para iniciar sua jornada Hadoop, porque as chances são boas de que os dados que você trabalhar com está sendo excluído, ou “caiu no chão.” Algumas empresas que consistentemente gravar um terabyte (TB) ou mais da atividade web do cliente por semana descartar os dados sem análise (o que faz você se perguntar por que eles incomodado para coletá-lo).

Video: Hadoop Tutorial - Analyze Apache logs and build your own Web Analytics dashboard in Hue

Para começar rapidamente, os dados neste caso de uso é provável fácil de obter e geralmente não abrange os mesmos problemas que você vai encontrar se você iniciar a sua viagem Hadoop com outros dados (regidas).

Quando os analistas da indústria discutem os volumes rapidamente crescentes de dados que existem (4,1 exabytes a partir de 2014 - discos rígidos mais de 4 milhões de 1TB), ingresse contas de dados por grande parte deste crescimento. E não admira: Quase todos os aspectos da vida agora resulta na geração de dados. Um smartphone pode gerar centenas de entradas de log por dia para um usuário ativo, acompanhamento não só de voz, texto e transferência de dados, mas também dados de geolocalização.

A maioria das famílias agora têm medidores inteligentes que registram seu uso de eletricidade. carros mais novos têm milhares de sensores que os aspectos de registro de sua condição e uso. Cada clique e mouse movimento que você faz enquanto navega na Internet provoca uma cascata de entradas de log a ser gerado.

Toda vez que você comprar algo - mesmo sem usar um cartão de crédito ou cartão de débito - sistemas de registrar a atividade em bancos de dados - e em toras. Você pode ver algumas das fontes mais comuns de dados log: servidores de TI, clickstreams web, sensores e sistemas de transação.

Cada setor (assim como todos os tipos de registro que acabamos de descrever) têm o potencial enorme para análise valioso - especialmente quando você pode se concentrar em um tipo específico de atividade e depois correlacionar suas descobertas com um outro conjunto para fornecer o contexto de dados.

Como exemplo, considere isto navegação e compras experiência típica baseado na web:

Você navegar no site, à procura de itens para comprar.

  • Você clique para ler as descrições de um produto que chama a sua atenção.



  • Eventualmente, você adicionar um item ao seu carrinho de compras e siga para o check-out (a ação de compra).

  • Depois de ver o custo do transporte, no entanto, você decidir que o item não vale a pena o preço e você fechar a janela do browser. Cada clique que você fez - e depois parou de fazer - tem o potencial de oferecer informações valiosas para a empresa por trás deste site de e-commerce.

    Neste exemplo, suponha que este negócio recolhe dados de fluxo de cliques (dados sobre cada clique do mouse e exibição de página que um visitante “toca”) com o objetivo de compreender como para melhor atender seus clientes. Um desafio comum entre as empresas de e-commerce é reconhecer os fatores-chave por trás carrinhos de compras abandonados. Quando você executa uma análise mais profunda sobre os dados de fluxo de cliques e examinar o comportamento do usuário no site, os padrões são obrigados a surgir.

    A sua empresa sabe a resposta para a aparentemente simples pergunta, “são determinados produtos abandonados mais do que outros?” Ou a resposta para a pergunta: “Quanta receita pode ser recapturado se você diminuir o abandono do carro em 10 por cento?” A seguir dá uma exemplo do tipo de relatórios que você pode mostrar a seus líderes empresariais a buscar o seu investimento em sua causa Hadoop.

    Para chegar ao ponto onde você pode gerar os dados para construir os gráficos mostrados, você isolar as sessões de navegação na web de usuários individuais (um processo conhecido como sessionization), identificar o conteúdo de suas compras, em seguida, estabelecer o estado da transação no final da sessão - tudo através da análise dos dados de fluxo de cliques.

    A seguir é um exemplo de como montar sessões de navegação na web dos usuários, agrupando todos os cliques e endereços URL de endereço IP.

    Em um contexto Hadoop, você está sempre trabalhando com chaves e valores - cada fase de insumos MapReduce e dados de saídas em conjuntos de chaves e valores. A chave é o endereço IP, eo valor consiste na timestamp ea URL. Durante a fase de mapa, sessões de usuário são montados em paralelo para todos os blocos do conjunto de dados clickstream que está armazenado no seu cluster Hadoop arquivo.

    A fase mapa devolve estes elementos:

    • A página final que visitou

    • Uma lista de itens no carrinho de compras

    • O estado da transação para cada sessão do usuário (indexada pela chave de endereço IP)

    O redutor pega esses registros e executa agregações para totalizar o número eo valor dos carros abandonados por mês e para fornecer totais das páginas finais mais comuns que alguém vistos antes de terminar a sessão do usuário.


    Publicações relacionadas