Como utilizar mahout apache para análise preditiva

Video: Machine Learning with Mahout

Uma ferramenta de código aberto que é exclusivamente útil na análise preditiva é Apache Mahout. Esta biblioteca de aprendizado de máquina inclui versões em grande escala do clustering, classificação, filtragem colaborativa, e outros algoritmos de mineração de dados que podem apoiar um modelo de análise preditiva em grande escala.

Uma forma altamente recomendado para processar os dados necessários para um tal modelo é executar Mahout em um sistema que já está em execução Hadoop. Hadoop designa uma máquina de mestre que orquestra as outras máquinas (tais como máquinas de mapear e reduzir máquinas) empregados no seu processamento distribuído. Mahout deve ser instalado na máquina mestre.

Imagine que você tem grande quantidade de dados em streaming - artigos de notícias do Google - e você gostaria de agrupar por tópico, usando um dos algoritmos de agrupamento. Depois de instalar o Hadoop e Mahout, você pode executar um dos algoritmos - como K-means - em seus dados.

Video: Machine Learning with Mahout -Tutorial

A aplicação de K-means sob Mahout utiliza uma abordagem MapReduce, o que o torna diferente do normal aplicação de K-means. Mahout subdivide o K-means para estes sub-procedimentos:



  • KmeansMapper lê o conjunto de dados de entrada e irá atribuir cada ponto de entrada para os seus mais próximos meios selecionados inicialmente (representantes de fragmentação).

  • KmeansCombiner procedimento terá todos os registros - pares - produzidos por KmeansMapper e produz somas parciais para facilitar o cálculo dos representantes de cluster subseqüentes.

  • KmeansReducer recebe os valores produzidos por todas as subtarefas (combinadores) para calcular a centroides reais dos aglomerados, que é a saída final de K-means.

  • KmeansDriver lida com as iterações do processo até que todos os clusters têm convergido. A saída de uma dada iteração, uma saída de agrupamento parcial, é usado como entrada para a iteração seguinte. O processo de mapeamento e reduzindo o conjunto de dados até que a atribuição de registos e aglomerados mostram nenhuma mudança.

Video: Introduction to Apache Mahout | Edureka

Apache Mahout é um recentemente desenvolvido projeto- sua funcionalidade ainda tem muito espaço para acomodar extensões. Nesse meio tempo, Mahout já utiliza MapReduce para implementar classificação, clustering, e outras técnicas de aprendizado de máquina - e pode fazê-lo em grande escala.


Publicações relacionadas