Fundamentos da k-meio e modelos de agrupamento dbscan para análise preditiva

aprendizagem não supervisionada tem muitos desafios para análise preditiva - incluindo não saber o que esperar quando você executar um algoritmo. Cada algoritmo irá produzir para os resultados diferentes que você nunca vai ter certeza se um resultado é melhor que o outro - ou mesmo se o resultado é de qualquer valor.

Quando você sabe o que os resultados devem ser, você pode ajustar os algoritmos para produzir os resultados desejados. Em conjuntos de dados do mundo real, você não terá esse luxo. Você vai ter que depender de algum conhecimento prévio dos dados - ou intuição - para decidir quais parâmetros de inicialização e algoritmos para usar como você criar o seu modelo.

Em tarefas reais de aprendizagem não supervisionada, no entanto, este conhecimento prévio não está disponível e o resultado desejado é difícil de encontrar. Escolhendo o número certo de clusters é o problema fundamental. Se acontecer de você tropeçar em cima o número certo de clusters, os seus dados irá produzir insights que você pode fazer previsões de alta precisão. Por outro lado, supondo que o número errado de aglomerados pode produzir resultados abaixo da média.

K-means é uma boa escolha para conjuntos de dados que têm um pequeno número de clusters com tamanhos proporcionais e dados linearmente separáveis ​​- e você pode aumentá-lo para usar o algoritmo em grandes conjuntos de dados.



Imagine linearmente separáveis dados como um grupo de pontos num gráfico que podem ser separados utilizando uma linha recta. Se os dados não são linearmente separáveis, então versões mais avançadas de K-means terá que ser empregues - que vai tornar-se mais caro computacionalmente e podem não ser adequados para grandes conjuntos de dados. Na sua aplicação padrão, a complexidade para calcular os centros de fragmentação e as distâncias é baixo.

K-means é amplamente empregado para resolver os problemas de dados grande, porque é simples de usar, eficaz e altamente escalável. Não admira que a maioria dos fornecedores comerciais usar o K-means como um componente chave de seus pacotes de análise preditiva.

O DBSCAN (Clustering Espacial Baseado em Densidade de aplicações com ruído) implementação em scikit-learn não requer quaisquer parâmetros de inicialização definidos pelo usuário para criar uma instância. Você pode substituir os parâmetros padrão durante a inicialização se quiser. Infelizmente, se você estiver usando os parâmetros padrão, o algoritmo não pode fornecer uma partida perto do resultado desejado.

DBSCAN é mais adequado para conjuntos de dados que têm tamanhos de cluster desproporcionais, e cujos dados podem ser separados de uma forma não-linear. Como K-means, DBSCAN é escalável, mas usá-lo em grandes conjuntos de dados requer mais memória e poder de computação.


Publicações relacionadas