Como criar um modelo de aprendizagem não supervisionado com deslocamento médio
Video: Criar um Modelo de Gráfico
Conteúdo
Um algoritmo de agrupamento oferecido em scikit-learn
que pode ser usado em análise preditiva é o algoritmo de deslocamento médio. Este algoritmo, como DBSCAN, não requer que você especifique o número de clusters, ou quaisquer outros parâmetros, ao criar o modelo. O parâmetro de ajuste primário para este algoritmo é chamado de largura de banda
parâmetro. Você pode pensar em largura de banda
como escolher o tamanho de uma janela redonda que pode abranger os pontos de dados em um cluster. A escolha de um valor para a largura de banda não é trivial, então vá com o padrão.
Executando o conjunto de dados completo
Os passos para criar um novo modelo com um algoritmo diferente é essencialmente o mesmo cada vez:
- Abra uma nova sessão do shell interativo do Python.
Use uma nova sessão Python para que a memória é clara e você tem uma ardósia limpa para trabalhar. - Cole o seguinte código no alerta e observar a saída:
gt; gt; gt; de load_iris sklearn.datasets importação
gt; gt; gt; íris = load_iris ()
- Criar uma instância de deslocamento médio. Digite o seguinte código para o intérprete:
gt; gt; gt; de sklearn.cluster MeanShift importação
gt; gt; gt; ms = MeanShift ()
Significa mudança criado com valor padrão para largura de banda. - Verificar quais parâmetros foram utilizados, digitando o seguinte código para o intérprete:
gt; gt; gt; Senhora
MeanShift (largura de banda = None, bin_seeding = False, cluster_all = True, min_bin_freq = 1, n_jobs = 1, sementes = None)
- Ajustar os dados da íris para o algoritmo significativo deslocamento agrupamento digitando o seguinte código para o intérprete:
gt; gt; gt; ms.fit (iris.data)
Para verificar o resultado, digite o seguinte código para o intérprete:
gt; gt; gt; ms.labels_
matriz ([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
A média de deslocamento produzidos dois conjuntos (0 e 1).
Video: Como fazer um model MMD
Visualizar os cachos
Um gráfico de dispersão é uma boa maneira de visualizar o relacionamento entre um grande número de pontos de dados. É útil para identificar visualmente os conjuntos de dados e encontrar pontos de dados que estão distantes de clusters formados.
Vamos produzir um gráfico de dispersão da saída DBSCAN. Digite o seguinte código:
gt; gt; gt; Pylab importação como pl
gt; gt; gt; de sklearn.decomposition PCA importação
gt; gt; gt; PCA = PCA (n_components = 2) .fit (iris.data)
gt; gt; gt; pca_2d = pca.transform (iris.data)
gt; gt; gt; pl.figure ( `Figura 13-7`)
gt; gt; gt; para i na gama (0, pca_2d.shape [0]):
gt; gt; gt; se ms.labels_ [i] == 1:
Video: Como fazer uma Dashboard no Excel | Tabelas Dinâmicas
gt; gt; gt; c1 = pl.scatter (pca_2d [i, 0], pca_2d [i, 1], c `r` =,
marcador = `+`)
gt; gt; gt; elif ms.labels_ [i] == 0:
gt; gt; gt; c2 = pl.scatter (pca_2d [i, 0], pca_2d [i, 1], c = `g`,
marcadoras = `o`)
gt; gt; gt; pl.legend ([c1, c2], [ `Cluster 1`, `Cluster 2`)]
gt; gt; gt; pl.title ( `deslocamento médio encontra-2 clusters)
gt; gt; pl.show ()
A saída gráfico de dispersão deste código é mostrada aqui.
Video: Criando Temas / Modelos para Power Point 2007 / 2010
deslocamento significativo encontrado dois aglomerados. Você pode tentar ajustar o modelo com o largura de banda
parâmetro para ver se você pode obter uma solução de três cluster. de deslocamento médio é muito sensível para a largura de banda
parâmetro:
- Se o valor escolhido é muito grande, então os clusters tendem a combinar e o resultado final será um número menor de clusters do que o desejado.
- Se o valor escolhido é muito pequeno, então o algoritmo pode produzir muitos aglomerados e levará mais tempo para ser executado.
Avaliando o modelo
A média de mudança não produziu os resultados ideais com os parâmetros por defeito para o conjunto de dados da íris, mas uma solução de dois aglomerado está de acordo com outros algoritmos de agrupamento. Cada projeto tem de ser analisado individualmente para ver o quão bem o número de conjunto se encaixa o problema de negócio.
A vantagem óbvia de usar turno dizer é que você não tem que predeterminar o número de clusters. Na verdade, você pode usar o deslocamento médio como uma ferramenta para encontrar o número de clusters para criar um K-means modelo. deslocamento médio é frequentemente usado para aplicações de visão de computador porque ele é bom em dimensões inferiores, acomoda grupos de qualquer forma, e acomoda grupos de qualquer tamanho.