Como criar um modelo de aprendizagem não supervisionado com deslocamento médio

Video: Criar um Modelo de Gráfico

Um algoritmo de agrupamento oferecido em scikit-learn que pode ser usado em análise preditiva é o algoritmo de deslocamento médio. Este algoritmo, como DBSCAN, não requer que você especifique o número de clusters, ou quaisquer outros parâmetros, ao criar o modelo. O parâmetro de ajuste primário para este algoritmo é chamado de largura de banda parâmetro. Você pode pensar em largura de banda como escolher o tamanho de uma janela redonda que pode abranger os pontos de dados em um cluster. A escolha de um valor para a largura de banda não é trivial, então vá com o padrão.

Executando o conjunto de dados completo

Os passos para criar um novo modelo com um algoritmo diferente é essencialmente o mesmo cada vez:

  1. Abra uma nova sessão do shell interativo do Python.
    Use uma nova sessão Python para que a memória é clara e você tem uma ardósia limpa para trabalhar.
  2. Cole o seguinte código no alerta e observar a saída:
    gt; gt; gt; de load_iris sklearn.datasets importação
    gt; gt; gt; íris = load_iris ()
  3. Criar uma instância de deslocamento médio. Digite o seguinte código para o intérprete:
    gt; gt; gt; de sklearn.cluster MeanShift importação
    gt; gt; gt; ms = MeanShift ()
    Significa mudança criado com valor padrão para largura de banda.
  4. Verificar quais parâmetros foram utilizados, digitando o seguinte código para o intérprete:
    gt; gt; gt; Senhora
    MeanShift (largura de banda = None, bin_seeding = False, cluster_all = True, min_bin_freq = 1, n_jobs = 1, sementes = None)
  5. Ajustar os dados da íris para o algoritmo significativo deslocamento agrupamento digitando o seguinte código para o intérprete:
    gt; gt; gt; ms.fit (iris.data)
    Para verificar o resultado, digite o seguinte código para o intérprete:

gt; gt; gt; ms.labels_

matriz ([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

A média de deslocamento produzidos dois conjuntos (0 e 1).

Video: Como fazer um model MMD

Visualizar os cachos

Um gráfico de dispersão é uma boa maneira de visualizar o relacionamento entre um grande número de pontos de dados. É útil para identificar visualmente os conjuntos de dados e encontrar pontos de dados que estão distantes de clusters formados.

Vamos produzir um gráfico de dispersão da saída DBSCAN. Digite o seguinte código:

gt; gt; gt; Pylab importação como pl

gt; gt; gt; de sklearn.decomposition PCA importação



gt; gt; gt; PCA = PCA (n_components = 2) .fit (iris.data)

gt; gt; gt; pca_2d = pca.transform (iris.data)

gt; gt; gt; pl.figure ( `Figura 13-7`)

gt; gt; gt; para i na gama (0, pca_2d.shape [0]):

gt; gt; gt; se ms.labels_ [i] == 1:

Video: Como fazer uma Dashboard no Excel | Tabelas Dinâmicas

gt; gt; gt; c1 = pl.scatter (pca_2d [i, 0], pca_2d [i, 1], c `r` =,

marcador = `+`)

gt; gt; gt; elif ms.labels_ [i] == 0:

gt; gt; gt; c2 = pl.scatter (pca_2d [i, 0], pca_2d [i, 1], c = `g`,

marcadoras = `o`)

gt; gt; gt; pl.legend ([c1, c2], [ `Cluster 1`, `Cluster 2`)]

gt; gt; gt; pl.title ( `deslocamento médio encontra-2 clusters)

gt; gt; pl.show ()

preditivos-Analytics-2e-média-deslocamento
de deslocamento médio encontra dois grupos.

A saída gráfico de dispersão deste código é mostrada aqui.

Video: Criando Temas / Modelos para Power Point 2007 / 2010

deslocamento significativo encontrado dois aglomerados. Você pode tentar ajustar o modelo com o largura de banda parâmetro para ver se você pode obter uma solução de três cluster. de deslocamento médio é muito sensível para a largura de banda parâmetro:

  • Se o valor escolhido é muito grande, então os clusters tendem a combinar e o resultado final será um número menor de clusters do que o desejado.
  • Se o valor escolhido é muito pequeno, então o algoritmo pode produzir muitos aglomerados e levará mais tempo para ser executado.

Avaliando o modelo

A média de mudança não produziu os resultados ideais com os parâmetros por defeito para o conjunto de dados da íris, mas uma solução de dois aglomerado está de acordo com outros algoritmos de agrupamento. Cada projeto tem de ser analisado individualmente para ver o quão bem o número de conjunto se encaixa o problema de negócio.

A vantagem óbvia de usar turno dizer é que você não tem que predeterminar o número de clusters. Na verdade, você pode usar o deslocamento médio como uma ferramenta para encontrar o número de clusters para criar um K-means modelo. deslocamento médio é frequentemente usado para aplicações de visão de computador porque ele é bom em dimensões inferiores, acomoda grupos de qualquer forma, e acomoda grupos de qualquer tamanho.


Publicações relacionadas