Como utilizar-k significa algoritmos de agrupamento em análise preditivo
K
Conteúdo
Escolher k itens aleatórios do conjunto de dados e classificá-los como representantes do cluster.
Video: Curso de C++ - Aula 95 - Agrupamento (Clustering) - K-Means
Associar cada item remanescente no conjunto de dados com um representante da mais próxima aglomerado, utilizando uma distância Euclidiana calculadas por uma função de similaridade.
Video: tutorial análise de cluster
Recalcular representantes dos novos clusters.
Repita as etapas 2 e 3 até que os clusters não mudam.
Video: Algoritmos de agrupamento
Um representante de um cluster é o matemático significar (Média) de todos os itens que pertencem ao mesmo cluster. Este representante também é chamado de centróide aglomerado. Por exemplo, considere três itens do conjunto de dados de frutas, onde
Tipo 1 corresponde às bananas.
Tipo 2 corresponde às maçãs.
Cor 2 corresponde a amarelo.
Cor 3 corresponde a verde.
Assumindo que estes artigos são atribuídos ao mesmo grupo, o centróide destes três artigos é calculada.
Item | Característica # 1 Tipo | Característica # 2 Cor | Característica # 3 Peso (Onças) |
---|---|---|---|
1 | 1 | 2 | 5.33 |
2 | 2 | 3 | 9.33 |
3 | 1 | 2 | 2.1 |
Aqui estão os cálculos de um representante conjunto de três itens que pertencem ao mesmo cluster. O representante aglomerado é um vector de três atributos. Seus atributos são a média dos atributos dos itens do cluster em questão.
Item | Característica # 1 Tipo | Característica # 2 Cor | Característica # 3 Peso (Onças) |
---|---|---|---|
1 | 1 | 2 | 5.33 |
2 | 2 | 3 | 9.33 |
3 | 1 | 2 | 2.1 |
Representante Cluster (Vector Centróide) | (1 + 2 + 1) /3=1.33 | (2 + 3 + 2) /3=2.33 | (5,33 + 9,33 32,1) / 3 = 3 |
O conjunto de dados mostrado a seguir consiste em avaliações de dois produtos, A e B. sete clientes O ranking representa o número de pontos (entre 0 e 10) que cada cliente tenha dado a um produto - mais pontos dada, quanto maior o produto é classificado.
Utilizando um algoritmo K-means e assumindo que k é igual a 2, o conjunto de dados irá ser dividida em dois grupos. O resto do procedimento se parece com isso:
Video: k-Means
Escolha dois itens aleatórios do conjunto de dados e classificá-los como representantes do cluster.
O seguinte mostra a etapa inicial de selecção centroides aleatórias a partir do qual o K-means processo de agrupamento começa. Os centróides iniciais são selecionados aleatoriamente a partir dos dados que você está prestes a analisar. Neste caso, você está procurando dois clusters, então dois itens de dados são selecionados aleatoriamente: Clientes 1 e 5.
Em primeiro lugar, o processo de agrupamento cria dois conjuntos em torno desses dois representantes de fragmentação iniciais (escolhidos aleatoriamente). Em seguida, os representantes cluster são recalculated- o cálculo baseia-se nos itens em cada cluster.
Identificação do Cliente Avaliações de Clientes do Produto A Avaliações de Clientes do Produto B 1 2 2 2 3 4 3 6 8 4 7 10 5 10 14 6 9 10 7 7 9 Inspecione todos os outros itens (cliente) e atribuí-lo ao representante do cluster ao qual é mais similar.
Use o Distância euclidiana para calcular como semelhante um item é um grupo de itens:
Semelhança do inciso I ao Cluster X = sqrt {{{esquerda ({{f_1} - {x_1}} direita)} ^ 2} + {{left ({{f_2} - {x_2}} direita)} ^ 2} + cdots + {{esquerda ({{f_n} - {x_n}} direita)} ^ 2}}
Os valores {f_1}, - {f_2}, - ldots, - {f_n} são os valores numéricos das características que descrevem o item em questão. Os valores {x_1}, - {X_2}, -, - {ldots x_n} são as características (valores médios) de representante do cluster (centróide), assumindo que cada item tem n características.
Por exemplo, considere o item chamado Cliente 2 (3, 4): classificação do cliente para o produto A foi de 3 ea classificação para o produto B foi 4. O recurso representante cluster é (2, 2). A semelhança de cliente 2 para Cluster 1 é calculada como se segue:
Semelhança do ponto 2 para Cluster 1 = sqrt {{{esquerda ({3-2} direita)} ^ 2} + {{à esquerda ({4-2} direita)} ^ 2}} = 2,23
Aqui está o que o mesmo processo se parece com Cluster 2:
Semelhança do ponto 2 para o grupo 2 = sqrt {{{esquerda ({3-10} direita)} ^ 2} + {{à esquerda ({4-14} direita)} ^ 2}} = 12,20
Comparando estes resultados, você atribuir o item 2 (isto é, Cliente 2) para o cluster 1 porque os números dizem item 2 é mais semelhante ao cluster 1.
Aplicar a mesma análise de similaridade para todos os outros itens no conjunto de dados.
Cada vez que um novo membro se junta a um cluster, você deve recalcular o representante do cluster.
Isto descreve os resultados da primeira iteração do algoritmo K-média. Notar que k é igual a 2, de modo que você está procurando dois clusters, que divide um conjunto de clientes em dois grupos significativos. Cada cliente é analisado separadamente e é atribuído a um dos grupos com base na similaridade do cliente a cada um dos representantes de cluster atuais.
Iteração o conjunto de dados de novo, passando por todos os compute element- a semelhança entre cada elemento e seu representante cluster atual.
Observe que o Cliente 3 moveu-se a partir de um Cluster ao Cluster 2. Isto porque Cliente 3 da distância para o representante aglomerado de Cluster 2 é mais estreita do que para o representante aglomerado de Cluster 1.
Representante Cluster (Vector Centróide) Cluster 1 ID do cliente # 1 (2, 2) Cluster 2 ID do cliente # 5 (10,14) Iteração # 1 Cluster do cliente 1 Cluster cliente 2 Cliente a ser examinado IDs de clientes pertencentes a Cluster 1 Representante Cluster IDs de clientes pertencentes a Cluster 1 Representante Cluster 1 (2, 2) 5 (10, 14) 2 1, 2 (2,4, 3) 5 (10, 14) 3 1, 2, 3 (3.6, 4.6) 5 (10, 14) 4 1, 2, 3 (3.6, 4.6) 4, 5 (8,4, 12) 6 1, 2, 3 (3.6, 4.6) 4, 5, 6 (8,6, 11,4) 7 1, 2, 3 (3.6, 4.6) 4, 5, 6, 7 (8,2, 10,8)
Aqui está uma segunda iteração do K-means em dados do cliente. Cada cliente está sendo re-analisados. Cliente 2 está sendo atribuído ao cluster 1 por cliente 2 está mais perto do representante do Cluster 1 de Cluster 2. O mesmo cenário se aplica ao cliente 4. Observe que um representante cluster está sendo recalculada cada vez que um novo membro é atribuído a um cluster.
Iteração # 2 | Cluster do cliente 1 | Cluster cliente 2 | ||
---|---|---|---|---|
Cliente a ser examinado | IDs de clientes pertencentes a Cluster 1 | Representante Cluster | IDs de clientes pertencentes a Cluster 2 | Representante Cluster |
1 | 1 | (3.6, 4.6) | 5 | (8,2, 10,8) |
2 | 1, 2 | (5,2, 3) | 5 | (8,2, 10,8) |
3 | 1, 2 | (5,2, 3) | 5,3 | (7.8, 10.2) |
4 | 1, 2 | (5,2, 3) | 4, 5.3 | (7.8, 10.2) |
6 | 1, 2 | (5,2, 3) | 4, 5, 6,3 | (7.8, 10.2) |
7 | 1, 2 | (5,2, 3) | 3, 4, 5, 6, 7 | (7.8, 10.2) |