Agrupamento de dados com o algoritmo k-means

Você geralmente implantar k-meios algoritmos para subdividir os pontos de dados de um conjunto de dados em clusters com base em valores médios mais próximos. Para determinar a divisão ideal de seus pontos de dados em clusters, de tal forma que a distância entre os pontos em cada cluster é minimizado, você pode usar k-means clustering.

Video: Ejemplo del algoritmo k-means con R

Nos termo k-meio, k indica o número de grupos nos dados. Desde o algoritmo k-means não determinar isso, você é obrigado a especificar essa quantidade. A qualidade dos clusters é fortemente dependente da exactidão da k valor especificado. Se os dados estiverem dois ou três dimensões, uma série plausível de k Os valores podem ser visualmente determinável.

Na aproximação eyeballed de agrupamento do Banco Rendimento Mundial e Educação gráfico de dispersão dos dados, a estimativa visual da k valor equivaleria a 3 clusters, ou k = 3.

Se o seu conjunto de dados tem mais de três dimensões, no entanto, você pode usar métodos computacionais para gerar um bom valor para o k. Um tal método é a coeficiente de silhueta - um método que calcula a distância média de cada ponto de todos os outros pontos em um cluster, e em seguida, compara esse valor com a distância média a cada ponto em qualquer outro cluster. Felizmente, uma vez que o algoritmo k-means é tão eficiente, que não requer muito poder de processamento do computador, e você pode facilmente calcular este coeficiente para uma ampla gama de k valores.



O algoritmo de k-médias funciona colocando centros de cluster da amostra em um n-enredo dimensional e depois avaliar se movê-los em qualquer direção resultaria em um novo centro com maior densidade - com mais pontos de dados mais próximos a ele, em outras palavras.

Os centros são movidos a partir de regiões de densidade mais baixa para as regiões de maior densidade até que todos os centros estão dentro de uma região de densidade máxima locais - um verdadeiro centro do aglomerado, onde cada grupo recebe um número máximo de pontos mais próximos ao seu centro de cluster.

Video: 17-Redondeo vectorial-03-Algoritmo k-medias

Sempre que possível, você deve tentar colocar os centros mesmo, manualmente. Se isso não for possível, em seguida, basta colocar os centros aleatoriamente e executar o algoritmo várias vezes para ver quantas vezes você acaba com os mesmos clusters.

Uma fraqueza do algoritmo K-means é que ele pode produzir resultados incorrectos, colocando os centros de fragmentação em áreas de densidade mínimo local. Isso acontece quando os centros se perder em regiões de baixa densidade - em outras palavras, as regiões da trama que têm relativamente poucos pontos plotados neles - e o movimento direcional-driven algoritmo - o movimento que é feito para aumentar a densidade de pontos - começa a saltar e oscilam entre os clusters distantes.

Nestes casos, o centro fica preso em um espaço de baixa densidade, que está localizado entre dois ponto alto zones.This densidade resulta em aglomerados errôneas com base em torno de centros que convergem em áreas de baixa, densidade mínima local. Ironicamente, isso acontece na maioria das vezes quando os dados subjacentes é muito bem-agrupado, com regiões apertados, densas que são separadas por áreas amplas, escasso.

Para experimentar as coisas por si mesmo, você pode começar agrupando os seus dados com os métodos k-meios usando um R de grupo pacote ou Python SciPy biblioteca.


Publicações relacionadas