Como agrupar por vizinhos mais próximos em análise preditiva
Os vizinhos mais próximos é um simples algoritmo amplamente utilizado na análise preditiva para agrupar dados através da atribuição de um item para um cluster por determinar o que outros itens são mais semelhantes a ele. Um uso típico do algoritmo vizinhos mais próximos segue estes passos:
Conteúdo
Derivar uma matriz de similaridade entre os itens no conjunto de dados.
Esta matriz, referido como o matriz de distância, manterá os valores de similaridade para cada item no conjunto de dados. (Estes valores são elaborados em detalhe no exemplo seguinte.)
Com a matriz no lugar, comparar cada item no conjunto de dados para todos os outros itens e calcular o valor de similaridade.
Usando a matriz de distância, examinar cada item para ver se a distância para os seus vizinhos é inferior a um valor que você definiu.
Este valor é chamado de limite.
O algoritmo coloca cada elemento em um cluster separado, analisa os itens, e decide quais itens são semelhantes, e adiciona itens semelhantes para o mesmo cluster.
O algoritmo pára quando todos os itens foram examinados.
Video: Agrupando Objetos e Selecionando Grupos | Adobe Illustrator
Considere-se, um conjunto de dados de oito localizações geográficas onde as pessoas vivem. O objetivo é dividir estes indivíduos em grupos com base em suas localizações geográficas, conforme determinado pelo Sistema de Posicionamento Global.
Este gráfico mostra um conjunto de dados simples de dados geográficos dos indivíduos. Suponha que todos os dados recolhidos sobre estes oito indivíduos foi coletada em um ponto específico no tempo.
ID individual | GPS - Longitude Geográfica | GPS - Latitude Geográfica |
---|---|---|
1 | 2 | 10 |
2 | 2 | 5 |
3 | 8 | 4 |
4 | 5 | 8 |
5 | 7 | 5 |
6 | 6 | 4 |
7 | 1 | 2 |
8 | 4 | 9 |
Tal como acontece com K-means, o primeiro pré-passo é calcular os valores de semelhança para cada par de indivíduos. Uma maneira de calcular a similaridade entre dois itens é determinar a distância euclidiana. O valor de similaridade entre dois pontos é calculado como mostrado anteriormente.
Similaridade entre ponto A e ponto B =
√ (fum, 1 - fb, 1) 2 + (fum, dois - fb, 2) 2+ ... + (fa - fb, n) 2
aqui fum, 1 é a primeira característica do item A, fum, dois é a segunda característica de número A, e os valores correspondentes marcado b representam as características do item B. A variável n é o número de recursos. Neste exemplo, n é 2. Por exemplo, a semelhança entre o número 1 e número 2 é calculada como se segue:
Similaridade entre Número 1 e Número 2 = √ (2-2)2 +(10-5) 2 = 5
Com base esta medida de similaridade entre os itens, você pode usar o algoritmo do vizinho mais próximo para extrair os clusters do conjunto de dados de localizações geográficas.
O primeiro passo é colocar o indivíduo cujo código é 1, longitude é 2, e latitude 10 é em C1 cluster. Em seguida, ir através de todos os indivíduos restantes computação como semelhante cada um é para o indivíduo em C1.
Se a similaridade entre individual 1 e um outro indivíduo X é menor do que 4,5, então Pessoa X irá juntar-se C1 caso contrário você criar um novo cluster para acomodar Individual X.
O seguinte mostra as semelhanças e as relações numéricas entre os indivíduos de 1 a 8. A semelhança destes elementos de dados é calculado como uma distância Euclidiana.
Indivíduos com valores de similaridade mais próximo de 0 tem maior similaridade. Metade da matriz não foi preenchido porque a matriz é simétrico.
# Individual 1 | Indivíduo # 2 | Individual # 3 | Indivíduo # 4 | Individual # 5 | # Indivíduo 6 | Individual # 7 | Individual # 8 | |
---|---|---|---|---|---|---|---|---|
# Individual 1 | 0 | 5 | 6 | 3,6 | 7,07 | 7,21 | 8,062 | 2,23 |
Indivíduo # 2 | 0 | 6.8 | 4,24 | 5 | 4.12 | 3,16 | 4,47 | |
Individual # 3 | 0 | 5 | 1,41 | 1,41 | 7,28 | 6,40 | ||
Indivíduo # 4 | 0 | 3.31 | 4.12 | 7,21 | 1,41 | |||
Individual # 5 | 0 | 1,41 | 6,70 | 5 | ||||
# Indivíduo 6 | 0 | 5,38 | 5,38 | |||||
Individual # 7 | 0 | 7,61 | ||||||
Individual # 8 | 0 |
Está agora têm atribuído um Pessoa para o primeiro grupo (C1). A semelhança entre uma Pessoa e individual 2 é igual a 5, o qual é maior do que o valor limiar de 4,5. Um novo conjunto é gerada - e individual 2 pertence a ele. Nesta fase, há duas aglomerados de um item de cada: C1 = {1} individual e C2 = {2} individual.
Mover o foco para Individual 3, você acha que a semelhança entre Individual 3 e Individual 2 & 1 é maior do que o valor limiar de 4,5. Assim atribui Pessoa 3 para um novo aglomerado contendo um item de: C3 = {3} individual.
Movendo-se para Pessoa 4, a calcular como semelhante individual 4 é para indivíduos 1, 2, e 3. O mais próximo (mais semelhante) para Pessoa 4 passa a ser individual 1. A semelhança entre 4 e 1 é de cerca de 3,6, o que é menos do que o valor limite 4.5.
Pessoa 4 junta-se um indivíduo em C1 cluster.
Em seguida é para examinar individual 5 e calcular a semelhança é a indivíduos 1, 2, 3, e 4. O ponto mais próximo na distância (mais semelhante) para individual 5 é individual 3. A semelhança é √2, o que é menos do que o valor limite de 4,5. Assim individual 5 junta-se C3.
Quando você examinar Individual 6 e calcular como ele é similar para indivíduos 1, 2, 3, 4 e 5, você descobre que o indivíduo 3 é mais próxima (mais similar) para indivíduo 6. Assim Individual 6 junta C3.
Quando você examinar Individual 7 e calcular como ele é similar para indivíduos 1, 2, 3, 4, 5 e 6, você achar que o (mais semelhante) o artigo mais próxima de 7 Individual é individual 2. Assim Individual 7 junta-se C2.
Video: NOVA • Conhecendo o Espírito Santo p.3 • com Mauricio Fragale
Quando você examinar Individual 8, e calcular sua semelhança com indivíduos 1, 2, 3, 4 e 5, você achar que o (mais semelhante) o artigo mais próximo Individual 8 é individual 4. Assim Individual 8 junta C1.
Os conjuntos construídos até agora, contendo itens mais semelhantes um ao outro, são
C1 = {1 Pessoa, individual 4, 8} Pessoa
C2 = {individual 2, 7 Individual}
C3 = {individual 3, individual 5, 6} Pessoa