Análise de dados do vizinho mais próximo
Video: Algorítmo do Vizinho Mais Próximo
Conteúdo
Na sua essência, o objetivo de uma análise do vizinho mais próximo é o de procurar e localizar ou um ponto mais próximo no espaço ou valor numérico mais próximo, dependendo do atributo que você usar para a base de comparação.
Como a técnica do vizinho mais próximo é um método de classificação, você pode usá-lo para fazer coisas tão científica quanto deduzir a estrutura molecular de uma proteína humana vital ou descobrir relações evolutivas biológicas fundamentais, e como o negócio-driven como projetar motores de recomendação para os sites de e-commerce ou a construção de modelos preditivos para transações de consumo. As aplicações são ilimitadas.
Uma boa analogia para o conceito de análise do vizinho mais próximo é ilustrado na tecnologia GPS. Imagine que você está na necessidade desesperada de um café com leite gelado Starbucks, mas você não tem idéia de onde o mais próximo Starbucks está localizado. O que você faz? Uma solução fácil é simplesmente pedir seu smartphone onde o Starbucks mais próximo está localizado.
Video: aula6- Classificador K-NN (K vizinhos mais próximos)
Quando você faz isso, o sistema procura por entidades com Starbucks dentro de uma proximidade razoável de sua localização atual. Depois de gerar uma lista de resultados, os relatórios do sistema de volta para você com o endereço do café Starbucks mais próximo da sua localização actual - a Starbucks que é o seu vizinho mais próximo, em outras palavras.
Como o termo vizinho mais próximo indica, o objetivo principal de uma análise do vizinho mais próximo é o de examinar o conjunto de dados e encontrar o ponto de dados que é quantitativamente mais semelhante ao seu ponto de dados de observação. Note-se que as comparações de similaridade pode ser baseada em qualquer atributo quantitativa, mesmo que seja a distância, idade, renda, peso ou qualquer outra coisa que pode descrever os dados apontam que está investigando. O atributo comparativo mais simples é a distância.
Na analogia Starbucks acima, o x, y, z coordenadas da Starbucks informou a você por seu smartphone são os mais semelhante ao x, y, z coordenadas da sua localização actual. Em outras palavras, a sua localização é mais próximo da distância física real. o quantitativo atributo sendo comparado é a distância, a sua localização actual é a ponto de dados observação, e o café Starbucks relatado é o mais recurso semelhante.
análises vizinho mais próximo modernos são quase sempre realizados usando algoritmos computacionais. O algoritmo de vizinho mais próximo é conhecido como um algoritmo single-link - um algoritmo que combina os clusters se os grupos compartilham pelo menos um borda conjuntivo (Uma linha compartilhada limite, em outras palavras) entre eles.