Métricas de similaridade usados em ciência de dados
Ambos agrupamento e de classificação são baseados no cálculo da similaridade ou diferença entre dois pontos de dados. Se o conjunto de dados é numérico - composta por apenas campos e valores numéricos - e pode ser retratado em um n-enredo dimensional, então existem várias métricas geométricas que podem ser usados para dimensionar seus dados multidimensionais.
A lote n-dimensional é um gráfico gráfico de dispersão multidimensional que você pode usar para traçar n número de dimensões de dados.
Algumas métricas geométricas populares usados para calcular as distâncias entre os pontos de dados incluem euclidiana, Manhattan, ou métricas de distância Minkowski. Estas métricas são apenas diferentes funções geométricas que são úteis para distâncias de modelagem entre os pontos. A métrica Euclidiana é uma medida da distância entre pontos plotados em um plano euclidiano.
o Manhattan métrica é uma medida da distância entre os pontos em que a distância é calculada como a soma do valor absoluto das diferenças entre as duas coordenadas cartesianas do ponto. A métrica de distância Minkowski é uma generalização das métricas de distância Euclidiana e Manhattan. Muitas vezes, essas métricas podem ser usados alternadamente.
Se os dados forem numéricos, mas não plottable (como curvas em vez de pontos), você pode gerar pontuações de similaridade com base em diferenças entre os dados, em vez dos valores reais de dados em si.
Video: Intodução à Ciência de Dados
Por último, para dados não-numéricos, você pode usar métricas como a distância Jaccard métrica, que é um índice que compara o número de recursos que dois pontos de dados têm em comum. Por exemplo, para ilustrar uma distância Jaccard, pensar sobre os dois seguintes cadeias de texto: Saint Louis de Ha-ha, Quebec e St-Louis de Ha! Ha !, QC.
Quais são as características que essas cadeias de texto têm em comum? E que características são diferentes entre eles? O Jaccard métrica gera um valor de índice numérico que quantifica a semelhança entre cadeias de texto.