Como quantificar a força de um relacionamento com analytics
Você pode numericamente quantificar a força de uma associação usando a correlação do momento do produto Pearson. É muitas vezes chamado apenas o coeficiente de correlação e é representado pelo símbolo r.
Conteúdo
O coeficiente de correlação varia de um r de 1, o que indica uma correlação negativa perfeita a 1, o que significa uma perfeita correlação positiva. A figura mostra três exemplos de diagramas de dispersão que mostram uma correlação perfeita (negativor = -1), não há relações (r = 0), e uma relação positiva perfeito (r = 1).
Usando duas variáveis perfeitamente correlacionados não é útil. Eles estão redundant- se você tem o valor de uma variável, você pode perfeitamente prever o outro.
Na prática, as correlações são fraco a forte. Alguns exemplos de correlações de forças diferentes incluem:
Altura e peso: r = 0,8
Scholastic Aptitude Test (SAT) e primeiro ano da faculdade tipos: r = 0,5
Usabilidade e fidelização de clientes: r = 0,7
A correlação entre as variáveis significa que uma variável pode prever o valor da outra variável:
Video: - Relacionamento Assim Quem N Quer
Se você sabe a altura de um cliente, você pode estimar o seu peso.
Se você sabe o peso de um cliente, você pode estimar sua altura.
Mas porque estes não são correlações perfeitas, mais uma correlação é de 1 ou -1, mais de erro que você tem em predizer uma variável baseada no outro.
Calculando uma correlação
Você pode calcular o coeficiente de correlação com a mão, ou usar um software como o Excel para calcular isso para você.
Para calcular uma correlação de um conjunto de dados, usando a fórmula de correlação de Pearson, seguir estes passos. (A figura seguinte mostra os dados a ser utilizada neste exemplo).
Configure os dados em linhas e colunas em Excel.
Ter uma coluna para cada variável e IDs dos clientes. Cada linha deve representar dados o mesmo do cliente em duas variáveis. A figura a seguir mostra o tempo 17 clientes para fazer a compra e o número de torneiras necessários para a compra.
Em qualquer célula, tipo
= PEARSON (
Selecione todos os valores da primeira variável.
Os dados para o tempo indicado na coluna B e os dados vão de B2 célula para célula B182.
Digite uma vírgula (,) e selecione todos os valores para a segunda variável.
Estes dados aparece na coluna C, e os dados vai de C2 célula para célula C182.
Certifique-se de selecionar o mesmo número de valores para ambas as variáveis.
Video: Fim de relacionamentos
Fechar o parêntese e pressione Enter para obter a correlação.
PEARSON = (B2: B182, C2: C182)
A correlação para estes dados, entre torneiras e tempo, é 0,560666. Há uma correlação positiva entre o tempo e torneiras.
Interpretação da força de uma correlação
Uma vez que você calcular uma correlação, você precisa interpretar a força da relação. A correlação entre as torneiras e tempo é r = 0,56. É que uma forte correlação? Depende.
A força de correlação é dependente do contexto. Uma correlação “forte” em um contexto pode ser uma fraca correlação no outro. Depende de quanto de erro que você pode tolerar e as consequências para estar errado em suas previsões.
Prever o tempo de torneiras provavelmente não vai envolver uma perda de vida ou dinheiro, por isso é forte o suficiente para ser útil. Na verdade, é sobre a mesma força de uma associação entre o SAT e graus universitários de primeiro ano - onde há muita coisa em jogo!
Enquanto correlações são dependentes do contexto, ele pode ajudar a ter alguma orientação sobre o que você provavelmente verá com dados de análise de clientes. Um pesquisador famoso pelo nome de Jacob Cohen examinou correlações nas ciências do comportamento, algo semelhante ao que mede o comportamento do cliente, e desde que as seguintes regras com base em quão comum as correlações foram relatados na literatura peer-review:
Pequeno r = 0,10
Médio: r = .30
ampla r = .50
Portanto, uma interpretação simples de correlação de r = 0,56 entre torneiras e tempo é que é grande. Mas há outra maneira de interpretar o coeficiente de correlação.
Coeficiente de determinação r2
A multiplicação do coeficiente de correlação por si só (em quadratura com ele) produz uma métrica conhecido como o coeficiente de determinação. É representado como r2 (pronunciado r-quadrado) e proporciona um melhor modo de interpretar a força de uma relação.
Por exemplo, uma correlação de r = 0,5 ao quadrado se torna .25. Observe que r2 é muitas vezes expressa como uma percentagem, 25%. Para a correlação entre torneiras e tempo, os r2 é de 31%. Isso significa torneiras pode explicar 31% da variação no tempo. E, inversamente, o tempo explica 31% da variação na torneiras. Como você pode ver, mesmo uma forte correlação acima de r = 0,5 explica ainda uma minoria das diferenças entre variáveis.
Altura, por exemplo, explica cerca de 64% da variação de peso. Isso significa que saber a altura das pessoas irá explicar a maioria - mas não todos - de por que eles são um certo peso. Outros fatores explicam 36% da variação. Isso inclui coisas como exercício, hábitos alimentares, ou fatores genéticos que fazem algumas pessoas pesam mais a uma certa altura do que outros da mesma altura.
Use esta mesma abordagem ao correlacionar análise de clientes. Encontre a correlação, quadrado, e então interpretar o r-valor ao quadrado. Quando apostas são altas, você quer ter altas correlações e explicar a maior parte da variação entre as variáveis. Com análise de clientes, geralmente há múltiplas variáveis que predizem uma outra variável.
Correlação não é causalidade
Um dos conceitos mais importantes sobre a correlação que você vai ouvir repetidas, porque vale a pena repetir, é que a correlação não é causalidade. Isso significa que só porque uma variável está relacionada com outra, não significa uma variável é causada por outra variável. O tempo não causar torneiras. SAT não causam graus mais elevados. Net Promoter Scores não causam maior receita.
Você pode dizer que há uma associação, mas essa associação não implica causalidade.
Pode ser que um novo design faz com que as taxas de conversão maior site ou pode ser que um cupons aumenta as vendas mesmas lojas. No entanto, poderia haver outras variáveis que são realmente afetam a variável de resultado.
Por exemplo, pode ser que as vendas mesmas lojas já foram aumentando por causa de um aumento de clientes. Ou poderia ser que mais clientes estão se convertendo em um site (fazer uma compra) porque o site do concorrente vendido para fora do mesmo produto - não por causa de sua mudança de design do site. Sempre considere que outras variáveis podem estar afetando o relacionamento ao fazer declarações sobre causalidade.