As associações entre variáveis binárias
Video: Estatística Descritiva - Associação entre duas variáveis qualitativas
Conteúdo
Muitas vezes em análise de clientes, você encontra dados binários que toma a forma de sim / não, compra / não compra, concordam / discordam, e assim por diante. Você precisa entender a associação entre variáveis binárias assim como você precisa entender a associação entre variáveis contínuas. Enquanto o princípio da correlação é a mesma com os dados binários, no entanto, os cálculos são diferentes.
Video: Estatística Descritiva - Associação entre uma variável quali e uma quanti
Um dos exemplos mais famosos e visíveis de análise preditiva com dados binários é o mecanismo de recomendação Amazon.
Enquanto o algoritmo exato Amazon usa é proprietário, sabe-se que muito do que é baseado em uma associação que indica que uma pessoa que compra um livro também compra outro livro. As recomendações são baseadas em variáveis binárias. Para gerar uma recomendação, Amazon calcula a proporção de clientes que comprarem um livro e a proporção dos mesmos clientes que comprarem qualquer número de outros livros.
Livros com a mais alta associação são recomendados em primeiro lugar, a próxima maiores associações seguinte, e assim por diante. A figura abaixo mostra as operações de 15 clientes em quatro livros. Estes apenas como provavelmente poderia ser software, mantimentos, canções em uma lista de reprodução, programas de TV, ou quaisquer produtos ou serviços os clientes podem escolher.
Se o cliente comprou o livro, há um 1 no row- se não o fizesse, há um 0. Por exemplo, o Cliente 1 comprada Livro Um e Livro B, mas não C ou D. Cliente 2 comprada único Livro B.
Para calcular a associação entre duas compras de livros, siga estes passos:
Contar o número de clientes que compraram cada uma dessas combinações de livros:
nem livro
ambos os livros
Apenas Book A
Só Livro B
Coloque os totais em uma tabela, assim:
livro B livro A Y N Y 6 2 N 3 4 Por exemplo, seis clientes comprei dois livros A e B.
Rotular a células da tabela A a D, assim:
livro B livro A Y N Y uma b N c d Utilizar a fórmula para a correlação entre as variáveis binárias:
Preencha os valores para os livros para encontrar a correlação entre variáveis binárias, como este:
Neste caso, a correlação entre os clientes que compram Livro Um e Livro B é 0,327.
A correlação entre as variáveis binárias é chamado phi, e é representado com o símbolo grego
Você pode interpretar a associação entre números binários da mesma forma que a correlação de Pearson r. Na verdade, phi é um método de atalho para a computação r. Você obtém os mesmos resultados usando a fórmula Excel Pearson e computação da correlação para todos os conjuntos de dados.
A figura a seguir mostra a configuração de dados no Excel. A correlação entre todos os pares de livros foi calculado usando o PEARSON = () função do Excel.
Em seguida, uma matriz de correlações foi criado para cada par de livros, como mostrado a seguir:
Video: Estatística - Correlação (Variáveis Quantitativa e Qualitativa) - Introdução
Confirmando o resultado anteriormente, a correlação entre o livro A e B é 0,33. A segunda maior correlao entre Book A e D no Livro 0,25.
A correlação entre Book B e C do livro é -.48. Esta correlação negativa significa que os clientes que compram Livro B são menos propensos a comprar Livro C.
Portanto, se um cliente está vendo e pensando em comprar Livro A, não faria sentido para recomendar (e, possivelmente, oferecer esse cliente um incentivo) para também comprar Livro B e D, mas não Livro C.
Video: GRINGS - Classificação de Variáveis aula 1
Você pode ouvir os termos Análise Basket ou Análise de afinidade. Ambos são apenas outros nomes para encontrar associações e correlações entre variáveis. É como examinar cestas de compras dos clientes em uma mercearia para ver quais itens são comprados juntos.