As associações entre variáveis ​​binárias

Video: Estatística Descritiva - Associação entre duas variáveis qualitativas

Muitas vezes em análise de clientes, você encontra dados binários que toma a forma de sim / não, compra / não compra, concordam / discordam, e assim por diante. Você precisa entender a associação entre variáveis ​​binárias assim como você precisa entender a associação entre variáveis ​​contínuas. Enquanto o princípio da correlação é a mesma com os dados binários, no entanto, os cálculos são diferentes.

Video: Estatística Descritiva - Associação entre uma variável quali e uma quanti

Um dos exemplos mais famosos e visíveis de análise preditiva com dados binários é o mecanismo de recomendação Amazon.

Enquanto o algoritmo exato Amazon usa é proprietário, sabe-se que muito do que é baseado em uma associação que indica que uma pessoa que compra um livro também compra outro livro. As recomendações são baseadas em variáveis ​​binárias. Para gerar uma recomendação, Amazon calcula a proporção de clientes que comprarem um livro e a proporção dos mesmos clientes que comprarem qualquer número de outros livros.

Livros com a mais alta associação são recomendados em primeiro lugar, a próxima maiores associações seguinte, e assim por diante. A figura abaixo mostra as operações de 15 clientes em quatro livros. Estes apenas como provavelmente poderia ser software, mantimentos, canções em uma lista de reprodução, programas de TV, ou quaisquer produtos ou serviços os clientes podem escolher.

Se o cliente comprou o livro, há um 1 no row- se não o fizesse, há um 0. Por exemplo, o Cliente 1 comprada Livro Um e Livro B, mas não C ou D. Cliente 2 comprada único Livro B.

Para calcular a associação entre duas compras de livros, siga estes passos:

  1. Contar o número de clientes que compraram cada uma dessas combinações de livros:

  2. nem livro

  3. ambos os livros

  4. Apenas Book A

  5. Só Livro B

  6. Coloque os totais em uma tabela, assim:

    livro B
    livro AYN
    Y62
    N34

    Por exemplo, seis clientes comprei dois livros A e B.

  7. Rotular a células da tabela A a D, assim:

    livro B
    livro AYN
    Yumab
    Ncd


  8. Utilizar a fórmula para a correlação entre as variáveis ​​binárias:

  9. Preencha os valores para os livros para encontrar a correlação entre variáveis ​​binárias, como este:

    Neste caso, a correlação entre os clientes que compram Livro Um e Livro B é 0,327.

    A correlação entre as variáveis ​​binárias é chamado phi, e é representado com o símbolo grego

Você pode interpretar a associação entre números binários da mesma forma que a correlação de Pearson r. Na verdade, phi é um método de atalho para a computação r. Você obtém os mesmos resultados usando a fórmula Excel Pearson e computação da correlação para todos os conjuntos de dados.

A figura a seguir mostra a configuração de dados no Excel. A correlação entre todos os pares de livros foi calculado usando o PEARSON = () função do Excel.

Em seguida, uma matriz de correlações foi criado para cada par de livros, como mostrado a seguir:

Video: Estatística - Correlação (Variáveis Quantitativa e Qualitativa) - Introdução

Confirmando o resultado anteriormente, a correlação entre o livro A e B é 0,33. A segunda maior correlao entre Book A e D no Livro 0,25.

A correlação entre Book B e C do livro é -.48. Esta correlação negativa significa que os clientes que compram Livro B são menos propensos a comprar Livro C.

Portanto, se um cliente está vendo e pensando em comprar Livro A, não faria sentido para recomendar (e, possivelmente, oferecer esse cliente um incentivo) para também comprar Livro B e D, mas não Livro C.

Video: GRINGS - Classificação de Variáveis aula 1

Você pode ouvir os termos Análise Basket ou Análise de afinidade. Ambos são apenas outros nomes para encontrar associações e correlações entre variáveis. É como examinar cestas de compras dos clientes em uma mercearia para ver quais itens são comprados juntos.


Publicações relacionadas