Como para medir a covariância e correlação de amostras de dados
Ao comparar as amostras de dados a partir de populações diferentes, duas das medidas mais populares de associação são covariância
Conteúdo
Uma amostra é uma selecção escolhido aleatoriamente de elementos de uma população subjacente.
covariância amostra mede a força e a direcção da relação entre os elementos de duas amostras, e a correlação amostra é derivada da covariância. A covariância de amostra entre duas variáveis, X e Y, é
Aqui está o que cada elemento nessa equação significa:
sXY = A covariância amostra entre variáveis X e Y (Os dois subscritos indicam que esta é a covariância amostra, não o desvio padrão da amostra).
Video: Resumo Covariância e Correlação
n = O número de elementos em ambas as amostras.
Eu = um índice que atribui um número a cada elemento da amostra, variando de 1 a n.
XEu = Um único elemento na amostra para X.
YEu = Um único elemento na amostra para Y.
A covariância amostra pode ter qualquer valor positivo ou negativo.
Você calcular a amostra de correlação (Também conhecido como a amostra coeficiente de correlação) entre X e Y directamente a partir da amostra de covariância com a seguinte fórmula:
Os termos-chave nesta fórmula são
rXY = Correlação amostra entre X e Y
sXY = Covariância amostra entre X e Y
sX = Desvio padrão da amostra X
sY = Desvio padrão da amostra Y
Video: COVARIÂNCIA E REGRESSÃO LINEAL
A fórmula utilizada para calcular o coeficiente de correlação amostra assegura que o seu valor varia entre -1 e 1.
Por exemplo, suponha que você ter uma amostra dos retornos das ações da Excelsior Corporation e a Adirondack Corporação dos anos de 2008 a 2012, como mostrado aqui:
Ano | Excelsior Corp. Retorno anual (por cento) (X) | Adirondack Corp. Retorno Anual (por cento) (Y) |
---|---|---|
2008 | 1 | 3 |
2009 | -2 | 2 |
2010 | 3 | 4 |
2011 | 0 | 6 |
2012 | 3 | 0 |
Quais são a covariância e correlação entre os retornos das ações? Para descobrir isso, você primeiro tem que encontrar a média de cada amostra. Neste exemplo, X representa os retornos para Excelsior e Y representa os retornos de Adirondack.
A média das amostras X é
Você obter a média da amostra pela soma de todos os elementos da amostra e dividindo pelo tamanho da amostra. Neste caso, os elementos de amostras de resumir a 5 e a dimensão da amostra é 5. Divisória estes números dá uma média da amostra de 1.
A média das amostras Y é
Esta tabela mostra os cálculos restantes para a covariância amostra:
Na tabela, o
coluna representa as diferenças entre cada retorno à Excelsior na amostra e a amostra quer dizer- semelhante, o
coluna representa os mesmos cálculos para Adirondack. As entradas no
coluna igual ao produto das entradas nas duas colunas anteriores. A soma do
coluna contém o numerador na fórmula amostra covariância:
O denominador é igual a um menos o tamanho da amostra, o que é 5 - 1 = 4. (Ambas as amostras tem cinco elementos, n = 5.) Portanto, a covariância amostra é igual
Video: Covariância Estatística
Para calcular o coeficiente de correlação de exemplo, dividir a covariância amostra pelo produto do desvio padrão da amostra de X e o desvio padrão da amostra de Y:
Você encontra o desvio padrão da amostra de X calculando a variação da amostra de X e, em seguida, tomando a raiz quadrada do resultado. A tabela mostra os cálculos para a variância da amostra de X.
Na tabela, o
coluna representa as diferenças entre cada retorno para Excelsior na amostra e a amostra a dizer-
coluna representa o quadrado diferença entre cada retorno à Excelsior e a média da amostra. A soma do
coluna contém o numerador na fórmula variância da amostra. Você dividir esse número por aquele tamanho da amostra menos (5 - 1 = 4) para obter a variação da amostra de X:
O desvio padrão da amostra de X é a raiz quadrada de 4,5, ou
A tabela mostra os cálculos para a variância da amostra de Y.
Com base nos cálculos na tabela, a variação da amostra de Y é igual a
O desvio padrão da amostra de Y é igual à raiz quadrada de 5, ou
Substituindo estes valores na fórmula de correlação da amostra dá-lhe
O resultado negativo mostra que há uma correlação negativa fraca entre os retornos das ações de Excelsior e Adirondack. Se duas variáveis são perfeitamente correlacionados negativamente (eles sempre mover-se em sentidos opostos), a sua correlação será -1. Se duas variáveis são independente (Não relacionado com o outro), a sua correlação será 0. A correlação entre os retornos para Excelsior e estoque de Adirondack é um -0,2108, o que indica que as duas variáveis mostram uma ligeira tendência para se mover em direcções opostas.