Como calcular uma linha de regressão

Nas estatísticas, é possível calcular uma linha de regressão para duas variáveis ​​se o seu scatterplot

mostra um padrão linear e a correlação entre as variáveis ​​é muito forte (por exemplo, r = 0,98). A linha de regressão é simplesmente uma única linha que melhor se ajusta aos dados (em termos de ter a distância menor geral a partir da linha dos pontos). Os estatísticos chamam esta técnica para encontrar a linha mais apropriado um linear simples A análise de regressão pelo método dos mínimos quadrados.

Dispersão de grilos em relação à temperatura exterior.
Dispersão de grilos em relação à temperatura exterior.

A fórmula para o linha de melhor ajuste (ou linha de regressão) é y = mx + b, Onde m é a inclinação da linha e b é o y-interceptar. Esta equação em si é o mesmo usado para encontrar uma linha em algebra- mas lembre-se, nas estatísticas os pontos não mentem perfeitamente em uma linha - a linha é um modelo em torno do qual os dados se encontram, se existe um padrão linear forte.

  • o declive de uma linha é a mudança na Y sobre a mudança na X. Por exemplo, uma inclinação de

    significa como o X-aumenta de valor (move para a direita) por 3 unidades, o y-valor move-se por 10 unidades, em média.

  • o y-intercept é o valor no eixo dos y, onde a linha atravessa. Por exemplo, na equação y = 2X - 6, a linha atravessa a y-eixo no valor de b = -6. As coordenadas deste ponto são (0, -6) - quando uma linha atravessa a y-eixo, o X-valor é sempre 0.

Você pode estar pensando que você tem que tentar muitas e muitas linhas diferentes para ver qual deles se encaixa melhor. Felizmente, você tem uma opção mais simples (embora eyeballing uma linha no gráfico de dispersão faz ajudá-lo a pensar sobre o que você esperaria a resposta a ser). A linha melhor-encaixe tem uma inclinação distinta e y-intercepção que pode ser calculada utilizando fórmulas (e essas fórmulas não são muito difíceis de calcular).

Para salvar uma grande quantidade de tempo calculando a melhor linha de montagem, primeiro encontrar os “cinco grandes”, cinco estatísticas de resumo que você precisa em seus cálculos:

  1. A média do X valores

  2. A média do y valores

  3. O desvio padrão do X valores (denotado sX)



  4. O desvio padrão do y valores (denotado sy)

  5. A correlação entre X e Y (denotado r)

Encontrar a inclinação de uma linha de regressão

A fórmula para a inclinação, m, da linha de melhor ajuste é

Onde r representa a correlação entre X e Y, e sX e sy são os desvios padrão do X-valores e o y-valores, respectivamente. Você simplesmente dividir sy de sX e multiplicar o resultado por r.

Note-se que a inclinação da linha de melhor ajuste pode ser um número negativo porque a correlação pode ser um número negativo. A inclinação negativa indica que a linha está indo ladeira abaixo. Por exemplo, se um aumento na policiais está relacionada com uma diminuição no número de crimes em um moda- linear, em seguida, a correlação e, portanto, a inclinação da linha de melhor encaixe é negativo neste caso.

A correlação ea inclinação da linha melhor-encaixe não são os mesmos. o fórmula do declive leva a correlação (uma medição sem unidade) e atribui unidades a ele. Imagine sy dividido por sX como a variação (semelhante a mudança) em Y através da variação X, em unidades de X e Y. Por exemplo, variação da temperatura (graus Celsius) através da variação no número de grilos (em 15 segundos).

Encontrar a intercepção y de uma linha de regressão

A fórmula para o y-interceptar, b, da linha de melhor ajuste é

são os meios da X-valores e o y-valores, respectivamente, e m é a inclinação.

Assim, para calcular o y-interceptar, b, da linha de melhor-encaixe, você começar por encontrar a inclinação, m, da linha de melhor ajuste usando os passos acima descritos. Então, para encontrar o y-interceptar, você multiplicar m de

Video: Reta de Regressão no EXCEL

Sempre calcular a inclinação antes do y-interceptar. A fórmula para o y-interceptar contém a inclinação!


Publicações relacionadas