Estatísticas de negócio: usar a análise de regressão para determinar a validade das relações

A análise de regressão é uma das técnicas estatísticas mais importantes para aplicações de negócios. É uma metodologia estatística que ajuda a estimar a força ea direção da relação entre duas ou mais variáveis. O analista pode usar a análise de regressão para determinar a relação real entre essas variáveis, olhando para as vendas e os lucros de uma empresa ao longo dos últimos anos. Os resultados da regressão mostrar se essa relação é válida.

Video: Estatística - correlação e regressão - exercício 10

Além das vendas, outros fatores também podem determinar os lucros da corporação, ou pode revelar-se que as vendas não explicam lucros em tudo. Em particular, os pesquisadores, analistas, gestores de carteira, e os comerciantes podem usar a análise de regressão para estimar relações históricas entre diferentes ativos financeiros. Eles podem então usar esta informação para desenvolver estratégias de negociação e medir o risco contido em uma carteira.

A análise de regressão é uma ferramenta indispensável para a análise de relações entre as variáveis ​​financeiras. Por exemplo, ele pode:

  • Identificar os fatores que são mais responsáveis ​​por lucros de uma empresa

  • Determinar o quanto uma alteração nas taxas de juros terão impacto numa carteira de obrigações

  • Desenvolver uma previsão do valor futuro do Dow Jones Industrial Average

As dez seções a seguir descrevem as etapas usadas para implementar um modelo de regressão e analisar os resultados.

Passo 1: Especificar a variável dependente e independente (s)

Para implementar um modelo de regressão, é importante especificar corretamente a relação entre as variáveis ​​sendo usado. O valor de uma variável dependente assume-se estar relacionada com o valor de um ou mais variáveis ​​independentes. Por exemplo, suponha que um pesquisador está investigando os fatores que determinam a taxa de inflação. Se o pesquisador acredita que a taxa de inflação depende da taxa de crescimento da oferta de dinheiro, ele pode estimar um modelo de regressão usando a taxa de inflação como variável dependente ea taxa de crescimento da oferta de dinheiro como a variável independente.

Um modelo de regressão com base em uma única variável independente é conhecido como um simples Modelo- de regressão com duas ou mais variáveis ​​independentes, o modelo é conhecido como um múltiplo modelo de regressão.

Passo 2: Verificar a existência de linearidade

Um dos pressupostos fundamentais da análise de regressão é que a relação entre as variáveis ​​dependentes e independentes é linear (Isto é, a relação pode ser ilustrada com um linha reta.) Uma das formas mais rápidas de verificar isso é representar graficamente as variáveis ​​usando um gráfico de dispersão. Um gráfico de dispersão mostra a relação entre duas variáveis ​​com a variável dependente (Y) no eixo vertical e a variável independente (X) no eixo horizontal.

Por exemplo, suponha que um analista acredita que o excesso de volta ao estoque Coca-Cola dependem dos retornos excedentes para o Standard and Poors (S&P) 500. (O excesso de retorno a um estoque é igual ao retorno real menos o rendimento de um título do tesouro.) Usando dados mensais de setembro de 2008 a agosto de 2013, a seguinte imagem mostra o excesso retorna ao S&P 500 no eixo horizontal, enquanto que os rendimentos em excesso para a Coca-Cola são no eixo vertical.

Pode ser visto a partir do gráfico de dispersão que esta relação é de pelo menos aproximadamente linear. Portanto, regressão linear, podem ser utilizados para estimar a relação entre estas duas variáveis.

Passo 3: Verifique abordagens alternativas se as variáveis ​​não são lineares

Se o dependente especificado (Y) e independente (X) variáveis ​​não têm uma relação linear entre eles, pode ser possível transformar estas variáveis ​​para que eles têm uma relação linear. Por exemplo, pode ser que a relação entre o logaritmo natural de Y e X é linear. Outra possibilidade é que a relação entre o logaritmo natural de Y e o logaritmo natural de X é linear. É também possível que a relação entre a raiz quadrada de Y e X é linear.

Se essas transformações não produzem uma relação linear, as variáveis ​​independentes alternativos podem ser escolhidos que explicar melhor o valor da variável dependente.

Passo 4: estimar o modelo

O modelo de regressão linear padrão pode ser estimada com uma técnica conhecida como ordinária menos praças. Isto resulta em fórmulas para o declive e ordenada na origem da equação de regressão que “encaixar” a relação entre a variável independente (X) e variável dependente (Y) o mais próximo possível.

Por exemplo, as tabelas a seguir mostram os resultados de estimar um modelo de regressão para os retornos excedentes para estoque Coca-Cola eo S&P 500 durante o período de setembro de 2008 a agosto 2013.

Neste modelo, o excesso de volta ao estoque Coca-Cola são a variável dependente, enquanto o excesso de volta para o S&P 500 são a variável independente. Na coluna Coeficientes, ele pode ser visto que a interceptação estimado da equação de regressão é 0,007893308, ea inclinação estimado é de 0,48927098.

Passos 5: Teste do ajuste do modelo, utilizando o coeficiente de variação

O coeficiente de variação (também conhecida como R2) É utilizado para determinar quão perto um modelo de regressão “cabe” ou explica a relação entre a variável independente (X) e a variável dependente (Y). R2 pode assumir um valor entre 0 e 1 a aproximar R2 é 1, melhor o modelo de regressão explica os dados observados.



Como se mostra nas tabelas a partir do Passo 4, o coeficiente de variação é mostrada como “R-quadrado” - esta é igual a 0,271795467. O ajuste não é particularmente forte. Muito provavelmente, o modelo está incompleta, tal como outros que os rendimentos em excesso para o S factores&P 500 também determinar ou explicar o excesso de volta ao estoque Coca-Cola.

Para um modelo de regressão múltipla, o coeficiente de determinação ajustado é usado em vez do coeficiente de determinação para testar a adequação do modelo de regressão.

Passo 6: Realizar um teste de hipótese conjunta sobre os coeficientes

Uma equação de regressão múltipla é utilizado para estimar a relação entre a variável dependente (Y) e dois ou mais variáveis ​​independentes (X). Ao implementar um modelo de regressão múltipla, a qualidade geral dos resultados pode ser verificado com um teste de hipóteses. Neste caso, a hipótese nula é que todos os coeficientes de inclinação do modelo igual a zero, com a hipótese alternativa de que pelo menos um dos coeficientes de inclinação não é igual a zero.

Video: Aplicações Estatísticas (Hidrologia): Precipitações Médias Anuais nas Regiões Hidrográficas do Ceará

Se esta hipótese não pode ser rejeitada, as variáveis ​​independentes fazer não explicar o valor da variável dependente. Se a hipótese for rejeitada, pelo menos uma das variáveis ​​independentes não explica o valor da variável dependente.

Passo 7: Executar testes de hipóteses sobre os coeficientes de regressão individuais

Cada coeficiente estimado em uma equação de regressão deve ser testado para determinar se é estatisticamente significativa. Se um coeficiente é estatisticamente significativa, a variável correspondente ajuda a explicar o valor da variável dependente (Y). A hipótese nula de que está sendo testado é que o coeficiente é igual a zero, se esta hipótese não pode ser rejeitada, a variável correspondente é não estatisticamente significativo.

Este tipo de teste de hipóteses pode ser conduzida com um p-valor (Também conhecido como um valor de probabilidade.) Os quadros do Passo 4 mostram que o valor p relacionado com o coeficiente angular é 1,94506 E-05. Esta expressão é escrita em termos de notação científica- ele também pode ser escrita como 1,94506 X 10-5 ou 0,0000194506.

O p-valor é comparado com o nível de significância do teste de hipótese. Se o p-valor é menos que o nível de significância, a hipótese nula de que o coeficiente é igual a zero é rejected- a variável é, por conseguinte, estatisticamente significativa.

Neste exemplo, o nível de significância de 0,05. O valor de p de 0,0000194506 indica que o declive desta equação é estatisticamente significant- por exemplo, o excesso de volta para o S&P 500 explicar o excesso de volta ao estoque Coca-Cola.

Passo 8: Verifique se há violações dos pressupostos da análise de regressão

A análise de regressão é baseada em várias suposições-chave. Violações dessas suposições podem levar a resultados imprecisos. Três das violações mais importantes que podem ser encontrados são conhecidos como: autocorrelação, heteroscedasticidade e multicolinearidade.

  • Autocorrelação resulta quando os resíduos de um modelo de regressão não são independentes uns dos outros. (Um residual é igual à diferença entre o valor de Y por uma equação de regressão e o valor real de Y.)

    Autocorrelação pode ser detectado a partir de gráficos dos resíduos ou usando medidas estatísticas mais formais, tais como a estatística de Durbin-Watson. Autocorrelação pode ser eliminada com transformações adequadas das variáveis ​​de regressão.

  • heteroscedasticidade refere-se a uma situação em que as variâncias dos resíduos de um modelo de regressão não são iguais. Este problema pode ser identificado com um enredo das transformações residuals- dos dados pode às vezes ser usado para superar este problema.

  • multicolinearidade é um problema que só pode surgir com a análise de regressão múltipla. Ele refere-se a uma situação em que duas ou mais das variáveis ​​independentes estão altamente correlacionados uns com os outros. Este problema pode ser detectado com medidas estatísticas formais, como o fator de inflação da variância (VIF). Quando multicollinearity está presente, uma das variáveis ​​altamente correlacionados deve ser removido a partir da equação de regressão.

Passo 9: Interpretação dos resultados

O intercepto estimado e coeficiente de um modelo de regressão pode ser interpretado como se segue. A intercepção mostra que o valor de Y seria se X foram iguais a zero. O declive mostra o impacto sobre o Y de uma mudança em X.

Com base nas tabelas no Passo 4, a intercepção estimado é 0,007893308. Isso indica que o excesso de retorno mensal para ações da Coca-Cola seria 0,007893308 ou 0,7893308 por cento, se o excesso de retorno mensal para o S&P 500 foram de 0 por cento.

Além disso, a inclinação estimado é de 0,48927098. Isto indica que um aumento de 1 por cento em excesso de retorno mensal para o S&P 500 resultaria em um aumento de 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola. De forma equivalente, um 1 por cento diminuir o excesso de retorno mensal para o S&P 500 resultaria em uma diminuição 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola.

Passo 10: prever valores futuros

Um modelo de regressão estimado pode ser usado para produzir previsões do futuro valor da variável dependente. Neste exemplo, a equação estimada é:

Suponha que um analista tem razão para acreditar que o excesso de retorno mensal para o S&P 500 em Setembro de 2013 será de 0,005 ou 0,5 por cento. A equação de regressão pode ser usada para prever o excesso de retorno mensal para ações da Coca-Cola como segue:

O excesso de retorno mensal previsto para estoque Coca-Cola é 0,010339663 ou 1,0339663 por cento.


Publicações relacionadas