Estatísticas de negócio: usar a análise de regressão para determinar a validade das relações
A análise de regressão é uma das técnicas estatísticas mais importantes para aplicações de negócios. É uma metodologia estatística que ajuda a estimar a força ea direção da relação entre duas ou mais variáveis. O analista pode usar a análise de regressão para determinar a relação real entre essas variáveis, olhando para as vendas e os lucros de uma empresa ao longo dos últimos anos. Os resultados da regressão mostrar se essa relação é válida.
Conteúdo
- Video: estatística - correlação e regressão - exercício 10
- Passo 1: especificar a variável dependente e independente (s)
- Passo 2: verificar a existência de linearidade
- Passo 3: verifique abordagens alternativas se as variáveis não são lineares
- Passo 4: estimar o modelo
- Passos 5: teste do ajuste do modelo, utilizando o coeficiente de variação
- Passo 6: realizar um teste de hipótese conjunta sobre os coeficientes
- Video: aplicações estatísticas (hidrologia): precipitações médias anuais nas regiões hidrográficas do ceará
- Passo 7: executar testes de hipóteses sobre os coeficientes de regressão individuais
- Passo 8: verifique se há violações dos pressupostos da análise de regressão
- Passo 9: interpretação dos resultados
- Passo 10: prever valores futuros
Video: Estatística - correlação e regressão - exercício 10
Além das vendas, outros fatores também podem determinar os lucros da corporação, ou pode revelar-se que as vendas não explicam lucros em tudo. Em particular, os pesquisadores, analistas, gestores de carteira, e os comerciantes podem usar a análise de regressão para estimar relações históricas entre diferentes ativos financeiros. Eles podem então usar esta informação para desenvolver estratégias de negociação e medir o risco contido em uma carteira.
A análise de regressão é uma ferramenta indispensável para a análise de relações entre as variáveis financeiras. Por exemplo, ele pode:
Identificar os fatores que são mais responsáveis por lucros de uma empresa
Determinar o quanto uma alteração nas taxas de juros terão impacto numa carteira de obrigações
Desenvolver uma previsão do valor futuro do Dow Jones Industrial Average
As dez seções a seguir descrevem as etapas usadas para implementar um modelo de regressão e analisar os resultados.
Passo 1: Especificar a variável dependente e independente (s)
Para implementar um modelo de regressão, é importante especificar corretamente a relação entre as variáveis sendo usado. O valor de uma variável dependente assume-se estar relacionada com o valor de um ou mais variáveis independentes. Por exemplo, suponha que um pesquisador está investigando os fatores que determinam a taxa de inflação. Se o pesquisador acredita que a taxa de inflação depende da taxa de crescimento da oferta de dinheiro, ele pode estimar um modelo de regressão usando a taxa de inflação como variável dependente ea taxa de crescimento da oferta de dinheiro como a variável independente.
Um modelo de regressão com base em uma única variável independente é conhecido como um simples Modelo- de regressão com duas ou mais variáveis independentes, o modelo é conhecido como um múltiplo modelo de regressão.
Passo 2: Verificar a existência de linearidade
Um dos pressupostos fundamentais da análise de regressão é que a relação entre as variáveis dependentes e independentes é linear (Isto é, a relação pode ser ilustrada com um linha reta.) Uma das formas mais rápidas de verificar isso é representar graficamente as variáveis usando um gráfico de dispersão. Um gráfico de dispersão mostra a relação entre duas variáveis com a variável dependente (Y) no eixo vertical e a variável independente (X) no eixo horizontal.
Por exemplo, suponha que um analista acredita que o excesso de volta ao estoque Coca-Cola dependem dos retornos excedentes para o Standard and Poors (S&P) 500. (O excesso de retorno a um estoque é igual ao retorno real menos o rendimento de um título do tesouro.) Usando dados mensais de setembro de 2008 a agosto de 2013, a seguinte imagem mostra o excesso retorna ao S&P 500 no eixo horizontal, enquanto que os rendimentos em excesso para a Coca-Cola são no eixo vertical.
Pode ser visto a partir do gráfico de dispersão que esta relação é de pelo menos aproximadamente linear. Portanto, regressão linear, podem ser utilizados para estimar a relação entre estas duas variáveis.
Passo 3: Verifique abordagens alternativas se as variáveis não são lineares
Se o dependente especificado (Y) e independente (X) variáveis não têm uma relação linear entre eles, pode ser possível transformar estas variáveis para que eles têm uma relação linear. Por exemplo, pode ser que a relação entre o logaritmo natural de Y e X é linear. Outra possibilidade é que a relação entre o logaritmo natural de Y e o logaritmo natural de X é linear. É também possível que a relação entre a raiz quadrada de Y e X é linear.
Se essas transformações não produzem uma relação linear, as variáveis independentes alternativos podem ser escolhidos que explicar melhor o valor da variável dependente.
Passo 4: estimar o modelo
O modelo de regressão linear padrão pode ser estimada com uma técnica conhecida como ordinária menos praças. Isto resulta em fórmulas para o declive e ordenada na origem da equação de regressão que “encaixar” a relação entre a variável independente (X) e variável dependente (Y) o mais próximo possível.
Por exemplo, as tabelas a seguir mostram os resultados de estimar um modelo de regressão para os retornos excedentes para estoque Coca-Cola eo S&P 500 durante o período de setembro de 2008 a agosto 2013.
Neste modelo, o excesso de volta ao estoque Coca-Cola são a variável dependente, enquanto o excesso de volta para o S&P 500 são a variável independente. Na coluna Coeficientes, ele pode ser visto que a interceptação estimado da equação de regressão é 0,007893308, ea inclinação estimado é de 0,48927098.
Passos 5: Teste do ajuste do modelo, utilizando o coeficiente de variação
O coeficiente de variação (também conhecida como R2) É utilizado para determinar quão perto um modelo de regressão “cabe” ou explica a relação entre a variável independente (X) e a variável dependente (Y). R2 pode assumir um valor entre 0 e 1 a aproximar R2 é 1, melhor o modelo de regressão explica os dados observados.
Como se mostra nas tabelas a partir do Passo 4, o coeficiente de variação é mostrada como “R-quadrado” - esta é igual a 0,271795467. O ajuste não é particularmente forte. Muito provavelmente, o modelo está incompleta, tal como outros que os rendimentos em excesso para o S factores&P 500 também determinar ou explicar o excesso de volta ao estoque Coca-Cola.
Para um modelo de regressão múltipla, o coeficiente de determinação ajustado é usado em vez do coeficiente de determinação para testar a adequação do modelo de regressão.
Passo 6: Realizar um teste de hipótese conjunta sobre os coeficientes
Uma equação de regressão múltipla é utilizado para estimar a relação entre a variável dependente (Y) e dois ou mais variáveis independentes (X). Ao implementar um modelo de regressão múltipla, a qualidade geral dos resultados pode ser verificado com um teste de hipóteses. Neste caso, a hipótese nula é que todos os coeficientes de inclinação do modelo igual a zero, com a hipótese alternativa de que pelo menos um dos coeficientes de inclinação não é igual a zero.
Video: Aplicações Estatísticas (Hidrologia): Precipitações Médias Anuais nas Regiões Hidrográficas do Ceará
Se esta hipótese não pode ser rejeitada, as variáveis independentes fazer não explicar o valor da variável dependente. Se a hipótese for rejeitada, pelo menos uma das variáveis independentes não explica o valor da variável dependente.
Passo 7: Executar testes de hipóteses sobre os coeficientes de regressão individuais
Cada coeficiente estimado em uma equação de regressão deve ser testado para determinar se é estatisticamente significativa. Se um coeficiente é estatisticamente significativa, a variável correspondente ajuda a explicar o valor da variável dependente (Y). A hipótese nula de que está sendo testado é que o coeficiente é igual a zero, se esta hipótese não pode ser rejeitada, a variável correspondente é não estatisticamente significativo.
Este tipo de teste de hipóteses pode ser conduzida com um p-valor (Também conhecido como um valor de probabilidade.) Os quadros do Passo 4 mostram que o valor p relacionado com o coeficiente angular é 1,94506 E-05. Esta expressão é escrita em termos de notação científica- ele também pode ser escrita como 1,94506 X 10-5 ou 0,0000194506.
O p-valor é comparado com o nível de significância do teste de hipótese. Se o p-valor é menos que o nível de significância, a hipótese nula de que o coeficiente é igual a zero é rejected- a variável é, por conseguinte, estatisticamente significativa.
Neste exemplo, o nível de significância de 0,05. O valor de p de 0,0000194506 indica que o declive desta equação é estatisticamente significant- por exemplo, o excesso de volta para o S&P 500 explicar o excesso de volta ao estoque Coca-Cola.
Passo 8: Verifique se há violações dos pressupostos da análise de regressão
A análise de regressão é baseada em várias suposições-chave. Violações dessas suposições podem levar a resultados imprecisos. Três das violações mais importantes que podem ser encontrados são conhecidos como: autocorrelação, heteroscedasticidade e multicolinearidade.
Autocorrelação resulta quando os resíduos de um modelo de regressão não são independentes uns dos outros. (Um residual é igual à diferença entre o valor de Y por uma equação de regressão e o valor real de Y.)
Autocorrelação pode ser detectado a partir de gráficos dos resíduos ou usando medidas estatísticas mais formais, tais como a estatística de Durbin-Watson. Autocorrelação pode ser eliminada com transformações adequadas das variáveis de regressão.
heteroscedasticidade refere-se a uma situação em que as variâncias dos resíduos de um modelo de regressão não são iguais. Este problema pode ser identificado com um enredo das transformações residuals- dos dados pode às vezes ser usado para superar este problema.
multicolinearidade é um problema que só pode surgir com a análise de regressão múltipla. Ele refere-se a uma situação em que duas ou mais das variáveis independentes estão altamente correlacionados uns com os outros. Este problema pode ser detectado com medidas estatísticas formais, como o fator de inflação da variância (VIF). Quando multicollinearity está presente, uma das variáveis altamente correlacionados deve ser removido a partir da equação de regressão.
Passo 9: Interpretação dos resultados
O intercepto estimado e coeficiente de um modelo de regressão pode ser interpretado como se segue. A intercepção mostra que o valor de Y seria se X foram iguais a zero. O declive mostra o impacto sobre o Y de uma mudança em X.
Com base nas tabelas no Passo 4, a intercepção estimado é 0,007893308. Isso indica que o excesso de retorno mensal para ações da Coca-Cola seria 0,007893308 ou 0,7893308 por cento, se o excesso de retorno mensal para o S&P 500 foram de 0 por cento.
Além disso, a inclinação estimado é de 0,48927098. Isto indica que um aumento de 1 por cento em excesso de retorno mensal para o S&P 500 resultaria em um aumento de 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola. De forma equivalente, um 1 por cento diminuir o excesso de retorno mensal para o S&P 500 resultaria em uma diminuição 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola.
Passo 10: prever valores futuros
Um modelo de regressão estimado pode ser usado para produzir previsões do futuro valor da variável dependente. Neste exemplo, a equação estimada é:
Suponha que um analista tem razão para acreditar que o excesso de retorno mensal para o S&P 500 em Setembro de 2013 será de 0,005 ou 0,5 por cento. A equação de regressão pode ser usada para prever o excesso de retorno mensal para ações da Coca-Cola como segue:
O excesso de retorno mensal previsto para estoque Coca-Cola é 0,010339663 ou 1,0339663 por cento.