Construção de modelos com regressão passo a passo

Uma das razões (mas não a única razão) para a execução de uma análise de regressão múltipla é chegar com uma fórmula de previsão por alguma variável de resultado, com base em um conjunto de variáveis ​​de previsão disponíveis. Idealmente, você gostaria que essa fórmula seja parcimonioso

- ter o menor número de variáveis ​​possível, mas ainda fazer boas previsões.

Então, como você selecionar, dentre um grupo grande de variáveis ​​de previsão, o menor subconjunto necessário para fazer um bom modelo de previsão? Isso é chamado o problema “modelo de construção”, que é um tema de pesquisa ativa por estatísticos teóricos. Nenhum método surgiu como a melhor maneira de selecionar quais as variáveis ​​a incluir. Infelizmente, os pesquisadores costumam usar métodos informais que parecem razoáveis, mas realmente não são muito bons, como os seguintes:

  • Fazer uma grande regressão múltipla usando todos os preditores disponíveis, e em seguida, solte os que não saem significativo. Esta abordagem pode perder algumas importantes preditores por causa de colinearidade.

  • Executar regressões univariadas em cada preditor possível individualmente, e depois selecionar apenas aqueles preditores que foram significativos (ou quase significativa) nos testes univariados. Mas às vezes uma variável de previsão verdadeiramente importante não é significativamente associada com o resultado, quando testado por si só, mas apenas quando os efeitos de alguma outra variável foram compensados. Este problema é o inverso do problema significado desaparecendo - não é tão comum, mas pode acontecer.

Não há outra maneira - muitas estatísticas pacotes oferecem de regressão, em que você fornecer todas as variáveis ​​de previsão disponíveis, eo programa, em seguida, passa por um processo semelhante ao que um ser humano (com uma mente lógica e um monte de tempo em suas mãos) pode fazer para identificar o melhor subconjunto desses preditores. O programa tenta muito sistematicamente adicionar e remover os vários preditores do modelo, um de cada vez, olhando para ver qual preditores, quando adicionado a um modelo, melhorar substancialmente a sua capacidade preditiva, ou quando removida do modelo, torná-la substancialmente pior.



de regressão pode utilizar vários algoritmos diferentes, e os modelos podem ser julgados a ser melhor ou pior por vários critérios diferentes. Em geral, estes métodos geralmente fazem um trabalho digno do seguinte:

  • Detectar e soltando variáveis ​​que não estão associados com o resultado, tanto na regressão uni ou múltipla

    Video: Construção chalé

  • Detectar e soltando variáveis ​​redundantes (Preditores que estão fortemente associados com ainda melhores preditores do resultado)

    Video: Construção de Rancho de Eucalipto - Eucalipto tratado da cidade de SALES

  • Detectar e incluindo variáveis ​​que podem não ter sido significativo na regressão univariada, mas que são importantes quando você ajustar os efeitos de outras variáveis

    Video: Conheça os modelos de telhados mais usados na construção civil

A maioria dos softwares de regressão também permite “forçar” certas variáveis ​​no modelo, se você sabe (a partir de evidências fisiológicas) que estas variáveis ​​são importantes preditores do resultado.


Publicações relacionadas