Como utilizar regressões lineares em análise preditiva

Regressão linear

é um método estatístico que analisa e encontra relações entre duas variáveis. Na análise preditiva pode ser usado para prever um futuro valor numérico de uma variável.

Video: Curso de ESTATÍSTICA Como calcular o Coeficiente de Correlação Linear de Pearson Função CORREL()

Considere um exemplo de dados que contém duas variáveis: dados passados ​​que consiste nos tempos de chegada de um trem e seu tempo de atraso correspondente. Suponha que você queira prever o que o atraso seria o próximo trem. Se você aplicar regressão linear para estas duas variáveis ​​- a chegada e tempos de atraso - você pode gerar uma equação linear, como

Atraso = a + (b * A hora de chegada) + d



Esta equação expressa a relação entre tempo de atraso e hora de chegada. as constantes uma e b são parâmetros do modelo. a variável d é o termo de erro (Também conhecido como o restante) - um valor numérico que representa a incompatibilidade entre as duas variáveis demora e tempo de chegada. Se o erro não for igual a zero, então isso pode indicar que há critérios que afetam a variável demora.

Se você está sentado na estação de trem, você pode simplesmente ligar o tempo de chegada na equação anterior e você pode calcular o atraso esperado, utilizando determinados parâmetros do modelo de regressão linear a, b, e d.

Video: Dedução parâmetros regressão linear

A regressão linear é (como você pode imaginar) mais adequado para os dados lineares. Mas é muito sensível para os outliers nos pontos de dados. Os valores discrepantes em seus dados pode ter um impacto significativo sobre o modelo. É recomendável que você remover esses valores extremos do conjunto de treinamento se você estiver planejando usar regressão linear para o seu modelo preditivo.


Publicações relacionadas