Como explicar os resultados analíticos preditivos de regressão r

Depois de criar um modelo de regressão R para análise preditiva, você quer ser capaz de explicar os resultados da análise. Para ver algumas informações úteis sobre o modelo, digite o seguinte código:

Conteúdo

Video: regressão linear múltipla - introdução
Video: correlação e regressão lineares - parte 1

gt; resumo (modelo)

A saída fornece informações que você pode explorar se você quiser ajustar o seu modelo mais. Por enquanto, vamos deixar o modelo como ela é. Aqui estão as duas últimas linhas da saída:

Multiple quadrado-R: 0,8741, ajustado-R ao quadrado: 0.8633F-estatística: 80.82, em 22 e 256 DF, p-value: lt; 2.2e-16

Um par de pontos de dados se destacam aqui:

o R-quadrado múltiplo valor informa o quão bem a linha de regressão ajusta aos dados (bondade de ajuste). Um valor de 1 significa que é um ajuste perfeito. Assim, uma r-quadrado valor de 0,874 é bom- diz que 87,4 por cento da variabilidade mpg é explicada pelo modelo.
o p-valor diz-lhe como significativas as variáveis de previsão afetam a variável de resposta. UMA p-valor de menos do que 0,05 (tipicamente) meios que podem ser rejeição da hipótese nula de que as variáveis de previsão têm colectivamente nenhum efeito sobre a variável de resposta (mpg). o p-valor de 2.2e-16 (isto é, 2,2 a 16 zeros em frente do mesmo) é muito menor do que 0,05, de modo que os preditores ter um efeito sobre a resposta.

Com o modelo criado, você pode fazer previsões contra ela com os dados de teste que você particionado do conjunto de dados completo. Para usar este modelo para prever o para cada linha do conjunto de teste, você emitir o seguinte comando:

gt; previsões lt; - prever (modelo, testSet,
 = intervalo"prever", Nível = 0,95)

Este é o código ea saída dos primeiros seis previsões:

gt; cabeça (previsões) LWR ajuste upr2 10,530223 22,449644 18,16543 16,48993 12,204615 24,126255 12,402524 24,397326 18,39992 12,09295 6,023341 11,37966 5,186428 18,162577 17,572898 5,527497 11,66368 17,79985

A saída é uma matriz que mostra os valores previstos na em forma coluna e o intervalo de predição no LWR e UPR colunas - com um nível de confiança de 95 por cento. Quanto maior for o nível de confiança, o mais largo do intervalo, e vice-versa.

Video: Regressão Linear Múltipla - Introdução

O valor previsto é no meio da gama-mudando assim o nível de confiança não altera o valor previsto. A primeira coluna é o número da linha do conjunto de dados completo.

Para ver o lado valores reais e previstos a lado para que você possa facilmente compará-los, você pode digitar as seguintes linhas de código:

gt; comparação lt; - cbind (testSet $ mpg, previsões [, 1]) gt; COLNAMES (comparação) lt; - c ("real", "previu")

A primeira linha cria uma matriz de duas colunas com os valores reais e preditos. A segunda linha muda os nomes das colunas para reais e preditos. Tipo na primeira linha de código para obter a saída dos primeiros seis linhas de comparação, do seguinte modo:

gt; cabeça (comparação) predicted2 real 15 16,489934 18,165435 16 17 15 18,399926 12,092957 11,379668 14 14 11,66368

Nós também queremos ver um resumo das duas colunas de comparar os seus meios. Este é o código ea saída do resumo:

gt; Resumo (comparação) actualpredictedMin. : 10,00 min. : 8.8491st Qu.:16.00 1º Qu.:17.070Median: 21.50 Median: 22.912Mean: 22.79 Média: 23.0483rd Qu.:28.00 3ª Qu.:29.519Max. : 44.30 Max. : 37,643

Em seguida, você usar o erro percentual absoluto médio (mape), Para medir a precisão do nosso modelo de regressão. A fórmula para o erro médio absoluto por cento é

(Σ (| Y-Y’| / | Y |) / N) * 100

em que Y é a pontuação real, Y’é o marcador predito, e N é o número de contagens preditos. Depois de ligar os valores na fórmula, você receber um erro de apenas 10,94 por cento. Aqui está o código e a saída do console de R:

gt; mape lt; - (soma (abs (comparação [, 1] -Comparação [, 2]) / ABS (comparação [, 1])) / nrow (comparação)) * 100gt; mape [1] 10,93689

O código a seguir permite visualizar os resultados e erros em uma exibição de tabela:

gt; mapeTable lt; - cbind (comparação, ABS (comparação [, 1] - comparação [, 2]) / comparação [, 1] * 100) gt; COLNAMES (mapeTable) [3] lt; - "erro absoluto por cento"gt; cabeça (mapeTable) real prevista por cento error2 absoluto 16,48993 9,9328894 16 15 18,16543 18,39992 8,2348406 13,5339525 17 15 12,09295 11,37966 14 19,3803097 18,7167088 14 11,66368 16,688031

Aqui está o código que lhe permite ver o erro por cento novamente:

Video: Correlação e Regressão Lineares - parte 1

gt; soma (mapeTable [, 3]) / nrow (comparação)
 [1] 10,93689