Como criar um modelo de análise preditiva com regressão r

Você quer criar um modelo de análise preditiva que você pode avaliar usando os resultados conhecidos. Para fazer isso, vamos dividir nosso conjunto de dados em dois grupos: um para treinamento do modelo e outro para testar o modelo. Uma 70/30 divisão entre treinamento e teste conjuntos de dados será suficiente. As próximas duas linhas de calcular código e armazenar os tamanhos de cada conjunto:

gt; trainSize lt; - redondo (nrow (automóveis) * 0.7) gt; testSize lt; - nrow (automóveis) - trainSize

Para emitir os valores, digite o nome da variável usada para armazenar o valor e pressione Enter. Aqui está a saída:

gt; trainSize [1] 279gt; testSize [1] 119

Este código determina os tamanhos dos conjuntos de dados que você pretende fazer com que nossos conjuntos de dados de treinamento e teste. Ainda não realmente criado esses conjuntos. Além disso, você não quer simplesmente para chamar as primeiras 279 observações do conjunto de treinamento e chamar os últimos 119 observações do conjunto de teste. Isso criaria um modelo ruim, porque o conjunto de dados aparece ordenada. Especificamente, o ano modelo coluna é ordenada do menor para o maior.

De examinar os dados, você pode ver que a maior parte do mais pesado, de oito cilindros, grande-deslocamento, automóveis maior cavalos de potência residem no topo do conjunto de dados. A partir desta observação, sem ter que executar quaisquer algoritmos sobre os dados, você já pode dizer que (em geral para este conjunto de dados) carros mais velhos em comparação com carros mais novos como se segue:

  • são mais pesados

  • Tem oito cilindros

  • Têm maior deslocamento

  • Tem maior potência

Video: ��Como fazer uma regressão linear no Excel

Ok, obviamente, muitas pessoas não sabem algo sobre automóveis, assim que um palpite sobre o que as correlações são não vai ser muito improvável depois de ver os dados. Alguém com um monte de conhecimento automóvel já pode ter conhecido este sem sequer olhar para os dados.



Este é apenas um exemplo simples de um domínio (carros) que muitas pessoas podem se relacionar. Se isso fosse dados sobre o câncer, no entanto, a maioria das pessoas não entendem imediatamente o que significa que cada atributo.

Video: Como fazer uma regressão linear simples no R

Isto é onde um especialista de domínio e um modelador de dados são vitais para o processo de modelagem. Especialistas de domínio pode ter o melhor conhecimento de quais atributos pode ser a mais (ou menos) importante - e como os atributos correlacionados uns com os outros.

Eles podem sugerir para o modelador de dados que variáveis ​​para experimentar. Eles podem dar maiores pesos para atributos mais importantes e / ou pesos menores para atributos de menor importância (ou removê-los completamente).

Então você tem que fazer um conjunto de dados de treinamento e um conjunto de dados de teste que são verdadeiramente representativa de todo o conjunto. Uma maneira de fazer isso é criar o conjunto de treinamento de uma seleção aleatória de todo o conjunto de dados. Além disso, você quiser fazer este teste reproduzível para que você possa aprender com o mesmo exemplo.

Assim, definir a semente para o gerador aleatório por isso vamos ter o mesmo conjunto de treinamento “aleatório”. O código a seguir faz essa tarefa:

Video: Grings Correlação e Regressão linear aula 22

gt; set.seed (123) gt; training_indices lt; - amostra (seq_len (nrow (automóveis)),
tamanho = trainSize) gt; conjunto de trem lt; - automóveis [training_indices,] gt; testSet lt; - automóveis [-training_indices,]

O conjunto de treinamento contém 279 observações, juntamente com o resultado (mpg) De cada observação. O algoritmo de regressão usa o resultado para treinar o modelo de olhar para as relações entre as variáveis ​​preditivas (nenhum dos sete atributos) ea variável resposta (mpg).

O conjunto de teste contém o resto dos dados (isto é, a porção não estão incluídos no conjunto de treino). Você deve perceber que o teste conjunto inclui também a resposta (mpg) variável.

Quando você usa o prever função (do modelo) com o conjunto de teste, ele ignora a variável resposta e utiliza apenas as variáveis ​​de previsão, enquanto os nomes das colunas são os mesmos que os do conjunto de treinamento.

Para criar um modelo de regressão linear que utiliza a mpg atributo como variável de resposta e todas as outras variáveis ​​como variáveis ​​de previsão, em tipo a seguinte linha de código:

gt; modelo lt; - lm (. = fórmula COMPOSIÇÕES $ mpg ~, dados = COMPOSIÇÕES)

Publicações relacionadas