Como criar um modelo de análise preditiva de classificação r
Video: Tutorial - como fazer vídeos de análise de animes zueiras! e perguntas e respostas
Conteúdo
Você quer criar um modelo de análise preditiva que você possa avaliar com resultados conhecidos. Para fazer isso, dividir o sementes dataset em dois conjuntos: um para treinamento do modelo e outro para testar o modelo. Uma 70/30 divisão entre treinamento e teste conjuntos de dados será suficiente. As próximas duas linhas de calcular código e armazenar os tamanhos de cada conjunto de dados:
gt; trainSize lt; - redondo (nrow (sementes) * 0.7) gt; testSize lt; - nrow (sementes) - trainSize
Para emitir os valores, digite o nome da variável que você usou para armazenar o valor e pressione Enter. Aqui está a saída:
gt; trainSize [1] 147gt; testSize [1] 63
Este código determina os tamanhos para os conjuntos de dados de treinamento e teste. você paraíso&rsquo-t realmente criou os conjuntos ainda. Além disso, você don&rsquo-t quer apenas as primeiras 147 observações para ser o conjunto de treinamento e os últimos 63 observações para ser o conjunto de teste. Isso criaria um modelo ruim, porque o sementes dataset é ordenado na coluna rótulo.
Video: Como fazer um Resumo TOP!
Assim você tem que fazer tanto o conjunto de treinamento eo representante conjunto de teste de todo o conjunto de dados. Uma maneira de fazer isso é criar o conjunto de treinamento de uma seleção aleatória de todo o conjunto de dados.
Além disso, você quiser fazer este teste reproduzível para que você possa aprender com o mesmo exemplo. Você pode fazer isso definindo o conjunto de dados para o gerador aleatório para que você tenha a mesma &ldquo-aleatório&conjunto de treinamento rdquo-, como este:
gt; set.seed (123) gt; training_indices lt; - amostra (seq_len (nrow (sementes)),
tamanho = trainSize) gt; conjunto de trem lt; - sementes [training_indices,] gt; testSet lt; - sementes [-training_indices,]
O conjunto de treinamento que você começa a partir deste código contém 147 observações, juntamente com um resultado (seedType) De cada observação. Ao criar o modelo, você dirá o algoritmo que variável é o resultado. O algoritmo de classificação usa esses resultados para treinar o modelo de olhar para as relações entre as variáveis preditivas (nenhum dos sete atributos) e a etiqueta (seedType).
O conjunto de teste contém o resto dos dados, ou seja, todos os dados não incluídos no conjunto de treinamento. Observe que o teste conjunto inclui também o rótulo (seedType). Quando você usa o prever função (do modelo) com o conjunto de teste, ele ignora o rótulo e utiliza apenas as variáveis de previsão, contanto que os nomes de coluna são as mesmas que eles estão no conjunto de treinamento.
o festa pacote é um dos vários pacotes em R que criam árvores de decisão. (Outros pacotes common-árvore de decisão incluem rpart, árvore, e Floresta aleatória.) O próximo passo é usar o pacote para criar um modelo de árvore de decisão, utilizando seedType como a variável de destino e todas as outras variáveis como variáveis de previsão. O primeiro passo nesse processo é instalar o pacote e carregá-lo em nossa sessão R.
Digite as seguintes linhas de código para instalar e carregar o festa pacote:
gt; install.packages ("festa") Gt; biblioteca (partido)
Agora você está pronto para treinar o modelo. Digite a seguinte linha de código:
gt; modelo lt; - ctree (. seedType ~, dados = COMPOSIÇÕES)
Para fazer previsões com novos dados, você simplesmente usar a função om uma lista dos sete valores de atributos. O código a seguir faz isso:
gt; newPrediction lt; - prever (lista modelo (área = 11,
perímetro = 13, compacidade = 0,855, comprimento = 5,
largura = 2,8, assimetria = 6,5, length2 = 5),
= intervalo"prever", Nível = 0,95)
Este é o código e saída do novo valor previsão.
gt; newPrediction [1] 3levels: 1 2 3
A previsão era de sementes do tipo 3, que não é surpreendente, porque os valores foram deliberadamente escolhido que estavam perto de observação # 165.